RAG (Retrieval‐Augmented Generation) - tubtt/LLM_Fine_Tuning GitHub Wiki

RAG (Retrieval-Augmented Generation) đang trở thành một bước tiến quan trọng trong việc phát triển các ứng dụng AI thông minh và đáng tin cậy. Thay vì dựa hoàn toàn vào trí nhớ của các mô hình ngôn ngữ lớn (LLM), RAG kết hợp khả năng truy xuất thông tin từ các nguồn dữ liệu bên ngoài với sức mạnh suy luận của LLM.

Đây không chỉ là một công nghệ mới, mà còn mang tính đột phá khi tách riêng kiến thức và khả năng suy luận, mang đến độ chính xác cao hơn, tính linh hoạt và hiệu quả trong các ứng dụng thực tế.

1. HẠN CHẾ CỦA LLM TRUYỀN THỐNG

Để hiểu lý do cần đến RAG (Retrieval-Augmented Generation), trước tiên chúng ta hãy nhìn vào những giới hạn của LLM (Large Language Model) truyền thống:

Kiến thức bị giới hạn trong thời điểm huấn luyện: Các LLM truyền thống chỉ chứa đựng kiến thức ở thời gian chúng được huấn luyện. Ví dụ, một chatbot được huấn luyện đến tháng 9/2022 sẽ không biết về những framework hoặc công nghệ ra đời sau đó. Nếu bạn hỏi: "React Router v7 có tính năng gì mới?", chatbot có thể đưa câu trả lời không chính xác hoặc thậm chí "bịa" ra thông tin.
"Ảo giác" thông tin (Hallucinations): LLM đôi khi tự "bịa" ra thông tin không có thật, nhất là với những chủ đề ít phổ biến. Ví dụ: Người dùng: "Làm thế nào để sử dụng hàm processDataStream trong thư viện DataFlux?" Thực tế thư viện DataFlux không hề có hàm processDataStream, nhưng chatbot lại tạo ra thông tin sai lệch, gây nhầm lẫn.
Không truy cập được dữ liệu cụ thể: LLM không thể làm việc với những thông tin mà nó chưa được huấn luyện, chẳng hạn dữ liệu nội bộ. Nếu một developer cần chatbot giải thích về cấu trúc dữ liệu trong dự án nội bộ, LLM truyền thống sẽ không thể trả lời hoặc trả lời thông tin không liên quan. Chi phí cập nhật kiến thức rất cao: Để cập nhật những kiến thức mới, mô hình cần phải được huấn luyện lại (fine-tuning) toàn bộ từ đầu, đòi hỏi rất nhiều thời gian và tài nguyên.

Những hạn chế này đã tạo tiền đề cho sự phát triển của RAG, một giải pháp khắc phục những nhược điểm của LLM truyền thống.

2. RAG (Retrieval-Augmented Generation) LÀ GÌ?

RAG (Retrieval-Augmented Generation) là một phương pháp kết hợp giữa khả năng truy xuất thông tin từ các nguồn dữ liệu bên ngoài (Retrieval) với sức mạnh tạo nội dung của mô hình ngôn ngữ lớn (LLM - Large Language Model)

Hiểu 1 cách đơn giản RAG là một cách tiếp cận kết hợp giữa hai thành phần:

Retrieval (Truy xuất): Tìm kiếm thông tin liên quan từ nguồn dữ liệu bên ngoài, như tài liệu, cơ sở dữ liệu, website, vector database, search engine, v.v.
Generation (Sinh nội dung): Sử dụng LLM để tạo câu trả lời dựa trên thông tin đã truy xuất.

Quy trình:

Người dùng đặt câu hỏi.
Hệ thống tìm kiếm các đoạn văn bản liên quan trong kho dữ liệu (retriever).
Các đoạn này được đưa vào prompt của LLM để sinh ra câu trả lời cuối cùng (generator).

Bạn có thể hình dung RAG giống như một thủ thư thông minh: Khi bạn đặt câu hỏi, thay vì trả lời ngay từ trí nhớ (giống LLM truyền thống), thủ thư sẽ:

Tìm kiếm sách liên quan đến câu hỏi của bạn (truy xuất),
Đọc nội dung từ sách đó (bổ sung thông tin),
Sau đó mới cung cấp câu trả lời chính xác cho bạn (tạo nội dung).

Ví dụ minh họa cách RAG hoạt động:

Người dùng hỏi: "React 18 có tính năng Suspense mới nào?"
Hệ thống thực hiện:

Truy xuất: Tìm kiếm trong tài liệu liên quan đến React 18 và tính năng Suspense.

Kết quả truy xuất: "React 18 bổ sung Server Components và Streaming SSR với Suspense..."

Bổ sung thông tin: Gửi câu hỏi kèm đoạn thông tin vừa tìm thấy đến LLM.

Tạo nội dung: LLM dùng thông tin này để tạo câu trả lời chính xác dựa trên dữ liệu.

Kết quả: Hệ thống trả lời đầy đủ và đáng tin cậy, tránh việc "bịa" thông tin hoặc cung cấp câu trả lời không chính xác.

3. RAG HOẠT ĐỘNG NHƯ THẾ NÀO?

3.1 Indexing (bước chuẩn bị)

Mục đích: Chuẩn bị dữ liệu để có thể tìm kiếm một cách hiệu quả.

Các bước chính của quá trình indexing bao gồm:

Chia nhỏ tài liệu: Tài liệu dài sẽ được chia thành các đoạn nhỏ (chunks) khoảng 500-1000 tokens để dễ dàng xử lý và tìm kiếm. Ví dụ: Một tài liệu kỹ thuật dài 50 trang sẽ được chia thành khoảng 100 đoạn nhỏ, mỗi đoạn chứa một phần nội dung liên quan nhau.
Tạo vector embeddings: Chuyển đổi văn bản thành dạng số (vector) để máy tính hiểu được ý nghĩa của văn bản. Ví dụ: Câu "React hooks giúp quản lý state" sẽ được chuyển thành một vector như [0.12, -0.44, 0.91, ...] gồm 1536 số. Các vector này thể hiện ý nghĩa sâu sắc của nội dung.
Lưu vào vector database: Dữ liệu sau khi chuyển thành vector được lưu trong một cơ sở dữ liệu đặc biệt, tối ưu cho tìm kiếm vector. Ví dụ: Một số vector database phổ biến gồm Pinecone, Milvus, Weaviate, và Chroma. Những cơ sở dữ liệu này cho phép tìm kiếm "gần giống" (approximate) - hay nói cách khác, tìm các đoạn văn bản có ý nghĩa tương tự, chứ không chỉ dựa trên từ khóa.

Ví dụ đơn giản: Nếu bạn tìm "cách xử lý lỗi React", hệ thống có thể trả về đoạn văn bản chứa "khắc phục exception trong React components" vì chúng có ý nghĩa tương tự.

3.2 Quá trình truy vấn (thời điểm người dùng hỏi)

Chuyển câu hỏi thành vector: Câu hỏi của người dùng được chuyển thành một vector số, tương tự như cách xử lý tài liệu trước đó.
Tìm kiếm ngữ nghĩa: Hệ thống so sánh vector của câu hỏi với các vector trong cơ sở dữ liệu để tìm ra những nội dung có ý nghĩa tương tự nhất.

Ví dụ: Khi người dùng hỏi "Làm thế nào để xử lý concurrent requests?", hệ thống sẽ tìm các đoạn văn bản liên quan đến các khái niệm như "xử lý đồng thời", "parallel processing", hoặc "async handling", thay vì chỉ tìm các từ khóa chính xác.

Tạo prompt mở rộng: Kết hợp câu hỏi của người dùng với các thông tin đã tìm được để tạo một prompt hoàn chỉnh, giúp LLM trả lời chính xác hơn.

Ví dụ prompt: Câu hỏi: "Làm thế nào để xử lý concurrent requests trong Node.js?" Thông tin tham khảo:

Node.js cung cấp Promise.all() để xử lý nhiều promises cùng lúc.
Sử dụng async/await với Promise.all giúp code dễ đọc hơn.
Đối với các tác vụ I/O-bound, Node.js tự động xử lý nhiều requests nhờ event loop. Prompt mở rộng: Kết hợp câu hỏi với các thông tin trên để gửi đến LLM. LLM tạo câu trả lời: Dựa trên prompt mở rộng, LLM sẽ tạo ra một câu trả lời hoàn chỉnh, chính xác và phù hợp với ngữ cảnh của người dùng.

4. CÁC KỸ THUẬT RAG PHỔ BIẾN

4.1. RAG cổ điển (Classic RAG)

Mô tả: Truy xuất các đoạn văn bản liên quan từ kho dữ liệu, sau đó đưa vào prompt của LLM để sinh câu trả lời.
Áp dụng:
- Hỏi đáp tài liệu nội bộ (FAQ, hướng dẫn sử dụng, tài liệu kỹ thuật).
- Trợ lý ảo doanh nghiệp.
- Chatbot hỗ trợ khách hàng.
Kỹ thuật:
- Chia nhỏ tài liệu thành các đoạn (chunk).
- Tạo embedding cho từng đoạn và lưu vào vector database.
- Khi có câu hỏi, chuyển câu hỏi thành embedding, tìm các đoạn liên quan nhất (top-k).
- Đưa các đoạn này vào prompt của LLM để sinh câu trả lời.
Công cụ: Chroma, FAISS, Pinecone, LangChain, HuggingFace.

4.2. RAG đa tài liệu (Multi-Document RAG)

Mô tả: Truy xuất và tổng hợp thông tin từ nhiều tài liệu khác nhau.
Áp dụng:
- Tìm kiếm pháp lý, tổng hợp hồ sơ bệnh án.
- Tổng hợp báo cáo từ nhiều nguồn dữ liệu.
Kỹ thuật:
- Lưu trữ embedding của nhiều tài liệu khác nhau (có thể gắn nhãn nguồn).
- Truy xuất các đoạn liên quan từ nhiều tài liệu cùng lúc.
- Có thể tổng hợp hoặc phân nhóm kết quả theo nguồn tài liệu.
Công cụ: Vector DB hỗ trợ metadata (Chroma, Weaviate, Qdrant), LangChain.

4.3. RAG đa phương thức (Multi-modal RAG)

**Mô tả:**Truy xuất và kết hợp thông tin từ nhiều loại dữ liệu: văn bản, hình ảnh, âm thanh...
Áp dụng:
- Trợ lý y tế (kết hợp ảnh X-quang và hồ sơ bệnh án).
- Tìm kiếm sản phẩm qua hình ảnh và mô tả.
Kỹ thuật:
- Tạo embedding cho nhiều loại dữ liệu (văn bản, hình ảnh, âm thanh) bằng các mô hình khác nhau.
- Lưu trữ embedding đa phương thức trong vector DB.
- Khi truy vấn, chuyển đổi câu hỏi hoặc dữ liệu đầu vào thành embedding phù hợp để truy xuất các loại dữ liệu khác nhau.
- Kết hợp kết quả từ nhiều loại dữ liệu đưa vào LLM.
Công cụ: CLIP, BLIP, Weaviate, Milvus, LangChain.

4.4. Conversational RAG

Tutorial: https://www.youtube.com/watch?v=8sSHg1034r0
Mô tả: Lưu giữ lịch sử hội thoại, truy xuất thông tin dựa trên toàn bộ ngữ cảnh cuộc trò chuyện.
Áp dụng:
- Chatbot thông minh, trợ lý cá nhân.
- Hỗ trợ khách hàng đa lượt hội thoại.
Kỹ thuật:
- Lưu giữ lịch sử hội thoại (context window).
- Khi truy vấn, kết hợp câu hỏi mới với lịch sử hội thoại để truy xuất thông tin phù hợp.
- Đưa context và lịch sử hội thoại vào prompt của LLM.
Công cụ: LangChain Memory, ConversationBuffer, vector DB.

4.5. Hybrid RAG (Kết hợp nhiều retriever)

**Mô tả:**Kết hợp nhiều phương pháp truy xuất (semantic search, keyword search, rule-based...) để tăng độ chính xác.
Áp dụng:
- Tìm kiếm kỹ thuật số trong doanh nghiệp lớn.
- Hệ thống hỏi đáp chuyên sâu (y tế, pháp lý).
Kỹ thuật:
- Sử dụng nhiều phương pháp truy xuất song song: semantic search (embedding), keyword search (BM25), rule-based...
- Tổng hợp hoặc chọn lọc kết quả từ các retriever khác nhau.
- Đưa các đoạn liên quan nhất vào LLM.
Công cụ: LangChain MultiRetriever, ElasticSearch, FAISS, BM25.

4.6. RAG với chunking động (Dynamic Chunking RAG)

**Mô tả:**Chia nhỏ tài liệu theo ngữ nghĩa hoặc cấu trúc động, tối ưu hóa context đưa vào LLM.
Áp dụng:
- Xử lý tài liệu dài, báo cáo kỹ thuật, sách.
- Hệ thống hỏi đáp chuyên ngành.
Kỹ thuật:
- Chia nhỏ tài liệu dựa trên ngữ nghĩa, cấu trúc, hoặc độ dài động (không cố định).
- Có thể dùng semantic chunking, sliding window, hoặc adaptive chunking.
- Tối ưu hóa số lượng và độ dài chunk để phù hợp với context window của LLM.
Công cụ: LangChain SemanticChunker, custom splitter, HuggingFace tokenizer.

5. VÍ DỤ VỀ CÁCH TRIỂN KHAI RAG

Dưới đây là một ví dụ đơn giản về cách RAG hoạt động:

5.1. Indexing (một lần khi chuẩn bị dữ liệu)

Python

documents = load_documents("./company_docs/")
chunks = split_into_chunks(documents)
embeddings = create_embeddings(chunks)
vector_db.store(embeddings)

5.2. Querying (mỗi khi người dùng hỏi)

def answer_query(user_question):
# Tìm thông tin liên quan
question_embedding = create_embedding(user_question)
relevant_docs = vector_db.search(question_embedding, top_k=3)

# Tạo prompt mở rộng
context = " ".join(relevant_docs)
prompt = f"Question: {user_question}
    Context: {context}
    Answer:"

# Tạo câu trả lời
response = llm.generate(prompt)

return response

6. LỢI ÍCH CỦA RAG

Giảm ảo giác AI: Hạn chế các câu trả lời "nghe có vẻ đúng nhưng thực tế lại sai".
Cập nhật thời gian thực: Không bị giới hạn bởi dữ liệu huấn luyện tĩnh.
Dễ tích hợp: Công cụ như LangChain hoặc Haystack giúp triển khai RAG dễ dàng.
Với RAG, LLM có thể tận dụng dữ liệu bên ngoài để cung cấp tri thức cho nó.
RAG không yêu cầu training lại mô hình, tiết kiệm thời gian và tài nguyên tính toán.
Nó hiệu quả ngay cả với một lượng dữ liệu gán nhãn hạn chế. Tuy nhiên, RAG cũng có nhược điểm đó là hiệu suất của RAG phụ thuộc vào chất lượng độ chính xác của model retrieval; tính toàn diện và chính xác của kho tri thức có sẵn.

RAG phù hợp nhất cho các tình huống có nhiều dữ liệu chưa được gán nhãn (unlabeled-data) nhưng nguồn dữ liệu gán nhãn khan hiếm và lý tưởng cho các ứng dụng như trợ lý ảo cần truy cập theo thời gian thực vào thông tin cụ thể như hướng dẫn sử dụng phần mềm, tin tức, ...

Trường hợp mà có nhiều dữ liệu unlabeled-data nhưng lại khan hiếm dữ liệu labeled-data: RAG rất hữu ích trong những trường hợp này, tức là có sẵn nhiều dữ liệu nhưng hầu hết dữ liệu đó không được phân loại hoặc gãn nhãn theo cách hữu ích cho mô hình có thể học. Ví dụ như internet có số lượng tin tức, văn bản text lớn nhưng hầu hết các văn bản text đó không được tổ chức theo các trả lời trực tiếp các câu hỏi cụ thể.
RAG lý tưởng cho các ứng dụng như trợ lý ảo, chatbot: Các trợ lý ảo, chatbot, như Siri hay Alexa cần lấy thông tin từ nhiều nguồn khác nhau để trả lời các câu hỏi khác nhau trong thời gian thực. Chúng cần hiểu câu hỏi, lấy thông tin liên quan và sau đó đưa ra câu trả lời mạch lạc và chính xác.
Cần truy cập theo thời gian thực (real-time) vào thông tin cụ thể như hướng dẫn sử dụng: Đây là 1 ví dụ về trường hợp mà RAG đặc biệt hữu ích. Tưởng tượng là bạn hỏi trợ lý ảo một câu hỏi cụ thể về một sản phẩm, chẳng hạn như "Làm thế nào để reset điều khiển ABC". RAG trước tiên sẽ truy xuất thông tin liên quan từ hướng dẫn sử dụng sản phẩm hoặc các tài liệu khác, sau đó sử dụng thông tin đó để tạo ra câu trả lời rõ ràng, ngắn gọn.
Tóm lại, các mô hình RAG rất phù hợp cho các ứng dụng có sẵn nhiều thông tin nhưng không được tổ chức hay gán nhãn phù hợp cho mô hình có thể học.

7. KẾT LUẬN

RAG đánh dấu một bước chuyển đổi quan trọng trong cách thiết kế và triển khai ứng dụng AI, giúp vượt qua hầu hết những hạn chế của các mô hình ngôn ngữ truyền thống.

Với việc kết hợp khả năng tìm kiếm chính xác từ dữ liệu với sức mạnh suy luận của AI, RAG không chỉ đơn giản hóa quá trình phát triển mà còn mở ra nhiều cơ hội cho các ứng dụng thực tế, từ chatbot hỗ trợ đến các hệ thống xử lý dữ liệu phức tạp.