Passage Retrieval là gì?
Passage retrieval (truy xuất đoạn văn) là kỹ thuật truy xuất thông tin chuyên xếp hạng các đoạn văn riêng lẻ hoặc các phân đoạn (chunks) bên trong một tài liệu — chứ không phải toàn bộ tài liệu — và nó là thành phần cốt lõi vận hành tính năng passage ranking của Google, nền tảng trích dẫn của RAG, và các answer engine như ChatGPT, Claude, Perplexity, hay Google AI Overviews.
TL;DR
Passage retrieval xếp hạng các dải văn bản nhỏ — những đoạn văn, một vài câu, hoặc các chunk có độ dài cố định — thay vì toàn bộ tài liệu. Các công cụ tìm kiếm AI hiện đại và hệ thống Retrieval-Augmented Generation (RAG) phụ thuộc vào nó bởi vì câu trả lời, chứ không phải URL, hiện nay mới là đơn vị truy xuất chính. Để xếp hạng tốt trong passage retrieval, hãy viết các đoạn văn trọn vẹn, có khả năng trích dẫn độc lập, có gọi tên chủ đề rõ ràng, định nghĩa các thuật ngữ của chúng, và mỗi đoạn trả lời dứt điểm một câu hỏi.
Định nghĩa
Passage retrieval là tác vụ xác định và xếp hạng các đoạn văn bản cụ thể — thường là một đoạn văn (paragraph), một vài câu, hoặc một dải token có độ dài cố định — giải đáp tốt nhất cho một truy vấn. Không giống như truy xuất tài liệu (document retrieval) truyền thống chấm điểm và trả về toàn bộ tài liệu, passage retrieval chấm điểm các phân mục nhỏ của tài liệu và trả về đơn vị văn bản nhỏ nhất thỏa mãn được truy vấn.
Trong lĩnh vực truy xuất thông tin (IR) cổ điển, một đoạn (passage) là bất kỳ dải văn bản liên tục nào ngắn hơn một tài liệu hoàn chỉnh và dài hơn một câu đơn lẻ. Trong các hệ thống hiện đại, đơn vị này thường là một đoạn văn (paragraph), một cửa sổ cố định từ 100-300 token, hoặc một khối được phân mảnh theo ngữ nghĩa. Công cụ truy xuất (retriever) ánh xạ một truy vấn vào một danh sách các đoạn được xếp hạng, thường đi kèm với URL của tài liệu gốc và một điểm số độ tương đồng (similarity score).
Passage retrieval lần đầu tiên được nghiên cứu vào những năm 1990 như một kỹ thuật cải thiện độ chính xác (precision) đối với các bộ sưu tập tài liệu dài, và nó luôn là một chủ đề nghiên cứu thường xuyên tại TREC, SIGIR, và ECIR. Làn sóng hiện đại bắt đầu với hệ thống dense passage retrieval (DPR) dùng mạng nơ-ron được giới thiệu bởi Karpukhin và cộng sự vào năm 2020, hệ thống này đã huấn luyện các bộ mã hóa kép BERT (dual BERT encoders) để đưa cả truy vấn và đoạn văn vào cùng một không gian vector, qua đó thể hiện sự cải thiện tuyệt đối 9-19% so với mức cơ sở Lucene-BM25 vốn đã rất mạnh trên các bài toán hỏi-đáp mở (open-domain QA).
Trong thế giới tìm kiếm của người tiêu dùng, thuật ngữ này lấn sân sang trào lưu SEO phổ thông khi Google công bố passage indexing (lập chỉ mục đoạn văn) vào tháng 10 năm 2020, và chính thức ra mắt với tên gọi "passage ranking" trên ngôn ngữ tiếng Anh (Mỹ) vào ngày 10 tháng 2 năm 2021, với tuyên bố tác động tới khoảng 7% số lượng truy vấn. Ngày nay, việc chấm điểm ở cấp độ đoạn văn là lớp nền tảng mặc định cho AI Overviews, chế độ duyệt web của ChatGPT, các lần gọi tool của Claude, và bất kỳ luồng xử lý RAG (RAG pipeline) nào.
Tại sao nó lại quan trọng
Đối với một chương trình AEO, passage retrieval không phải là một sự tò mò học thuật — nó là đơn vị kinh tế của trích dẫn. Có ba động lực khiến nó trở nên quan trọng về mặt chiến lược.
Thứ nhất, các AI answer engine truy xuất ở cấp độ đoạn văn. Khi ChatGPT, Claude, Perplexity, hay Google AI Overviews trả lời một câu hỏi, chúng không đưa toàn bộ bài viết dài 4.000 từ vào mô hình. Chúng truy xuất một nhóm các đoạn văn, xếp hạng lại chúng, và chuyển các phân đoạn (chunks) lọt top-k vào bộ tạo sinh (generator) làm ngữ cảnh tạo nền tảng (grounding context). Nếu bài viết của bạn được xếp hạng nhưng các đoạn văn của bạn thì không, bạn sẽ không được trích dẫn.
Thứ hai, sự khớp nối truy vấn-đoạn văn đã làm lu mờ sự khớp nối truy vấn-tài liệu. Các truy vấn đuôi dài (long-tail) và truy vấn bằng ngôn ngữ tự nhiên — những truy vấn đang thống trị tìm kiếm AI — thường khớp với một đoạn văn cụ thể nằm gọn trong một trang dài hơn là khớp với chủ đề tổng thể của cả trang. Lần ra mắt tính năng passage ranking của Google đã mô tả rõ ràng điều này như một cách để làm nổi lên những câu trả lời bị chôn vùi bên trong các bài báo dài vốn dĩ thường thua kém những trang ngắn hơn, tập trung hơn.
Thứ ba, chất lượng truy xuất đồng hành cùng chất lượng tạo sinh. Các hệ thống RAG và answer pipeline hiện đại thất bại trong im lặng khi công cụ truy xuất lôi lên một đoạn văn tuy liên quan về mặt chủ đề nhưng lại sai lệch về ngữ nghĩa. Việc viết các đoạn văn tốt (câu chủ đề rõ ràng, chứa thực thể định danh, ngữ cảnh cụ thể) là đòn bẩy rẻ nhất và dễ kiểm soát nhất mà các nhà xuất bản có trong tay để tác động đến việc dải văn bản nào sẽ được trích dẫn và những khẳng định nào được ghi nhận cho họ.
Về mặt thực tế, điều đó có nghĩa passage retrieval chính là cầu nối giữa lý thuyết IR kỹ thuật và công việc thực tế hàng ngày như cấu trúc tiêu đề, đoạn văn, và FAQ trên một trang web tiếp thị. Xử lý mỗi đoạn văn như một câu trả lời truy xuất độc lập là bạn đang trực tiếp tối ưu hóa cho cỗ máy đang quyết định xem bạn có được trích dẫn hay không.
Cách thức hoạt động
Một luồng xử lý passage retrieval hiện đại có bốn giai đoạn: chia mảnh (chunking), lập chỉ mục (indexing), truy xuất (retrieval), và xếp hạng lại (reranking).
flowchart LR A["Tài liệu nguồn"] --> B["Bộ chia mảnh (đoạn văn / cố định / ngữ nghĩa)"] B --> C["Chỉ mục BM25 + Vector"] Q["Truy vấn của người dùng"] --> R["Truy xuất top-k đoạn văn"] C --> R R --> X["Xếp hạng lại (Reranker) cross-encoder / LLM"] X --> O["Đoạn văn Top → Bộ tạo sinh câu trả lời"]
Chia mảnh (Chunking) cắt các tài liệu nguồn thành nhiều đoạn (passages). Các chiến lược phổ biến là chia bằng cửa sổ token kích thước cố định (ví dụ: 256 token với 32 token gối lặp), chia dựa trên cấu trúc đoạn văn như \n\n hoặc cấu trúc HTML, và chia mảnh theo ngữ nghĩa (semantic chunking) sử dụng sự tương đồng của embedding hoặc các tín hiệu dàn trang (layout) để tìm ranh giới các chủ đề. Báo cáo DPR phát hiện ra rằng các đoạn văn có chiều dài cố định tỏ ra vượt trội so với các đoạn văn tự nhiên (natural paragraphs) ở cả khâu truy xuất lẫn tính chính xác của hỏi đáp QA trên bộ ngữ liệu dựa trên Wikipedia; các hệ thống RAG trên production thường kết hợp cả hai kiểu này.
Lập chỉ mục (Indexing) lưu trữ các đoạn văn này trong một hoặc nhiều chỉ mục truy xuất. Có hai họ chính:
| Họ chỉ mục | Mô tả đặc trưng | Điểm mạnh | Điểm yếu |
|---|---|---|---|
| Thưa (Sparse) (BM25, SPLADE) | Từ vựng / từ được gắn trọng số | Khớp chính xác từng từ, dễ gỡ lỗi, mạnh ở zero-shot | Bỏ lỡ cụm từ diễn đạt lại (paraphrase), không khớp từ vựng |
| Dày (Dense) (DPR, E5, Contriever) | Vector embeddings (vector học sâu) | Khớp ngữ nghĩa, mạnh về paraphrase | Yếu khi lệch vùng dữ liệu (domain-shift), khó gỡ lỗi |
Hầu hết các hệ thống thực tế (production) dùng chỉ mục lai (hybrid index) kết hợp điểm số của BM25 và dense thông qua reciprocal rank fusion hoặc hệ số trọng lượng học được. Bộ bài kiểm tra BEIR (Thakur et al., NeurIPS 2021) đánh giá 10 kiến trúc truy xuất trên 18 bộ dữ liệu, đã thấy rằng BM25 vẫn giữ vững vai trò là một điểm chuẩn zero-shot cực kỳ kiên cố và rằng việc xếp hạng lại (re-ranking) cùng các kiến trúc tương tác muộn (late-interaction) (như ColBERT) có xu hướng mang lại chất lượng zero-shot cao nhất, nhưng đổi lại phải chịu mức phí điện toán đắt đỏ hơn.
Truy xuất (Retrieval) chấm điểm truy vấn đối chiếu với mọi đoạn văn trong chỉ mục, và trả về top-k ứng viên (thường là 20-100). Các bộ truy xuất dày (dense retrievers) tính toán độ tương đồng cosine hoặc tích vô hướng giữa embedding của truy vấn và embedding của đoạn văn đã được tính trước; bộ truy xuất thưa (sparse retrievers) tính điểm dựa trên trọng số thuật ngữ; các bộ truy xuất lai (hybrid retrievers) thì kết hợp cả hai.
Xếp hạng lại (Reranking) sắp xếp lại thứ tự các ứng viên đó với một cross-encoder phức tạp hơn (ví dụ: một mô hình BERT chấm điểm truy vấn + đoạn văn cùng một lúc) hoặc, gần đây hơn, là một LLM-based reranker. Xếp hạng lại đánh đổi độ trễ (latency) lấy độ chính xác (precision): nó không thể khôi phục lại những đoạn văn mà giai đoạn một đã bỏ sót, nhưng nó cải thiện mạnh mẽ thứ tự của những đoạn văn đã lọt vào.
Các đoạn văn đã được xếp hạng sau đó hoặc được trả thẳng (trong hệ IR truyền thống) hoặc đẩy cho bộ tạo sinh (generator) đóng vai trò là ngữ cảnh làm căn cứ grounding (trong RAG và tìm kiếm AI). Bộ tạo sinh thường trích dẫn URL của nguồn gốc ban đầu, đây là lý do tại sao công việc viết đoạn văn quyết định đường link của ai sẽ hiện lên trong AI Overview.
So sánh với Document Retrieval (Truy xuất tài liệu)
Passage retrieval thường bị nhầm lẫn với document retrieval. Sự khác biệt nằm ở đơn vị xếp hạng, nhưng hậu quả của nó lại đổ thác dọc theo toàn bộ hệ thống công nghệ (stack).
| Tiêu chí | Truy xuất Tài liệu (Document retrieval) | Truy xuất Đoạn văn (Passage retrieval) |
|---|---|---|
| Đơn vị trả về | Toàn bộ tài liệu / URL | Đoạn văn hoặc chunk bên trong một tài liệu |
| Mục tiêu chấm điểm | Độ liên quan cấp độ tài liệu | Độ liên quan cấp độ đoạn văn |
| Mức độ khớp truy vấn | Tổng quát chủ đề, điều hướng | Câu hỏi, từ khóa đuôi dài (long-tail), ngôn ngữ tự nhiên |
| Kích thước chỉ mục | 1 bản ghi trên mỗi tài liệu | N bản ghi trên mỗi tài liệu (thường gấp 5-50 lần) |
| Đặc điểm độ trễ | Chi phí index thấp hơn, kết quả lớn hơn | Chi phí index cao hơn, kết quả chính xác hơn |
| Đòn bẩy cho người viết | Tiêu đề, H1, độ phủ chủ đề trên trang | Các câu chủ đề, đoạn văn độc lập, ngữ cảnh rõ ràng |
| Hình thức thất bại | Đúng trang web, sai phân mục | Đúng đoạn văn, thiếu ngữ cảnh tổng thể của tài liệu |
| Nơi sử dụng | Tìm kiếm web truyền thống, danh mục thư viện | RAG, AI Overviews, FAQ engines, tìm kiếm ngữ nghĩa nội bộ web |
Một bộ máy tìm kiếm web cổ điển kiểu AltaVista thập niên 90 hay Google những năm 2000 chấm điểm thứ hạng tài liệu, rồi trông chờ người dùng tự tìm câu trả lời bên trong trang đó. Tìm kiếm AI hiện đại thì đảo ngược lại: cỗ máy đi tìm đoạn văn (passage), người dùng đọc câu trả lời, và đường link trở thành một chú thích trích dẫn (footnote).
Một góc nhìn kết hợp (hybrid view) là chính xác nhất: Đợt cập nhật passage ranking năm 2021 của Google không hề băm vụn index thành các đoạn văn độc lập — Google nhấn mạnh rằng các trang web vẫn được lập chỉ mục và xếp hạng như một thực thể hoàn chỉnh, các đoạn văn chỉ cung cấp thêm tín hiệu xếp hạng bổ trợ. Ngược lại, việc truy xuất thuần túy chỉ dùng đoạn văn là tiêu chuẩn phổ biến trong các hệ thống QA câu hỏi mở học thuật và phần lớn các quy trình RAG.
Ứng dụng AEO thực tiễn
Đối với chương trình AEO, passage retrieval chuyển thể thành những nguyên tắc viết và cấu trúc cụ thể. Hãy dùng luồng công việc sau.
- Ánh xạ mỗi trang web về một câu hỏi chính duy nhất. Mỗi bài viết của Geodocs đều có trường
canonical_questionchính vì lý do này. Đoạn văn đầu tiên sau H1 cần giải đáp điều đó trực tiếp trong vòng 1-3 câu. Đây là đoạn có xác suất cao nhất được truy xuất cho bộ từ khóa mục tiêu (focus keyword). - Viết các đoạn văn như những câu trả lời độc lập. Mỗi đoạn văn nên: (a) gọi tên chủ đề của nó ngay trong câu đầu tiên, (b) định nghĩa bất kỳ từ khóa chính nào mà nó dùng, (c) tránh dùng đại từ phụ thuộc vào các đoạn văn trước đó ("Điều này", "Nó", "Phần trên"), và (d) kết thúc bằng một mệnh đề hoàn chỉnh. Hãy thử tưởng tượng đoạn văn đó được chiếu đứng một mình trên thẻ trích dẫn AI Overview — nó có còn rõ nghĩa không?
- Sử dụng H2/H3 như là ranh giới ngữ nghĩa, chứ không phải ngắt đoạn trang trí. Các bộ cắt lớp đoạn (passage chunkers) vốn tôn trọng cấu trúc HTML sẽ băm dữ liệu tại điểm đầu thẻ tiêu đề. Mỗi H2 cần gắn liền với một câu hỏi phụ; mỗi H3 cần ăn khớp với một câu hỏi phụ nhánh nhỏ hơn.
- Bổ sung rõ phần
## TL;DRvà khu vực## FAQ. Cả hai đều được cố ý thiết kế theo dạng hình-đoạn-văn. TL;DR là một mảnh trích xuất có khả năng thâu tóm lớn (high-recall) dùng cho những truy vấn ngắn gọn; các mục FAQ là các cặp Hỏi-Đáp đã được xé nhỏ (pre-chunked) sẵn mà các bộ truy xuất (retrievers) rất ưa thích. - Đưa các thực thể có tên (named entities) lên đầu. Nhắc đến sản phẩm, con người, bộ tiêu chuẩn, và từ viết tắt ngay ở 1-2 câu đầu tiên của mỗi đoạn thay vì giấu giếm chúng ở phía cuối. Cả BM25 và truy xuất dense đều rất ưu ái các lần gọi tên thực thể sớm và lặp lại.
- Bao gồm một khối trích dẫn tóm tắt chuẩn đoạn văn. Khối blockquote dạng
> AI Summary: …gồm 1-2 câu cung cấp thông tin cốt lõi đưa cho bộ truy xuất một mục tiêu cực kỳ dày đặc chứa đựng những cụm ngôn từ chuẩn chỉnh sẵn sàng làm trích dẫn (citation-ready language). - Liên kết chéo với các bài viết anh em (sibling articles). Các liên kết nội bộ đóng vai trò là nguồn phát tín hiệu bổ sung cho thấy đoạn văn này thuộc về một cụm ngữ cảnh nhất quán — hữu dụng cả cho Google lẫn khả năng mở rộng bối cảnh (context expansion) cho LLM.
Áp dụng vào một bài viết điển hình dài 1.500 từ, các quy tắc này sẽ tạo ra khoảng 10-15 đoạn văn có khả năng truy xuất, trong đó thường có 1-3 đoạn đủ độ mạnh để giành giật điểm trích dẫn ở nhóm từ khóa mục tiêu (focus keyword).
Các ví dụ
Các ví dụ
- Google passage ranking (2021) — Một bài viết chuyên sâu về đồ dùng cắm trại (camping gear) có thể chứa một đoạn văn nhỏ về "cách cất giữ các bình gas mini an toàn" nhưng vẫn được xếp hạng cho các truy vấn đuôi dài (long-tail query), mặc dù chủ đề của toàn bộ trang bao quát hơn nhiều. Đây chính là trường hợp điển hình mà Google đưa ra khi giới thiệu hệ thống xếp hạng của họ.
- DPR trên Natural Questions — Nhóm nghiên cứu Karpukhin và cộng sự (2020) huấn luyện mô hình DPR dựa trên kho dữ liệu Wikipedia được phân chia thành các phần 100 từ và chứng minh sự cải thiện tuyệt đối 9-19% trên nhóm đo truy xuất top-20 so với mức cơ sở của BM25 trên khắp NQ, TriviaQA, WebQuestions, CuratedTREC, cùng SQuAD. Sự đột phá về chất lượng truy xuất đã phản ánh trực tiếp thành kết quả QA quy mô lớn toàn diện (end-to-end).
- Thói quen trích dẫn của Perplexity — Perplexity thường hiển thị khoảng 4-8 thẻ nguồn (source cards) ở mỗi câu trả lời, mỗi thẻ được hỗ trợ bởi một đoạn văn (passage) cụ thể. Các bài viết có cấu trúc phân đoạn ngắn gọn, gọi tên chủ đề rõ ràng và trực tiếp thường thu hút lượng lớn trích dẫn so với các bài viết dài dòng, thiếu phân tách cấu trúc.
- RAG tài liệu (Enterprise RAG) PDF nội bộ doanh nghiệp — Các hệ thống RAG doanh nghiệp xử lý tài liệu PDF thường sử dụng cấu hình phân mảnh kích thước 256 token với độ chồng lấp 32 token, kết hợp hệ thống truy xuất lai (hybrid BM25+dense retrieval) và công cụ xếp hạng chéo (cross-encoder reranking). Việc tối ưu hóa cấu trúc đoạn văn đóng vai trò quan trọng trong việc cải thiện hiệu suất trích xuất thông tin đối với các kho dữ liệu nội bộ phía sau tường lửa doanh nghiệp.
- Vòng thử Zero-shot từ khối BEIR — Trong các bài kiểm tra BEIR, các kiến trúc tương tác muộn (như ColBERT) và mô hình xếp hạng lại (rerankers) thường xuyên vượt trội hơn hẳn các bộ truy xuất vector đơn lẻ (single-vector dense retrievers) trong môi trường zero-shot, đi kèm với đó là chi phí điện toán tăng lên đáng kể. Điều này giải thích tại sao trong môi trường sản xuất thực tế, các hệ thống thường áp dụng một quy trình truy xuất chi phí thấp ở giai đoạn đầu, sau đó mới áp dụng kỹ thuật xếp hạng lại chọn lọc (selective reranking).
- Phương pháp trích xuất đoạn văn của AI Overviews — Google AI Overviews thường xuyên chỉ trích xuất một đoạn văn duy nhất từ các bài viết dài để tạo cơ sở cho câu trả lời do AI tạo ra (generated answer). Các đoạn văn được lựa chọn thường bắt đầu bằng một câu chủ đề rõ ràng, chứa từ khóa mục tiêu (focus keyword) cùng với các thông tin hoặc định nghĩa cụ thể, chính xác.
Các lỗi phổ biến
- Xem toàn bộ bài viết như một đơn vị truy xuất duy nhất. Việc sử dụng văn bản dài 4.000 từ mà thiếu cấu trúc phân đoạn rõ ràng hoặc thiếu câu chủ đề sẽ khiến trang web bị đánh giá thấp hơn đáng kể so với các bài viết ngắn gọn (khoảng 800 từ) nhưng được tối ưu hóa cấu trúc chặt chẽ đối với từ khóa mục tiêu.
- Lạm dụng đại từ thay thế (Pronoun-heavy writing). Các đoạn văn mở đầu bằng “Do đó…”, “Nó cũng chỉ ra…”, hay “Theo như điều bên trên…” không thể phân tách độc lập và dễ bị đánh giá thấp so với các đoạn văn có nhắc lại tên gọi chủ thể.
- Bỏ qua ranh giới phân đoạn ngữ nghĩa (Ignoring chunk boundaries). Việc gộp nhiều nội dung không liên quan trực tiếp dưới một thẻ H2 lớn mà không có các thẻ tiêu đề phụ sẽ tạo ra các phân đoạn hỗn hợp (mixed-topic chunks) gây khó khăn cho việc xử lý. Quy tắc: Một H2/H3 tương ứng với một chủ đề phụ (sub-topic) duy nhất.
- Triển khai khu vực FAQ thiếu tự nhiên. Các phần FAQ được bổ sung một cách sơ sài không hỗ trợ hiệu quả cho hệ thống truy xuất. Từng mục "Hỏi" (FAQ Q) phải là một truy vấn hoàn chỉnh, độc lập, và phần hồi đáp (A) nên được gói gọn trong 2-4 câu trình bày trực tiếp.
- Chỉ tập trung vào các chỉ số cấp độ trang (document-level metrics). Việc chỉ tối ưu hóa để tăng thứ hạng trang (page-level rankings) không đảm bảo hiệu quả trong việc giành được trích dẫn. Cần theo dõi chặt chẽ cách các khối văn bản được trích xuất và hiển thị trên AI Overviews, Perplexity, hay ChatGPT.
FAQ
Q: Có phải passage retrieval hoàn toàn giống với đợt Google triển khai lập chỉ mục passage indexing không?
Không. Passage retrieval là kỹ thuật IR chuyên nghiệp để định lượng và xếp hạng các phân đoạn nhỏ trong tài liệu (sub-document spans), đã được ứng dụng trong môi trường học thuật từ thập niên 1990 và phát triển mạnh mẽ thông qua các mô hình nơ-ron (như DPR) từ năm 2020. Tính năng lập chỉ mục đoạn văn của Google (Google passage indexing) được công bố trong giai đoạn 2020-2021 là một cách để đánh giá hiệu quả hơn các trang nội dung dài nhằm đáp ứng các truy vấn hẹp (narrow queries). Đội ngũ Google khẳng định rằng hệ thống của họ vẫn lập chỉ mục cấp độ trang (index pages), không phân tách độc lập các đoạn văn — các tín hiệu passage chỉ đóng vai trò là yếu tố xếp hạng bổ trợ.
Q: Sự khác biệt nào chia đôi passage retrieval và tìm kiếm ngữ nghĩa (semantic search)?
Tìm kiếm ngữ nghĩa (Semantic search) tập trung vào cách hệ thống kết nối truy vấn với nội dung văn bản — xử lý ý nghĩa ngữ nghĩa thay vì khớp từ vựng đơn thuần. Passage retrieval thì liên quan đến cấp độ trả về của hệ thống (returns) — trả về một đoạn văn (paragraphs) hay toàn bộ tài liệu. Mặc dù nhiều công cụ truy xuất đoạn văn tiên tiến sử dụng nền tảng semantic (cấu trúc vector), hai lĩnh vực này hoạt động độc lập (orthogonal): bạn vẫn có thể thực hiện truy xuất đoạn văn dựa trên từ vựng (lexical) thông qua BM25, hoặc sử dụng semantic search thông qua dense vectors để đánh giá toàn bộ tài liệu.
Q: Khái niệm Dense passage retrieval (DPR) dùng để mô tả thứ gì?
DPR (Dense Passage Retrieval) là phương pháp truy xuất bằng mạng nơ-ron (neural retrieval method) được giới thiệu bởi Karpukhin và cộng sự tại Meta AI vào năm 2020. Hệ thống này sử dụng kiến trúc mã hóa kép (dual-encoder architecture): một mô hình BERT xử lý truy vấn, và một mô hình BERT khác xử lý đoạn văn (passage). Độ liên quan được tính toán thông qua tích vô hướng (dot product) trong cùng một không gian vector embedding. Đóng góp nổi bật của DPR là việc mang lại mức tăng trưởng độ chính xác tuyệt đối 9-19% so với BM25 trong các bài toán QA dựa trên miền mở (open-domain QA) lọt top-20, và trở thành tiêu chuẩn đánh giá (baseline) nền tảng cho mọi bộ truy xuất vector (dense retrievers) về sau.
Q: Cấu hình kích thước phân đoạn (chunk size) khi áp dụng trong RAG nên giữ ở mức nào?
Cấu hình phổ biến cho các hệ thống RAG là phân đoạn có kích thước cố định từ 200-500 token, với độ chồng lấp (overlap) khoảng 10-20%. Nếu phân mảnh quá nhỏ (100-200 token), hệ thống đạt độ chính xác cao trong việc trích xuất và tần suất trích dẫn lớn, nhưng có nguy cơ thiếu hụt ngữ cảnh bao quanh (surrounding context). Phân mảnh lớn hơn (500-1,000 tokens) duy trì tốt ngữ cảnh chuỗi nhưng làm suy yếu tín hiệu liên quan (retrieval signal). Hiện nay, nhiều hệ thống hiện đại ưu tiên sử dụng phân mảnh nhỏ trong giai đoạn truy xuất, kết hợp với phương pháp mở rộng bối cảnh lên tài liệu gốc (parent-document expansion) tại thời điểm tạo sinh câu trả lời (generation time).
Q: Sự phát triển của passage retrieval có thay thế hoàn toàn công cụ truy xuất toàn bộ tài liệu (document retrieval) không?
Không, hai hệ thống này cùng tồn tại. Các công cụ tìm kiếm trên web, điển hình như Google, vẫn duy trì việc lập chỉ mục toàn bộ tài liệu (index documents) và sử dụng các tín hiệu passage như một phần trong việc đánh giá xếp hạng tổng thể. Các hệ thống AI answer engine và quy trình RAG dựa chủ yếu vào truy xuất đoạn văn để làm nguồn gốc thông tin, tuy nhiên đôi khi chúng cũng sử dụng ngữ cảnh của tài liệu ban đầu để hoàn thiện câu trả lời. Hệ thống truy xuất tối ưu hiện nay thường áp dụng kiến trúc xếp tầng (stack): lọc ở cấp độ tài liệu (document-level filtering), tiếp theo là xếp hạng cấp độ đoạn văn (passage-level ranking), và cuối cùng là tùy chọn xếp hạng lại chọn lọc (optional reranking).
Q: Làm cách nào để tôi có thể tối ưu hóa lại nội dung cũ để hỗ trợ hệ passage retrieval?
Hãy chỉnh sửa mỗi đoạn văn để nó trở thành một đơn vị thông tin độc lập và rõ ràng: Xác định chủ đề ngay tại câu mở đầu, định nghĩa rõ ràng bất kỳ khái niệm mới nào, hạn chế sử dụng các đại từ thay thế (như "Nó", "Điều này") phụ thuộc vào đoạn trước đó, và kết thúc bằng một mệnh đề trọn vẹn. Sử dụng hiệu quả các thẻ H2/H3 như là ranh giới ngữ nghĩa (semantic boundaries), tích hợp hệ thống TL;DR tổng hợp và khu vực FAQ có cấu trúc rõ ràng, đồng thời ưu tiên đề cập đến các thực thể có tên (named entities) ở ngay đầu phân đoạn. Khi soạn thảo, hãy tưởng tượng đoạn văn đó sẽ hiển thị độc lập trên thẻ trích dẫn của AI Overview.
Q: Nền tảng nào cung cấp tiêu chuẩn đánh giá các bộ passage retrievers?
Bộ thử nghiệm tiêu chuẩn công cộng (public benchmark) được sử dụng rộng rãi nhất là BEIR (Thakur et al., NeurIPS 2021), bao gồm 18 tập dữ liệu khác nhau cho các tác vụ như đối chiếu đoạn văn, kiểm chứng sự thật (fact-checking), và truy xuất dữ liệu y sinh học. Đối với đánh giá truy xuất đoạn văn gắn kết với tài liệu gốc, DAPR (Wang et al., ACL 2024) là một công cụ đáng tin cậy. Đối với tác vụ QA cấp độ Wikipedia, Natural Questions của DPR vẫn tiếp tục là cột mốc tiêu chuẩn quan trọng để đánh giá hiệu suất.
Q: Nếu tối ưu hóa cấu trúc đầy đủ, liệu Google AI Overviews có chắc chắn trích dẫn đoạn văn từ bài viết của tôi không?
Không có sự đảm bảo tuyệt đối — việc được trích dẫn phụ thuộc vào rất nhiều biến số linh hoạt bao gồm ngữ nghĩa truy vấn (query), không gian hiển thị giao diện, và tính cập nhật của bộ nội dung. Tuy nhiên, thông qua các phân tích thực tế, các phân đoạn được chọn bởi AI Overviews thường chia sẻ một định dạng kỹ thuật rõ ràng: bắt đầu bằng một câu chủ đề sắc bén (clear topic sentence), chỉ đích danh các thực thể (named entities), cung cấp định nghĩa hoặc số liệu thống kê cụ thể, và kết thúc bằng một mệnh đề hoàn chỉnh, mang tính độc lập (self-contained claim). Việc tối ưu hóa chặt chẽ theo các quy tắc passage retrieval là đòn bẩy vững chắc nhất mà các nhà xuất bản hiện tại có thể kiểm soát.
Bài viết liên quan
What Is LLM Citation Grounding? Definition, Mechanisms, and Best Practices
LLM citation grounding ties model outputs back to retrieved source documents. Learn how it works in ChatGPT, Perplexity, Gemini, and Claude, and how to optimize for it.
RAG chunking strategies compared: fixed, semantic, and hybrid chunking
Fixed-size, semantic, and hybrid chunking for RAG compared: how they work, when to use each, and how to evaluate retrieval quality.
What Is Semantic Search?
Semantic search uses meaning, not keywords, to retrieve results. Learn how vector embeddings, dense retrieval, and AI models power modern search.