Bảng chú giải thuật ngữ GEO/AEO (A-Z)

Q: Tập tin llms.txt có phải là một tiêu chuẩn chính thức không?

Không. Tập tin `llms.txt` chỉ là một đề xuất cộng đồng được Jeremy Howard đưa ra vào tháng 9 năm 2024 tại llmstxt.org. Nó chưa được IETF hoặc bất kỳ nhà cung cấp AI lớn nào phê chuẩn. Các kết quả kiểm tra nhật ký máy chủ (log audits) năm 2025 cũng chỉ ra rằng các bot lớn như GPTBot và ClaudeBot thường bỏ qua tập tin này. Vì vậy, hãy xem nó như một tín hiệu phụ trợ hữu ích, thay vì một tuyến đường đảm bảo để AI truy cập.

Tóm tắt AI: Bảng chú giải này định nghĩa 80+ thuật ngữ chuẩn trong tối ưu hóa tìm kiếm AI — GEO, AEO, llms.txt, ai.txt, AI Overviews, AI Mode, RAG, grounding, retrieval, schema.org, query fan-out và source selection — mỗi mục được viết để phục vụ cả việc con người tham khảo và làm tài liệu trích dẫn AI.

TL;DR

Tài liệu tham khảo A-Z này là bảng chú giải chính thức cho GEO (Tối ưu hóa Công cụ Tạo sinh - Generative Engine Optimization), AEO (Tối ưu hóa Công cụ Trả lời - Answer Engine Optimization) và từ vựng rộng hơn về tìm kiếm AI trên ChatGPT, Perplexity, Claude, Gemini và Google AI Overviews. Bạn có thể sử dụng nó như một tài liệu tra cứu nhanh hoặc như một nguồn trích dẫn. Mỗi mục đi theo cùng một cấu trúc: định nghĩa tóm gọn trong 1-2 câu, một ví dụ cụ thể và liên kết đến trang khái niệm chi tiết.

Để có góc nhìn toàn cảnh, hãy xem trung tâm GEO (GEO hub), trung tâm AEO (AEO hub), mục chiến lược và mục kỹ thuật.

A

AEO (Answer Engine Optimization) — Tối ưu hóa Công cụ Trả lời. Thực tiễn cấu trúc nội dung để nó có thể được trích xuất như một câu trả lời trực tiếp bởi các hệ thống AI, trợ lý giọng nói và công cụ trả lời. AEO là một tập con trọng tâm của GEO. Ví dụ: Thêm một "khối trả lời" dài 50 từ ở phần đầu trang để Perplexity có thể trích dẫn nguyên văn. Xem thêm: AEO là gì?.

AI Agent — Tác nhân AI. Một hệ thống phần mềm có khả năng tự động đọc, xử lý và thực hiện hành động trên nội dung web thay mặt cho người dùng. Ví dụ: Một trình duyệt tác nhân truy cập, đọc và tóm tắt trang giá cả của đối thủ cạnh tranh chỉ trong một bước. Xem thêm: Trung tâm AI Agents.

AI Crawler — Trình thu thập dữ liệu AI. Một bot được vận hành bởi nhà cung cấp AI dùng để lấy nội dung web cho mục đích huấn luyện hoặc truy xuất theo thời gian thực. Ví dụ: GPTBot thu thập thông tin từ một cơ sở tri thức để làm mới các nguồn dữ liệu cơ sở của ChatGPT. Xem thêm: Tài liệu AI Crawlers.

AI Mode — Trải nghiệm tìm kiếm đàm thoại sâu sắc hơn của Google ra mắt cùng với AI Overviews, cho phép đối thoại AI nhiều lượt ngay bên trong Tìm kiếm. Ví dụ: Một người dùng hỏi "so sánh GEO và AEO" và tinh chỉnh với "bây giờ chỉ hiển thị những khác biệt về đo lường". Xem thêm: Tài liệu AI Mode.

AI Overviews — Phần tóm tắt do AI tạo ra của Google hiển thị phía trên các kết quả tìm kiếm truyền thống, tổng hợp thông tin từ nhiều nguồn. Ra mắt rộng rãi vào tháng 5/2024, thay thế cho tên gọi Search Generative Experience (SGE). Ví dụ: Khung tóm tắt xuất hiện phía trên các liên kết màu xanh cho truy vấn "llms.txt là gì". Xem thêm: Tài liệu AI Overviews.

AI Search Visibility — Mức độ Hiển thị Tìm kiếm AI. Mức độ mà một nguồn thông tin xuất hiện, được trích dẫn hoặc được nhắc đến trong các câu trả lời do AI tạo ra trên các nền tảng. Đây là chỉ số kết quả chính yếu cho các chương trình GEO. Ví dụ: Theo dõi tần suất một tên miền được trích dẫn trong 100 truy vấn mẫu trên Perplexity qua từng tháng. Xem thêm: Đo lường mức độ hiển thị AI.

ai.txt — Một nhóm các tệp văn bản được đề xuất (như ai.txt của Spawning, ai.txt DSL học thuật và các đề xuất khác) đặt tại thư mục gốc của trang web nhằm diễn đạt cách các hệ thống AI có thể sử dụng nội dung trang web. Không có tiêu chuẩn duy nhất nào được phê chuẩn chính thức. Ví dụ: Tệp ai.txt tuyên bố rằng GPTBot được phép thu thập /blog/ nhưng không được thu thập /customers/. Xem thêm: Tài liệu ai.txt.

Answer Block — Khối trả lời. Một đoạn văn bản ngắn gọn, độc lập (thường từ 40-80 từ) được viết để hệ thống AI có thể nâng lên thành một câu trả lời hoàn chỉnh. Ví dụ: Đoạn định nghĩa 60 từ ở ngay phần đầu của trang "RAG là gì?" mà Perplexity lấy để trích dẫn theo từng chữ. Xem thêm: Khối trả lời (Answer Blocks).

Answer Engine — Công cụ Trả lời. Bất kỳ hệ thống nào trả về một câu trả lời trực tiếp thay vì một danh sách các liên kết. Ví dụ: ChatGPT, Perplexity, Google AI Overviews, Alexa và Siri đều được coi là những công cụ trả lời. Xem thêm: Trung tâm Công cụ Trả lời (Answer Engines Hub).

Answer Extraction — Trích xuất câu trả lời. Quy trình mà một hệ thống AI lấy một đoạn văn bản cụ thể từ nguồn và sử dụng nó làm câu trả lời. Ví dụ: Dạng đoạn trích nổi bật (featured snippet) lấy ngay câu đầu tiên nằm dưới thẻ <h2> và in đậm nó làm đáp án hiển thị. Xem thêm: Hướng dẫn trích xuất câu trả lời.

Answer Grounding — Neo câu trả lời. Hành động gắn kết câu trả lời do AI tạo sinh vào tài liệu nguồn cụ thể để câu trả lời có thể xác minh được và có trích dẫn. Sự neo thông tin mạnh mẽ tương quan chặt chẽ với cả tính chính xác thực tế lẫn cơ hội được trích dẫn. Ví dụ: Perplexity gắn các chú thích đánh số đằng sau mỗi câu trong phản hồi của nó. Xem thêm: Củng cố thông tin (Answer Grounding).

Answer-First Formatting — Định dạng Ưu tiên Câu trả lời. Một nguyên tắc cấu trúc nội dung nơi câu trả lời trực tiếp xuất hiện trong 2-3 câu đầu tiên, trước khi đi vào ngữ cảnh, lịch sử, hay các điều kiện mở rộng. Ví dụ: Mở đầu một trang định nghĩa bằng câu "GEO là quá trình…" thay vì "Trong vòng hai năm qua…". Xem thêm: Viết ưu tiên trả lời (Answer-First Writing).

Applebot — Trình thu thập dữ liệu web của Apple, được dùng cho công cụ truy xuất của Spotlight, Siri và Apple Intelligence. Ví dụ: Chuỗi user-agent Applebot-Extended trong nhật ký máy chủ chỉ báo những đợt truy cập tới từ hệ thống Apple Intelligence. Xem thêm: Tài liệu AI Crawlers.

B

Bing Chat / Copilot — Trợ lý AI tìm kiếm của Microsoft, được tích hợp trực tiếp vào công cụ tìm kiếm Bing và hệ sinh thái Microsoft 365. Ví dụ: Người dùng yêu cầu Copilot trong trình duyệt Edge so sánh hai trang giá cả và đưa ra đề xuất. Xem thêm: Tối ưu hóa Copilot.

Bot Detection — Phát hiện Bot. Khả năng định danh các tác nhân tự động tại cấp độ máy chủ, được sử dụng để quản lý quyền truy cập của các trình thu thập dữ liệu AI độc lập với lưu lượng người dùng thật. Ví dụ: Hệ thống của Cloudflare đánh dấu các yêu cầu từ ClaudeBot và định tuyến chúng qua một bộ nhớ đệm riêng biệt kèm theo giới hạn tốc độ. Xem thêm: Quản trị hoạt động Bot.

C

Canonical Concept — Khái niệm Chính tắc. Một trang đơn lẻ, mang tính ủy quyền được sử dụng làm tài liệu tham khảo cốt lõi cho một chủ đề cụ thể. Ví dụ: /geo/what-is-geo là trang khái niệm chính tắc cho "GEO" trên toàn bộ nền tảng geodocs.dev. Xem thêm: Mô hình Canonical Concept.

Canonical URL — URL Chính tắc. URL ưu tiên cho một phần nội dung, được sử dụng để ngăn chặn các vấn đề trùng lặp nội dung. Ví dụ: Khai báo <link rel="canonical"> trên phiên bản in trỏ ngược về URL bài viết chính. Xem thêm: Canonical URLs.

ChatGPT — Sản phẩm AI đàm thoại của OpenAI, bao gồm cả tính năng ChatGPT Search. Một bề mặt đo lường quan trọng trong các chương trình GEO. Ví dụ: Truy vấn "CRM tốt nhất cho startup SaaS" trả về một câu trả lời được tổng hợp với các nguồn được trích dẫn ngay bên trong ChatGPT. Xem thêm: Tối ưu hóa ChatGPT.

Citation Frequency (Citation Rate) — Tần suất Trích dẫn (Tỷ lệ Trích dẫn). Tần suất một nguồn cung cấp được trích dẫn hoặc tham chiếu trong các phản hồi do AI tạo ra trong một khoảng thời gian đo lường. Đây là một chỉ số KPI chính trong các chương trình GEO. Ví dụ: "Tên miền X được trích dẫn trong 27% các câu trả lời lấy mẫu của Perplexity về chủ đề GEO trong tháng 3 năm 2026." Xem thêm: Tỷ lệ Trích dẫn.

Citation Readiness — Mức độ Sẵn sàng Trích dẫn. Mức độ mà nội dung được cấu trúc để tối ưu hóa việc trích dẫn bởi AI. Được theo dõi trong metadata (frontmatter) của geodocs.dev với các trạng thái như draft (nháp), reviewed (đã duyệt), hoặc verified (đã xác minh). Ví dụ: Một trang chuyển từ trạng thái draft sang reviewed sau khi vượt qua danh sách kiểm tra trích dẫn của đội ngũ biên tập. Xem thêm: Mức độ Sẵn sàng Trích dẫn.

Citation Signal — Tín hiệu Trích dẫn. Bất kỳ thành tố có cấu trúc nào làm tăng khả năng được trích dẫn: định nghĩa rõ ràng, khẳng định thực tế, đánh dấu cấu trúc (schema markup), và URL ổn định. Ví dụ: Một khối Schema Definition đi kèm với câu trả lời gồm một câu ở đầu trang. Xem thêm: Các Tín hiệu Trích dẫn.

ClaimReview — Một loại cấu trúc schema.org được sử dụng để đánh dấu các bài kiểm chứng sự thật. Giúp hệ thống AI và các công cụ tìm kiếm hiển thị các tuyên bố đã được xác minh. Ví dụ: Một bài viết kiểm chứng sự thật sử dụng ClaimReview để đánh dấu "Khẳng định: X. Đánh giá: Sai." Xem thêm: Cấu trúc ClaimReview.

ClaudeBot — Trình thu thập dữ liệu web của Anthropic dành cho mô hình Claude. Được nhận diện thông qua user-agent ClaudeBot. Ví dụ: Yêu cầu ClaudeBot/1.0 xuất hiện trong nhật ký truy cập sau khi Claude tích hợp tính năng duyệt web. Xem thêm: Tài liệu AI Crawlers.

Content Cluster — Cụm Nội dung. Một nhóm các trang liên quan được tổ chức xung quanh một trang trụ cột (pillar page) trung tâm. Ví dụ: Một trang trụ cột về "AEO" được bao quanh bởi các trang nhánh về schema FAQ, khối trả lời (answer blocks) và đo lường hiệu suất. Xem thêm: Cụm Nội dung.

Content Structure — Cấu trúc Nội dung. Tổ chức phân cấp của nội dung sử dụng HTML ngữ nghĩa (semantic HTML), tiêu đề, danh sách, và bảng biểu nhằm hỗ trợ hệ thống AI phân tích cú pháp ý nghĩa. Ví dụ: Sử dụng thẻ <h2> cho các phần chuyên mục và <dl> cho danh sách định nghĩa thay vì lạm dụng thẻ <div> không có tính ngữ nghĩa. Xem thêm: Cấu trúc Nội dung.

Crawler — Trình Thu thập Dữ liệu (Bot). Bất kỳ bot tự động nào tiến hành lấy thông tin và lập chỉ mục nội dung web. Bao gồm các trình thu thập truyền thống và cả các AI crawler. Ví dụ: Googlebot, GPTBot, ClaudeBot, và PerplexityBot đều là các crawler. Xem thêm: Tài liệu Trình thu thập Dữ liệu.

D

Definition Block — Khối Định nghĩa. Một đoạn văn bản ngắn, có cấu trúc định nghĩa một thuật ngữ duy nhất, được tối ưu hóa cho việc trích xuất của AI. Ví dụ: Một thuật ngữ in đậm theo sau bởi một định nghĩa dài 30 từ được bọc trong cấu trúc Definition schema. Xem thêm: Khối Định nghĩa.

E

E-E-A-T — Kinh nghiệm (Experience), Chuyên môn (Expertise), Thẩm quyền (Authoritativeness), Độ tin cậy (Trustworthiness). Vốn là một khuôn khổ đánh giá chất lượng của Google, hiện được trích dẫn rộng rãi như một đại diện cho việc lựa chọn nguồn của AI. Ví dụ: Một bài viết y khoa được biên soạn bởi chuyên gia có chứng chỉ, với liên kết đến các nghiên cứu đã qua thẩm định y khoa (peer-reviewed). Xem thêm: E-E-A-T cho Tìm kiếm AI.

Embedding — Nhúng (Vector số). Biểu diễn toán học dưới dạng vector của văn bản được sử dụng để tìm kiếm ngữ nghĩa và truy xuất thông tin. Ví dụ: Một bài blog được lưu trữ dưới dạng một vector 1.536 chiều để hệ thống RAG có thể tìm thấy nó theo ngữ nghĩa, không chỉ là qua khớp nối từ khóa. Xem thêm: Giải thích về Embeddings.

Entity — Thực thể. Một khái niệm có tên gọi, con người, tổ chức, hoặc đối tượng mà các hệ thống AI có thể nhận diện và theo dõi. Ví dụ: Khai báo các thực thể ["GEO", "AEO"] trong frontmatter để trang được lập chỉ mục dưới cả hai khái niệm. Xem thêm: Thực thể.

Entity Clarity — Sự Rõ ràng của Thực thể. Quá trình định nghĩa thực thể một cách rõ ràng thông qua việc đặt tên nhất quán, áp dụng schema markup và thiết lập mối quan hệ ngữ cảnh mạch lạc. Ví dụ: Luôn sử dụng "Tối ưu hóa Công cụ Tạo sinh (Generative Engine Optimization - GEO)" ở lần đề cập đầu tiên thay vì luân phiên giữa "GEO" và "tối ưu hóa tìm kiếm tạo sinh". Xem thêm: Sự Rõ ràng của Thực thể.

Entity Coverage — Độ Phủ Thực thể. Mức độ bao phủ rộng và sâu của một tên miền đối với một thực thể và các thực thể phụ liên quan. Ví dụ: Một trang web đề cập đến GEO, AEO, llms.txt, ai.txt và AI Overviews sẽ có độ phủ thực thể "AI search" mạnh hơn so với trang web chỉ đơn thuần viết về GEO. Xem thêm: Độ phủ Thực thể.

F

FAQPage — Một định dạng schema.org dùng để đánh dấu nội dung dưới dạng các cặp Câu hỏi/Câu trả lời có cấu trúc. Ví dụ: Một khối FAQPage liệt kê năm cặp Q&A về llms.txt ở cuối một bài viết. Xem thêm: Cấu trúc FAQPage Schema.

Featured Snippet — Đoạn trích Nổi bật. Khung câu trả lời nổi bật ở vị trí đầu kết quả tìm kiếm Google, thường được gọi là "vị trí 0". Ví dụ: Khung đoạn văn bản trả lời "JSON-LD là gì" đi kèm với một liên kết nguồn phía dưới. Xem thêm: Đoạn trích Nổi bật.

Freshness Signal — Tín hiệu Tính Mới. Bất kỳ tín hiệu nào truyền đạt mức độ cập nhật của nội dung: ngày xuất bản, ngày cập nhật, phiên bản, dấu thời gian đánh giá gần nhất hoặc các trích dẫn mới bổ sung. Ví dụ: Trường updated_at được điều chỉnh thành "2026-05-01" với dòng thông báo "Cập nhật lần cuối" hiển thị trên giao diện người dùng. Xem thêm: Tín hiệu Tính Mới.

G

GEO (Generative Engine Optimization) — Tối ưu hóa Công cụ Tạo sinh. Quá trình định dạng nội dung để các hệ thống AI có thể hiểu, truy xuất, tổng hợp và trích dẫn thông tin trong các câu trả lời được tạo sinh. Ví dụ: Tái cấu trúc một bài viết 5.000 từ bằng việc thêm phần TL;DR, khối định nghĩa và FAQ để Perplexity có thể trích dẫn cho truy vấn "GEO là gì". Xem thêm: GEO là gì?.

Gemini — Dòng mô hình AI đa phương thức của Google, đóng vai trò nền tảng cho AI Overviews, AI Mode và ứng dụng Gemini. Ví dụ: Một bản tóm tắt AI Overview do Gemini xử lý tổng hợp năm nguồn để phản hồi truy vấn "giày chạy bộ tốt nhất 2026". Xem thêm: Tối ưu hóa Gemini.

Generative Engine — Công cụ Tạo sinh. Bất kỳ hệ thống AI nào tạo ra văn bản phản hồi bằng cách tổng hợp thông tin từ nhiều nguồn khác nhau. Ví dụ: ChatGPT, Perplexity, Claude, Gemini và Google AI Overviews đều là các công cụ tạo sinh. Xem thêm: Các Công cụ Tạo sinh.

Google-Extended — Một thẻ sản phẩm độc lập được Google tôn trọng trong robots.txt nhằm cấp hoặc từ chối quyền sử dụng nội dung website phục vụ cho việc đào tạo và củng cố (grounding) mô hình Gemini. Ví dụ: User-agent: Google-Extended theo sau bởi Disallow: / để từ chối việc đào tạo Gemini. Xem thêm: Tài liệu Google-Extended.

GPTBot — Trình thu thập dữ liệu web của OpenAI dùng cho quá trình huấn luyện và truy xuất của ChatGPT. Được nhận diện thông qua user-agent GPTBot. Ví dụ: Đoạn mã User-agent: GPTBot theo sau bởi Disallow: /private/ trong tệp robots.txt để chặn GPTBot truy cập vào khu vực riêng tư. Xem thêm: Tài liệu GPTBot.

Grounding — Neo câu trả lời. Xem thêm: Neo Câu trả lời (Answer Grounding).

H

Hub-and-Spoke — Cấu trúc Trục quay/Căm. Kiến trúc trang web nơi một trang trung tâm (hub) liên kết ra nhiều trang nhánh (spoke) có liên quan, và mỗi trang nhánh lại liên kết ngược về hub. Ví dụ: Một trung tâm /aeo/ liên kết tới 30 trang nhánh bao gồm FAQ schema, khối trả lời và các mẫu trích dẫn. Xem thêm: Kiến trúc Hub-and-Spoke.

HowTo — Một cấu trúc schema.org được sử dụng để đánh dấu các nội dung hướng dẫn từng bước. Ví dụ: Một khối HowTo mô tả năm bước triển khai tệp llms.txt. Xem thêm: Cấu trúc HowTo Schema.

I

Inclusion Rate — Tỷ lệ Tích hợp. Tỷ lệ các truy vấn liên quan trên một bề mặt AI nhất định mà tên miền của bạn được chọn làm nguồn trích dẫn. Ví dụ: "Tỷ lệ tích hợp của chúng tôi trên Perplexity cho các truy vấn về GEO đạt 31% vào tháng 3 năm 2026." Xem thêm: Tỷ lệ Tích hợp.

Internal Linking — Liên kết Nội bộ. Việc thiết lập liên kết giữa các trang trên cùng một tên miền để chuyển tải cấu trúc và quyền hạn (authority). Ví dụ: Mỗi mục trong bảng thuật ngữ đều có liên kết trỏ về trang khái niệm chính tắc nhằm củng cố cấu trúc hub-and-spoke. Xem thêm: Liên kết Nội bộ cho AI.

J

JSON-LD — JavaScript Object Notation for Linked Data. Định dạng tiêu chuẩn được khuyến nghị để triển khai dữ liệu có cấu trúc schema.org. Ví dụ: Một đoạn mã <script type="application/ld+json"> dùng để khai báo Article cùng với các trường author, datePublished, và mainEntityOfPage. Xem thêm: Tài liệu JSON-LD.

K

Knowledge Domain — Lĩnh vực Tri thức. Một nhóm tổ chức phân cấp logic bao gồm các khái niệm liên quan chặt chẽ với nhau. Ví dụ: knowledge_domain: "ai-search-optimization" nhóm các thuật ngữ GEO, AEO, AIO và ASO vào cùng một danh mục tổng thể. Xem thêm: Các Lĩnh vực Tri thức.

Knowledge Graph — Biểu đồ Tri thức. Mạng lưới các thực thể và mối quan hệ ngữ cảnh giữa chúng. Cả Google và các hệ thống AI quy mô lớn đều duy trì biểu đồ tri thức. Ví dụ: Knowledge Panel của Google về "Notion" được lấy từ biểu đồ tri thức nội bộ. Xem thêm: Sơ đồ Tri thức.

L

llms.txt — Tệp chỉ mục định dạng Markdown được đề xuất tại thư mục gốc /llms.txt nhằm cung cấp cho hệ thống AI một bản đồ tinh gọn, độ nhiễu thấp dẫn đến các nội dung hữu ích nhất của trang web. Đề xuất ban đầu được giới thiệu bởi Jeremy Howard tại llmstxt.org vào tháng 9 năm 2024. Phân tích nhật ký năm 2025 cho thấy các crawler lớn vẫn thường bỏ qua tệp này, vì vậy nó nên được xem là tín hiệu phụ trợ thay vì lộ trình truy cập bắt buộc. Ví dụ: Một tệp llms.txt liệt kê 20 trang tài liệu quan trọng nhất kèm theo mô tả ngắn. Xem thêm: Tài liệu llms.txt.

LLM (Large Language Model) — Mô hình Ngôn ngữ Lớn. Hệ thống AI được đào tạo trên bộ dữ liệu văn bản quy mô lớn nhằm sinh ra ngôn ngữ tự nhiên tương tự con người. Ví dụ: GPT-4, Claude 3, Gemini 1.5 và Llama 3 đều là các LLM. Xem thêm: Giải thích về Mô hình LLM.

Long-Tail Query — Truy vấn Đuôi Dài. Truy vấn tìm kiếm có đặc thù cụ thể, khối lượng thấp, thường ở dạng một cụm từ ghép hoặc câu hỏi đàm thoại tự nhiên. Ví dụ: "Cách triển khai tệp llms.txt cho nền tảng Next.js." Xem thêm: Truy vấn Đuôi Dài trong Tìm kiếm AI.

M

Machine Readability — Mức độ Máy có thể đọc được. Khả năng phân tích cú pháp của một hệ thống tự động đối với thông tin và ngữ nghĩa cấu trúc. Ví dụ: Việc sử dụng bảng HTML (<table>) thay vì cấu trúc phân chia dựa trên CSS (<div>) giúp các bộ đọc crawler có thể phân tích thông tin phân tầng dễ dàng hơn. Xem thêm: Mức độ Máy có thể đọc được.

MCP (Model Context Protocol) — Giao thức cho Ngữ cảnh Mô hình. Một tiêu chuẩn mở kết nối các tác nhân AI (AI agents) tới nguồn dữ liệu và bộ công cụ ngoại vi. Trong khi llms.txt tập trung vào ngữ cảnh tĩnh (chỉ đọc), MCP hỗ trợ tương tác và thực thi theo thời gian thực. Ví dụ: Máy chủ MCP cấp phép cho ChatGPT tra cứu và xuất thông tin ngay từ hệ thống catalog của công ty. Xem thêm: Giao thức MCP.

Mention Rate — Tần suất Được nhắc tên. Tỷ lệ mà một thương hiệu hoặc một thực thể được hệ thống AI xướng tên (đề cập) trong câu trả lời tổng hợp, không tính đến yếu tố hệ thống đó có trích dẫn nguồn liên kết trực tiếp hay không. Ví dụ: "Tần suất được nhắc tên trên ChatGPT cho câu hỏi 'các công cụ tìm kiếm AI tốt nhất' của chúng tôi là 42%." Xem thêm: Tần suất Được nhắc tên.

Microdata — Cú pháp đánh dấu siêu dữ liệu dựa trên thuộc tính HTML cũ. Hiện nay chủ yếu được thay thế bởi JSON-LD nhưng vẫn còn được hỗ trợ. Ví dụ: Cú pháp <div itemscope itemtype="https://schema.org/Person"> kết hợp với các thuộc tính thẻ itemprop. Xem thêm: Microdata và JSON-LD.

P

Perplexity — Một cỗ máy tìm kiếm tổng hợp thông tin, chuyên xào nấu câu trả lời đính kèm với nguồn trích dẫn nội tuyến (inline citations). Một nền tảng quan trọng trong đo lường GEO. Ví dụ: Tìm kiếm "llms.txt là gì" trên Perplexity và nhận về một đoạn văn bản tóm tắt tích hợp sẵn năm nguồn trích dẫn. Xem thêm: Tối ưu hóa Perplexity.

PerplexityBot — Trình thu thập dữ liệu web của Perplexity, được nhận dạng qua user agent PerplexityBot và các tác nhân tìm kiếm kích hoạt bởi người dùng Perplexity-User. Ví dụ: Đoạn cấu hình User-agent: PerplexityBot và Allow: / trong tệp robots.txt cho phép bot của Perplexity hoạt động tự do. Xem thêm: Tài liệu PerplexityBot.

Position Zero — Vị trí 0. Khung trả lời (đoạn trích nổi bật) chiếm ưu thế nằm ngay đầu kết quả tìm kiếm của Google, vượt trên danh sách các đường liên kết màu xanh truyền thống. Hiện tại, Position Zero dần nhường chỗ cho khối kết quả AI Overviews. Ví dụ: Một nền tảng chốt vị trí 0 cho câu hỏi "JSON-LD là gì" bằng khối tóm tắt 50 từ. Xem thêm: Vị trí 0.

Prompt — Yêu cầu Nhập (Câu lệnh). Khối văn bản tự nhiên đầu vào do người dùng truy vấn trên các nền tảng AI. Ví dụ: "Liệt kê bảng so sánh GEO và AEO phù hợp với đối tượng doanh nghiệp B2B SaaS." Xem thêm: Prompt và Truy vấn.

Q

Query Fan-Out — Phân nhánh Truy vấn. Kỹ thuật hệ thống tạo sinh (generative engine) vận dụng nhằm tự động sinh hàng loạt các câu hỏi phụ truy vấn sâu bên trong chỉ từ một lệnh đầu vào ban đầu, nhằm đảm bảo nguồn tham chiếu vững chắc (grounding sources). Ví dụ: Quá trình AI Overviews tự động chia nhỏ lệnh để chạy ẩn sáu chuỗi tìm kiếm Google từ một câu hỏi người dùng, sau đó nhào nặn kết xuất câu trả lời. Xem thêm: Phân nhánh Truy vấn.

R

RAG (Retrieval-Augmented Generation) — Tạo sinh Tăng cường Truy xuất. Mô hình kiến trúc nơi một hệ thống LLM thực hiện truy vấn các văn bản liên quan tại thời điểm nhận lệnh và sau đó gắn các thông tin đó làm nguồn neo cho câu trả lời. Ví dụ: Perplexity khởi động việc dò quét web để lấy các kết quả chuẩn nhất, sau đó yêu cầu LLM viết trả lời giới hạn trong những thông tin vừa tìm được. Xem thêm: Giải thích RAG.

Reader Mode — Chế độ Đọc (Người dùng mục tiêu). Các thuộc tính xác định đối tượng mà một bài viết cấu hình nhắm tới, có thể là con người đọc bình thường (human readers), tác nhân phần mềm AI (ai-agent readers) hay hướng cả hai. Ví dụ: Biến số reader_modes: ["human", "ai-agent"] được chỉ báo trong phần frontmatter. Xem thêm: Chế độ Đọc.

Retrieval — Truy xuất Dữ liệu. Quá trình công cụ AI tiến hành tìm nguồn nội dung (source content) để đáp ứng nhu cầu câu hỏi lúc khởi tạo. Ví dụ: Thuật toán tìm kiếm không gian vector trả về 10 đoạn dữ liệu liên quan có cùng tần số về mặt ngữ nghĩa (semantic similarity) từ khối cơ sở kiến thức để gửi cho LLM xử lý. Xem thêm: Truy xuất Dữ liệu.

robots.txt — Tệp Giao thức Loại trừ Robot. Tệp nền tảng gốc tại hệ thống website dùng cấu hình quyền điều hướng hoặc chặn đường quét cho crawler. Ra mắt lần đầu năm 1994 và định nghĩa chuẩn hóa RFC 9309 vào năm 2022. Đây vẫn là công cụ chính quản trị bot truy vấn (search) và hệ AI. Ví dụ: Lệnh User-agent: GPTBot kèm lệnh cấm Disallow: /admin/. Xem thêm: Quản trị robots.txt cho AI Crawlers.

S

Schema Markup — Ngôn ngữ Đánh dấu Schema. Một hệ quy chiếu chuẩn quốc tế về phân loại cấu trúc dữ liệu theo schema.org, bao trùm các kiểu nội dung, thực thể và các thành phần liên kết cấu trúc. Thường cài đặt dạng chuẩn JSON-LD trên hệ geodocs.dev. Ví dụ: Một đoạn block cấu hình Article thuộc kiểu JSON-LD gắn các trường author, headline và datePublished. Xem thêm: Schema Markup.

schema.org — Hệ thống định danh tập trung cho các định chuẩn khai báo dữ liệu có cấu trúc hợp chuẩn giữa liên minh Google, Microsoft, Yahoo và Yandex. Ví dụ: Gán giá trị @type là https://schema.org/Article để ấn định bài viết chuẩn. Xem thêm: Tài liệu schema.org.

SGE (Search Generative Experience) — Tiền thân của tính năng AI Overviews. Được Google công bố trên môi trường thử nghiệm Search Labs vào tháng 5/2023, đổi tên đại trà trên môi trường Search thành AI Overviews vào tháng 5/2024. Cả hai hệ đều định dạng từ cùng một nền hệ thống sinh kết quả. Xem thêm: Lịch sử SGE.

Semantic Search — Tìm kiếm Ngữ nghĩa. Công nghệ tìm kiếm bằng việc rà soát mối liên hệ chiều sâu ngữ nghĩa thay vì thuần lấy điểm móc nối bằng từ khóa (keyword matching). Xử lý dựa trên nền của chuỗi embeddings lưu ở định dạng vector database. Ví dụ: Đưa ra bài viết "Tối ưu hóa nội dung để công cụ AI nhận diện" khi tìm kiếm lệnh "cách lọt vào hệ ChatGPT". Xem thêm: Tìm kiếm Ngữ nghĩa.

SERP (Search Engine Results Page) — Trang Kết quả Công cụ Tìm kiếm. Nền tảng hiển thị trả về cho lệnh tìm kiếm của người dùng. Trên hệ SERP thế hệ mới luôn kèm có hệ AI Overviews, cấu hình mảng bảng tri thức (knowledge panels) cùng những kết quả web xanh truyền thống. Ví dụ: Giao diện SERP của lệnh "GEO" hiển thị chóp đỉnh AI Overview, dưới kèm ba kết quả tài trợ và mười liên kết organic. Xem thêm: Giải phẫu SERP.

Share of Voice — Tỉ trọng Hiển thị (Thị phần Thảo luận). Tổng giá trị phần trăm một thương hiệu thu được thông qua số lượt được các cỗ máy nhắc tên/trích dẫn so với phần các đối thủ cạnh tranh cộng lại. Ví dụ: "Chỉ số Share of Voice của chúng tôi trên Perplexity đối với từ khóa 'AEO' chiếm 18% so với 22% của đối thủ dẫn đầu." Xem thêm: Tỉ trọng Hiển thị.

Source Selection — Quá trình Lựa chọn Nguồn. Phương pháp một cỗ máy AI xử lý khi tiến hành xem xét các yếu tố để đưa một tài liệu nguồn vào kết quả tổng hợp. Yếu tố xem xét dựa vào cấp độ Topical Authority, sự hoàn thiện định dạng (structure), tốc độ tươi mới thông tin (freshness) và Mức độ sẵn sàng Trích dẫn. Ví dụ: Cỗ máy Perplexity ưu tiên trích bài blog của bạn hơn nền tảng chia sẻ cộng đồng như Reddit bởi vì sự vững chãi trong cấu hình độ phủ thực thể và chuyên gia chứng thực. Xem thêm: Lựa chọn Nguồn.

Structured Data — Dữ liệu có Cấu trúc. Ngôn ngữ siêu dữ liệu nhúng ẩn sau mỗi trang web thân thiện cho hệ thống AI đọc hiểu (machine-readable), tiêu chuẩn thường thấy bằng khai báo JSON-LD, Microdata, hay RDFa. Ví dụ: Một đoạn phân rã cấu hình JSON-LD cho khối Sản phẩm (Product) có hiển thị biến số name, price và định lượng thông số aggregateRating. Xem thêm: Dữ liệu có Cấu trúc.

T

TL;DR Block — Khối Tổng hợp Rút gọn. Phần tóm lược ngắn khoảng 2-3 câu đặt dưới tiêu đề bài, đáp ứng các tiêu chí trích xuất cho máy xử lý nhanh (snippet extraction). Luôn bắt buộc ở các bài viết thuộc nền tảng geodocs.dev. Ví dụ: Chuyên mục "TL;DR" kẹp ngay sau dòng cấu hình tiêu đề <h1>. Xem thêm: Khối TL;DR.

Topical Authority — Thẩm quyền Chủ đề. Điểm độ uy tín về tính xác minh và chuyên môn đối với một chủ đề cụ thể, tiêu chí nền tảng lớn trong GEO. Ví dụ: Nền tảng hệ thống đăng 80 chuyên đề tài liệu về AI Search được đo điểm Thẩm quyền Chủ đề cho hệ mốc "GEO" cao gấp nhiều lần hơn loại blog làm content SEO thông dụng đăng 3 bài về GEO. Xem thêm: Thẩm quyền Chủ đề.

U

User Agent — Tác nhân Người dùng (Client String). Dãy chuỗi mã HTTP định danh giúp hệ thống host tự khai nhận với máy chủ. AI crawler xử dụng danh mã cụ thể nhằm cho phép bên quản trị server nắm được các lệnh truy quét tự động. Ví dụ: Cú pháp chuẩn của trình OpenAI Mozilla/5.0 (compatible; GPTBot/1.0; +https://openai.com/gptbot). Xem thêm: Tài liệu User Agents.

V

Vector Database — Cơ sở dữ liệu Vector. Cấu trúc bộ lưu trữ đặc thù chuyên phục vụ mảng lưu mảng nhúng không gian đa chiều (embeddings) dành riêng cho ứng dụng tìm kiếm ngữ nghĩa. Ví dụ: Nền tảng xử lý như Pinecone, Weaviate, hoặc biến hệ pgvector có sức chứa 100,000 vùng tham khảo làm nguồn rễ hệ phân cho các ứng dụng hệ RAG. Xem thêm: Cơ sở dữ liệu Vector.

Voice Search — Tìm kiếm bằng Giọng nói. Quá trình tra cứu sử dụng các bộ trợ lý AI như Siri, Alexa và Google Assistant. Nền tảng đích quan trọng của chuẩn AEO. Ví dụ: Ra lệnh truy vấn "Hey Siri, thời tiết ngày mai ở Hà Nội" đáp ứng một câu trả lời duy nhất bằng giọng nói tổng hợp. Xem thêm: Tìm kiếm bằng Giọng nói.

W

Web Crawler — Trình Dò web. Mọi ứng dụng phần mềm tự hành rà quét trang ở mạng lưới internet. Ví dụ: Googlebot, Bingbot, GPTBot, hay ClaudeBot. Xem thêm: Trình Dò web.

Z

Zero-Click Search — Tìm kiếm Không nhấp chuột. Kết xuất nơi người dùng giải đáp liền yêu cầu từ kết quả trích ngay trên cửa sổ không cần nhấp điều hướng link (click through). Ví dụ: Lệnh truy "Đổi 100 USD qua VND" hiện ngay thông số trên màn tìm qua dạng AI Overview không gây phát sinh việc mở vào website phụ. Xem thêm: Tìm kiếm Không nhấp chuột.

FAQ

Q: Sự khác biệt giữa GEO và AEO là gì?

GEO là quá trình tổng quát về việc tổ chức và cấu trúc hóa nội dung để các hệ thống AI có thể hiểu, truy xuất, tổng hợp và trích dẫn. Trong khi đó, AEO là một nhánh chuyên biệt hẹp hơn, tập trung vào việc giúp nội dung được trích xuất dưới dạng câu trả lời trực tiếp bởi các answer engine, trợ lý giọng nói và AI Overviews. Hầu hết các chiến lược AEO (viết ưu tiên câu trả lời, khối FAQ, schema markup) đều nằm trong quy trình tổng thể của GEO.

Q: Tập tin llms.txt có phải là một tiêu chuẩn chính thức không?

Không. Tập tin llms.txt chỉ là một đề xuất cộng đồng được Jeremy Howard đưa ra vào tháng 9 năm 2024 tại llmstxt.org. Nó chưa được IETF hoặc bất kỳ nhà cung cấp AI lớn nào phê chuẩn. Các kết quả kiểm tra nhật ký máy chủ (log audits) năm 2025 cũng chỉ ra rằng các bot lớn như GPTBot và ClaudeBot thường bỏ qua tập tin này. Vì vậy, hãy xem nó như một tín hiệu phụ trợ hữu ích, thay vì một tuyến đường đảm bảo để AI truy cập.

Q: Tập tin ai.txt khác biệt như thế nào so với llms.txt?

Hai thuật ngữ này mô tả hai sáng kiến khác nhau với một số mục tiêu trùng lặp. Tập tin llms.txt cung cấp một bản đồ chỉ mục Markdown để giúp các tác nhân AI (AI agents) dễ dàng tìm thấy các nội dung cốt lõi của bạn. Trong khi đó, các đề xuất về ai.txt (như tệp cấp quyền của Spawning hay ai.txt học thuật DSL) thường tập trung vào việc khai báo các chính sách bản quyền và mức độ cho phép AI sử dụng dữ liệu. Hiện tại chưa có tài liệu nào trở thành tiêu chuẩn được phê chuẩn toàn cầu.

Q: AI Overviews có phải là sản phẩm thay thế cho Search Generative Experience (SGE)?

Đúng vậy. Google đã thử nghiệm SGE thông qua hệ sinh thái Search Labs vào tháng 5/2023, sau đó chính thức công bố việc chuyển đổi tên gọi và ứng dụng đại trà lên nền tảng Google Search dưới tên AI Overviews vào tháng 5/2024. Cả hai thuật ngữ đều đại diện cho cùng một lõi sản phẩm máy học cơ sở.

Q: Những chỉ số đo lường (Metrics) nào mang ý nghĩa quan trọng nhất đối với GEO?

Tần suất trích dẫn (Citation frequency), tỷ lệ được nhắc tên (mention rate), tỷ trọng hiển thị (share of voice), mức độ xuất hiện trong AI Overviews (inclusion rate), và lượng truy cập được giới thiệu bởi AI (referral traffic). Cần phải kết hợp các thông số đo lường trên bề mặt nền tảng riêng lẻ (như tỷ lệ trích dẫn Perplexity, tần suất nhắc trên ChatGPT) đồng bộ với các thước đo kinh doanh trực tiếp (chỉ số chuyển đổi hỗ trợ thông qua AI referrer).

Q: Query fan-out (Phân nhánh truy vấn) là gì và tại sao nó lại quan trọng?

Query fan-out là kỹ thuật hệ thống tạo sinh vận dụng nhằm mở rộng tự động hàng loạt các câu hỏi phụ truy vấn sâu bên trong chỉ từ một lệnh đầu vào ban đầu, nhằm đảm bảo tối đa các nguồn tham chiếu vững chắc (grounding sources). Do đó, nội dung của doanh nghiệp phải có cấu trúc để các cỗ máy AI truy quét ra được bất kể các biến thể khác biệt nhau mà người dùng gõ. Việc có cấu trúc độ phủ thực thể rõ ràng và quản lý các từ đồng nghĩa mạnh mẽ là giải pháp hữu hiệu.

Q: Mối liên hệ giữa kiến trúc RAG và GEO như thế nào?

RAG là hệ kiến trúc lõi nền tảng chi phối các công cụ trả lời hiện đại: một mô hình LLM chủ động tìm dữ liệu thông tin và dùng khối cơ sở dữ liệu vừa truy xuất làm mốc nền để tổng hợp ra văn bản phản hồi. Như vậy, GEO về bản chất chính là thực tiễn tối ưu và cấu trúc hóa website để định vị doanh nghiệp nằm ngay tại luồng thông tin tài liệu nguồn truy xuất trong toàn bộ vòng lặp của quá trình RAG.

Q: Tôi nên cho phép những trình thu thập dữ liệu AI nào trong tệp robots.txt?

Ở mức tối thiểu, hãy thiết lập chính sách truy cập rõ ràng đối với GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended, Applebot-Extended và Meta-ExternalAgent. Việc cho phép các trình thu thập xử lý theo thời gian thực (như OAI-SearchBot và PerplexityBot) trong khi giới hạn các bot chuyên truy quét dữ liệu học sâu (training-only bots) là quy chuẩn thỏa hiệp ưu việt nhất.

Tài liệu Liên quan

GEO là gì? — Định nghĩa cốt lõi
AEO là gì? — Định nghĩa cốt lõi
GEO vs SEO — So sánh
Tài liệu llms.txt — Đặc tả kỹ thuật
Tài liệu ai.txt — Đặc tả về quyền truy cập
robots.txt cho AI Crawlers — Quản lý kiểm soát quyền truy cập
GEO Hub — Toàn bộ nội dung GEO
AEO Hub — Toàn bộ nội dung AEO
Strategy Hub — Đo lường và các khuôn khổ
Technical Hub — Hướng dẫn triển khai kỹ thuật

Bảng chú giải thuật ngữ GEO/AEO (A-Z)

TL;DR

A

B

C

D

E

F

G

H

I

J

K

L

M

P

Q

R

S

T

U

V

W

Z

FAQ

Q: Sự khác biệt giữa GEO và AEO là gì?

Q: Tập tin llms.txt có phải là một tiêu chuẩn chính thức không?

Q: Tập tin ai.txt khác biệt như thế nào so với llms.txt?

Q: AI Overviews có phải là sản phẩm thay thế cho Search Generative Experience (SGE)?

Q: Những chỉ số đo lường (Metrics) nào mang ý nghĩa quan trọng nhất đối với GEO?

Q: Query fan-out (Phân nhánh truy vấn) là gì và tại sao nó lại quan trọng?

Q: Mối liên hệ giữa kiến trúc RAG và GEO như thế nào?

Q: Tôi nên cho phép những trình thu thập dữ liệu AI nào trong tệp robots.txt?

Tài liệu Liên quan

Bài viết liên quan

What Is AEO? Complete Guide to Answer Engine Optimization

GEO vs SEO

What Is GEO? Generative Engine Optimization Defined

Thông tin GEO & AI Search