Geodocs.dev

robots.txt dành cho AI Crawlers

ShareLinkedIn

Open this article in your favorite AI assistant for deeper analysis, summaries, or follow-up questions.

Tóm tắt cho AI: robots.txt dành cho AI crawlers sử dụng các quy tắc Allow và Disallow theo từng user-agent để kiểm soát cách các crawler huấn luyện AI (như GPTBot, Google-Extended, Applebot-Extended, ClaudeBot, CCBot, Bytespider) và các crawler truy xuất AI (như ChatGPT-User, OAI-SearchBot, PerplexityBot, Perplexity-User, DuckAssistBot) truy cập vào trang web. Hầu hết các nhóm thường cho phép các bot truy xuất để duy trì khả năng hiển thị trên tìm kiếm AI và chặn có chọn lọc các bot chỉ làm nhiệm vụ huấn luyện khi ưu tiên bảo vệ nội dung.

TL;DR

Hãy phân loại AI crawlers thành hai nhóm. Nhóm bot truy xuất (Retrieval bots) lấy trang của bạn để các công cụ AI có thể trả lời truy vấn trực tiếp của người dùng và thường có kèm liên kết nguồn (link back) — bạn gần như luôn muốn cho phép nhóm này. Nhóm bot huấn luyện (Training bots) lấy trang để cung cấp dữ liệu huấn luyện mô hình mà không có sự ghi nguồn cho từng truy vấn — tại đây, bạn cần đưa ra quyết định bảo vệ nội dung. Hãy sử dụng các quy tắc chặn chặn rõ ràng theo từng user-agent, cho phép sơ đồ trang web (sitemap) của bạn và xác minh việc thực thi trong nhật ký máy chủ (server logs). Để hiểu về ngăn xếp kiểm soát crawler toàn diện hơn, hãy xem trung tâm kỹ thuật và AI Crawl Signals.

Định nghĩa

robots.txt cho AI crawlers là việc áp dụng Giao thức Loại trừ Robot (Robots Exclusion Protocol - REP, được chính thức hóa trong RFC 9309) cho thế hệ user-agent mới dành riêng cho AI xuất hiện sau năm 2022. Nếu như REP ban đầu quản lý các trình lập chỉ mục của công cụ tìm kiếm như Googlebot và Bingbot, thì robots.txt ngày nay còn phải giải quyết các crawler huấn luyện AI (cung cấp dữ liệu cho trọng số mô hình), các crawler truy xuất AI (lấy trang trực tiếp trong các truy vấn của người dùng) và các token từ chối huấn luyện như Google-ExtendedApplebot-Extended, dùng để chặn việc sử dụng nội dung cho huấn luyện trong tương lai mà không thay đổi hành vi cào dữ liệu (crawl behavior).

Một cấu hình robots.txt chuẩn cho AI là một chính sách phân tách theo user-agent, phân biệt giữa huấn luyện và truy xuất, chỉ định rõ tên các bot quan trọng đối với chiến lược nội dung của bạn, cung cấp sitemap và được xác minh với nhật ký máy chủ thực tế. Đây là công cụ kiểm soát với chi phí thấp nhất trong ngăn xếp kiểm soát truy cập AI — và vì nó dựa trên hệ thống tự giác (honor-system), nó phải đi kèm với việc xác minh và (đối với nội dung giá trị cao) thực thi ở lớp biên (edge-layer enforcement).

Tại sao nó quan trọng

Tệp robots.txt đã âm thầm trở thành công cụ cấu hình có ý nghĩa nhất mà một nhà điều hành website có thể điều chỉnh để cải thiện khả năng hiển thị AI. Ba xu hướng sau khiến nó quan trọng hơn bất kỳ thời điểm nào trong thập kỷ qua:

  1. Tìm kiếm AI đã trở thành một kênh lưu lượng truy cập và trích dẫn đáng kể. ChatGPT search, Perplexity, Google AI Overviews, Claude, Gemini, Apple Intelligence, và DuckAssist đều phụ thuộc vào các bot truy xuất. Việc chặn chúng — vô tình hay cố ý — sẽ loại bạn hoàn toàn khỏi bề mặt hiển thị câu trả lời (answer surface).
  2. Huấn luyện và truy xuất hiện là hai quyết định kinh doanh riêng biệt. Việc cho phép GPTBot ảnh hưởng đến việc huấn luyện mô hình. Việc cho phép OAI-SearchBot ảnh hưởng đến việc liệu ChatGPT có thể trích dẫn bạn vào ngày mai hay không. Đây không còn là cùng một cấu hình nữa, và việc coi chúng là một là sai lầm phổ biến nhất trong lĩnh vực này.
  3. Sự tuân thủ dựa trên sự tự giác đang trở nên phổ biến hơn trước. Các nhà cung cấp AI lớn công bố chuỗi user-agent của họ và tuyên bố rằng họ tuân thủ robots.txt. Theo báo cáo quý 1 năm 2026 của Cloudflare, GPTBot là AI crawler bị chặn nhiều nhất trên internet — minh chứng cho thấy các nhà xuất bản đang sử dụng đòn bẩy này và các nhà cung cấp AI đang phản hồi lại.

Việc cấu hình sai tệp này có hai chế độ lỗi mà nhìn từ bên ngoài trông hoàn toàn giống nhau: bị loại bỏ âm thầm khỏi các câu trả lời AI (mất khả năng hiển thị), hoặc âm thầm cung cấp dữ liệu huấn luyện miễn phí trong khi cho rằng bạn đã được bảo vệ (mất giá trị nội dung). Cả hai lỗi này đều tích tụ trong nhiều tháng trước khi có ai đó nhận ra, đó là lý do tại sao cần có một chính sách kỹ lưỡng cộng với chu kỳ rà soát 60 ngày là tiêu chuẩn tối thiểu.

Hai nhóm: huấn luyện và truy xuất (training vs. retrieval)

Cách đóng khung hữu ích nhất cho chính sách AI crawler là sự phân chia giữa huấn luyện và truy xuất.

  • Các crawler huấn luyện (Training crawlers) lấy nội dung của bạn để xây dựng hoặc cập nhật trọng số mô hình. Người dùng sẽ không nhìn thấy URL của bạn khi mô hình sau đó trả lời một câu hỏi có liên quan. Ví dụ: GPTBot, Google-Extended, Applebot-Extended, ClaudeBot, CCBot, Bytespider, Cohere-AI, Diffbot.
  • Các crawler truy xuất (Retrieval crawlers) lấy nội dung của bạn để phản hồi một truy vấn trực tiếp của người dùng. Trích dẫn và liên kết ngược về trang của bạn là điều bình thường. Ví dụ: ChatGPT-User, OAI-SearchBot, PerplexityBot, Perplexity-User, DuckAssistBot, MistralAI-User, Meta-ExternalAgent.

Một số bot bao gồm cả hai chế độ (như Amazonbot, GoogleOther). Ma trận quyết định bên dưới giả định rằng bạn cho phép truy xuất và coi việc huấn luyện là một quyết định chiến lược nội dung.

Các user-agents của AI crawler (Tham chiếu 2026)

User-AgentĐơn vị vận hànhChế độGhi chú
GPTBotOpenAIHuấn luyệnTrình thu thập huấn luyện nguyên bản của OpenAI.
OAI-SearchBotOpenAITruy xuấtHỗ trợ chỉ mục tìm kiếm ChatGPT.
ChatGPT-UserOpenAITruy xuấtKích hoạt bởi thao tác duyệt web của người dùng.
Google-ExtendedGoogleTùy chọn từ chối huấn luyệnLà một token, không phải crawler; báo hiệu việc sử dụng trang web được cào bởi Googlebot cho việc huấn luyện.
GoogleOtherGoogleHỗn hợpCác yêu cầu nội bộ của sản phẩm Google.
PerplexityBotPerplexityTruy xuấtTrình lập chỉ mục cho câu trả lời của Perplexity.
Perplexity-UserPerplexityTruy xuấtCác yêu cầu trực tiếp do người dùng thao tác.
ClaudeBotAnthropicHuấn luyệnCrawler hoạt động của Anthropic.
anthropic-aiAnthropicHuấn luyệnToken cũ; giữ lại cho tương thích ngược.
Applebot-ExtendedAppleTùy chọn từ chối huấn luyệnToken chặn việc sử dụng dữ liệu từ Applebot để huấn luyện.
MistralAI-UserMistralTruy xuấtCác yêu cầu do người dùng Le Chat thao tác.
AmazonbotAmazonHỗn hợpYêu cầu tìm kiếm và sản phẩm AI.
DuckAssistBotDuckDuckGoTruy xuấtCrawler cho câu trả lời của DuckAssist.
Meta-ExternalAgentMetaHỗn hợpYêu cầu của trợ lý Meta AI.
Cohere-AICohereHuấn luyệnCrawler huấn luyện mô hình của Cohere.
BytespiderByteDanceHuấn luyệnThường bị chặn do khối lượng thu thập dữ liệu quá lớn.
CCBotCommon CrawlHuấn luyệnCung cấp kho dữ liệu huấn luyện cho nhiều LLM của bên thứ ba.
DiffbotDiffbotHỗn hợpSơ đồ tri thức (Knowledge graph) + Trích xuất AI.
ImagesiftBotImagesift / TheHiveHỗn hợpHuấn luyện đa phương thức (hình ảnh và văn bản).

Các token mới xuất hiện định kỳ mỗi quý. Hãy coi danh sách này như một điểm khởi đầu, không phải là một tập hợp đóng. Kho lưu trữ GitHub ai.robots.txt do cộng đồng duy trì là một tài liệu tham khảo hữu ích để luôn cập nhật.

Sự đánh đổi giữa Cho phép (Allow) và Chặn (Disallow)

Mỗi dòng Allow và Disallow là một sự đánh đổi giữa ba mục tiêu cạnh tranh: phạm vi trích dẫn, bảo vệ nội dung, và chi phí vận hành.

  • Việc cho phép các bot truy xuất (retrieval bots) tối đa hóa cơ hội URL của bạn xuất hiện dưới dạng câu trả lời trích dẫn trong ChatGPT, Perplexity, DuckAssist và các nền tảng tương tự. Chi phí: không có gì ngoài băng thông cào dữ liệu nhỏ.
  • Việc cho phép các bot huấn luyện (training bots) giúp nội dung của bạn định hình hành vi tương lai của mô hình. Ưu điểm là khả năng ảnh hưởng đến cách mô hình nói về lĩnh vực của bạn; nhược điểm là không có sự ghi nguồn cho từng truy vấn và không có cách nào từ chối một khi trọng số đã được huấn luyện.
  • Chặn các bot huấn luyện bảo vệ giá trị thương mại của nội dung dài, chi phí sản xuất cao (bài điều tra tin tức, báo cáo nghiên cứu, khóa học trả phí). Chi phí: nội dung của bạn ít định hình mô hình hơn, và các đối thủ cạnh tranh cho phép huấn luyện có thể xuất hiện nhiều hơn trong các câu trả lời về lĩnh vực của bạn.
  • Chặn các bot truy xuất loại bỏ bạn hoàn toàn khỏi các bề mặt câu trả lời AI. Đây hiếm khi là lựa chọn đúng đắn trừ khi bạn có lý do pháp lý, hợp đồng, hoặc nội dung có tường thu phí (paywall).
  • Các quy tắc cấp đường dẫn chọn lọc (Ví dụ: Allow: /blog/, Disallow: /admin/) cho phép bạn công bố kiến thức công khai trong khi bảo vệ dữ liệu khách hàng, API nội bộ và tài nguyên có giới hạn quyền. Chi phí: cần duy trì nhiều quy tắc hơn.

Một quy tắc mặc định tốt cho các nhà xuất bản nội dung trong năm 2026: cho phép tất cả các bot truy xuất, chặn các bot huấn luyện với nội dung bạn muốn bảo vệ, và xác minh định kỳ mỗi quý. Những trang web có toàn bộ mô hình kinh doanh dựa trên độ phủ nội dung (tài liệu nhà phát triển, wiki mở) thường nên cho phép tất cả; các trang web mà nội dung dài là sản phẩm chính (tòa soạn, công ty nghiên cứu) nên chặn huấn luyện và duy trì việc mở quyền truy xuất.

Các mẫu cấu hình (Configuration patterns)

Mẫu 1: Cho phép tất cả (các trang nội dung mở)

[[CODE_FENCE_LANG=txt]]

User-agent: GPTBot

Allow: /

User-agent: ClaudeBot

Allow: /

User-agent: Google-Extended

Allow: /

User-agent: Applebot-Extended

Allow: /

User-agent: PerplexityBot

Allow: /

User-agent: OAI-SearchBot

Allow: /

Sitemap: https://example.com/sitemap.xml

[[/CODE_FENCE]]

Sử dụng cấu hình này khi tính dễ khám phá quan trọng hơn các mối lo ngại về bảo vệ nội dung và bạn muốn tối đa hóa khả năng hiển thị AI.

Mẫu 2: Cho phép truy xuất, chặn huấn luyện (Phổ biến nhất)

[[CODE_FENCE_LANG=txt]]

--- Cho phép truy xuất (Duy trì hiển thị trên AI search) ---

User-agent: ChatGPT-User

Allow: /

User-agent: OAI-SearchBot

Allow: /

User-agent: PerplexityBot

Allow: /

User-agent: Perplexity-User

Allow: /

User-agent: DuckAssistBot

Allow: /

User-agent: MistralAI-User

Allow: /

--- Chặn huấn luyện ---

User-agent: GPTBot

Disallow: /

User-agent: ClaudeBot

Disallow: /

User-agent: anthropic-ai

Disallow: /

User-agent: Google-Extended

Disallow: /

User-agent: Applebot-Extended

Disallow: /

User-agent: CCBot

Disallow: /

User-agent: Bytespider

Disallow: /

User-agent: Cohere-AI

Disallow: /

User-agent: Diffbot

Disallow: /

--- Mặc định ---

User-agent: *

Allow: /

Sitemap: https://example.com/sitemap.xml

[[/CODE_FENCE]]

Đây là mẫu phổ biến nhất cho các nhà xuất bản, tài liệu SaaS và các trang web có nội dung cần bảo vệ nhưng vẫn muốn được trích dẫn.

Mẫu 3: Quyền truy cập chọn lọc theo chuyên mục

[[CODE_FENCE_LANG=txt]]

User-agent: GPTBot

Allow: /blog/

Allow: /docs/

Disallow: /admin/

Disallow: /api/

Disallow: /customer/

User-agent: PerplexityBot

Allow: /blog/

Allow: /docs/

Disallow: /admin/

Disallow: /api/

[[/CODE_FENCE]]

Sử dụng các quy tắc đường dẫn cụ thể nhất trước tiên. Cho phép khu vực kiến thức công khai; bảo vệ dữ liệu khách hàng, trang quản trị và các API nội bộ.

Các ví dụ thực tế

Các ví dụ từ những trang web lớn minh họa cho các chính sách trong thực tế hiện nay. (Nên kiểm tra robots.txt trực tiếp vì các chính sách thay đổi rất nhanh).

  1. The New York Times — Chặn huấn luyện nghiêm ngặt. NYT là một đơn vị sớm áp dụng chặn quyết liệt. Tệp robots.txt của họ từ chối rõ ràng GPTBot, ClaudeBot, anthropic-ai, Google-Extended, CCBot, Applebot-Extended, và một số bot khác, trong khi vẫn cho phép Googlebot truyền thống và các bot truy xuất chính.
  2. Reddit — Giới hạn bằng quan hệ đối tác. Reddit chặn các trình thu thập huấn luyện AI thông thường trong robots.txt trong khi cấp phép thông qua các thỏa thuận trả phí (nổi bật là với Google và OpenAI). robots.txt về cơ bản là một rào cản nhằm đẩy các nhà cung cấp AI hướng tới các thỏa thuận thương mại.
  3. Stack Overflow — Mô hình ưu tiên giấy phép. Stack Overflow chặn GPTBot và các crawler huấn luyện tương tự, đồng thời cung cấp chứng chỉ trả phí Stack Overflow for Teams + API cho dữ liệu huấn luyện AI. Các bot truy xuất vẫn được phép để các câu trả lời vẫn có thể được trích dẫn trực tiếp.
  4. BBC và các nhà xuất bản lớn tại Anh — Chặn huấn luyện hoàn toàn. BBC chặn GPTBot, Google-Extended, ClaudeBot, CCBot, Applebot-Extended, v.v. Các bot truy xuất vẫn được phép để nội dung của BBC có thể hiển thị trong các công cụ tìm kiếm trả lời.
  5. NPR — Truy xuất chọn lọc. robots.txt của NPR cho phép ChatGPT-UserPerplexityBot trong khi chặn GPTBotGoogle-Extended, minh họa rõ sự chia tách điển hình giữa huấn luyện và truy xuất.
  6. Các trang tài liệu nhà phát triển (Stripe, Vercel, tài liệu Cloudflare) — Cho phép tất cả. Những trang web này thường cho phép tất cả các bot AI. Chiến lược của họ: các mô hình càng trích dẫn tài liệu của họ là nguồn có thẩm quyền, họ càng thu hút được sự chú ý của nhà phát triển.
  7. Nền tảng thương mại điện tử — Chọn lọc theo đường dẫn. Các trang chi tiết sản phẩm thường được phép cho các bot truy xuất; trong khi đường dẫn đăng nhập, thanh toán và dữ liệu khách hàng bị chặn ở tất cả mọi nơi.

Bài học chung: không có câu trả lời nào phù hợp cho mọi trường hợp. Cấu hình đúng phụ thuộc vào mô hình kinh doanh, tính kinh tế của nội dung, và mức độ ảnh hưởng từ quy định pháp lý.

Cách robots.txt kết hợp với các bộ kiểm soát khác

robots.txt là một lớp trong bộ các kiểm soát truy cập AI.

  • robots.txt — tệp tiêu chuẩn REP, được các nhà cung cấp AI lớn tuân thủ nhưng được thực thi dựa trên tính tự giác (honor system).
  • ai.txt — tệp chính sách AI do con người đọc hiểu, bổ sung cho robots.txt; xem Tham chiếu ai.txt.
  • llms.txt — chỉ mục thông báo cho các công cụ AI về những trang bạn muốn lập chỉ mục; xem Tham chiếu llms.txt.
  • Lớp kiểm soát tại biên (Edge controls) — Cloudflare AI Audit, chặn bot AI, quản lý bot của Fastly, Akamai Bot Manager, và các quy tắc cấp độ CDN thực thi chính sách khi tính tự giác là không đủ.
  • Thẻ meta cấp trang web — các chỉ thị noai, noimageai, nocache, và noarchive tại nơi được hỗ trợ.
  • Xác minh IP từ máy chủ — các nhà cung cấp AI công bố dải IP của họ (OpenAI, Anthropic, Google, Apple) để bạn xác nhận user-agent là thực chứ không phải làm giả.
  • Điều khoản dịch vụ và cấp phép (ToS)robots.txt không phải là hợp đồng pháp lý; các điều khoản ToS rõ ràng về huấn luyện AI là cơ sở pháp lý dự phòng.

robots.txt vẫn là rào chắn đầu tiên ít tốn kém nhất; các lớp bảo mật ở biên và ToS là tầng thực thi chế tài.

Ma trận Quyết định (Decision matrix)

Mục tiêuChính sách Đề xuất
Tối đa hóa trích dẫn tìm kiếm AICho phép huấn luyện và truy xuất; cung cấp llms.txt.
Bảo vệ giá trị nội dung, nhưng vẫn được trích dẫnCho phép truy xuất; chặn các crawler chỉ huấn luyện.
Bảo vệ nội dung nghiêm ngặtChặn tất cả các bot AI; kết hợp thực thi bảo mật lớp biên.
Chỉ chia sẻ tài liệu mở, giới hạn sản phẩm trả phíPhân quyền truy cập theo đường dẫn; chặn các khu vực nhạy cảm.
Trang web tập trung vào hình ảnhBổ sung ImagesiftBot và các bot tương tự vào danh sách chặn huấn luyện.
Tòa soạn có chủ trương khởi kiện vi phạm bản quyềnChặn toàn bộ huấn luyện, cho phép truy xuất, tài liệu hóa chính sách trong ToS.
Nội dung được quản lý (y tế, tài chính)Chặn huấn luyện, cho phép truy xuất, cài cắm thêm miễn trừ trách nhiệm từng trang.

Cách xác minh chính sách của bạn được thực thi

robots.txt chỉ là một chính sách; để đảm bảo hiệu lực cần phải có bước xác minh (verification).

  1. Kiểm tra nhật ký truy cập (server logs) bằng cách lọc theo chuỗi user-agent bạn đã liệt kê và xác nhận các mẫu trạng thái HTTP 200 (Thành công) hoặc 403 (Từ chối truy cập) khớp với đúng ý định của bạn. Một user-agent xuất hiện trong log của bạn với trạng thái 200 sau khi bạn đã Disallow nó, nghĩa là quy tắc của bạn đã không hoạt động — thường là do lỗi cú pháp.
  2. Kiểm tra các báo cáo cào dữ liệu trong Search Console để xem có dấu hiệu bất thường sau khi thay đổi không.
  3. Chạy lại Thư viện câu hỏi gợi ý (Prompt library - xem Báo cáo Tìm kiếm AI: Thiết lập Dashboard) để xác nhận rằng các trích dẫn không bị giảm ngoài ý muốn sau khi kích hoạt chặn bot.
  4. Xác thực cú pháp với công cụ kiểm tra robots.txt của Google hoặc bất kỳ công cụ cộng đồng nào. Một dòng trống sai chỗ có thể vô tình gộp hai khối User-agent lại với nhau.
  5. Đề phòng những bot giả mạo. Một số crawler giả mạo (spoof) user-agent; hãy kết hợp các quy tắc chặn nghiêm ngặt với xác minh IP ở lớp biên hoặc dải IP từ các nhà cung cấp.
  6. Lên lịch đánh giá 60 ngày một lần. Các bot AI và token mới xuất hiện khoảng mỗi quý một lần; chính sách của bạn cần được rà soát định kỳ rõ ràng.

Những cấu hình sai phổ biến

  • Chặn tất cả bằng User-agent: * và quên đi các bot truy xuất. Việc này sẽ âm thầm gạt bỏ bạn khỏi kết quả tìm kiếm AI. Quy tắc mặc định * chỉ áp dụng khi không có quy tắc cụ thể hơn nào khớp; nếu bạn định cho phép bot truy xuất, hãy liệt kê tên chúng rõ ràng phía trên quy tắc này.
  • Trộn lẫn cả bot huấn luyện và bot truy xuất vào một khối (block). Các nhóm crawler khác nhau mang lại ảnh hưởng kinh doanh khác nhau; hãy tách chúng ra. Lệnh User-agent: GPTBot sẽ không ảnh hưởng tới ChatGPT-User hay OAI-SearchBot.
  • Quên chèn dòng Sitemap. Luôn bao gồm dòng Sitemap: https://yourdomain/sitemap.xml. AI crawlers thường sử dụng sitemap làm bảng kiểm kê chính cho các URL có thể lập chỉ mục.
  • Xem Google-Extended hoặc Applebot-Extended như là một crawler. Đây là các thẻ đánh dấu từ chối huấn luyện, không phải là crawler. Việc cào dữ liệu vẫn được thực hiện bởi Googlebot hoặc Applebot. Lệnh Disallow: / trên token này không dừng quá trình cào dữ liệu — nó dừng việc sử dụng dữ liệu sau đó cho mục đích huấn luyện.
  • Bỏ qua bước xác minh. Một tệp robots.txt nhìn thì có vẻ chuẩn nhưng bị sai cấu trúc (malformed) sẽ ngầm cho phép tất cả các bot truy cập. Luôn xác minh với log thực tế.
  • Danh sách crawler lỗi thời. Các token mới sẽ xuất hiện hàng quý. Hãy xếp lịch kiểm tra 60 ngày một lần.
  • Chặn theo IP thay vì user-agent. Dải IP của các nhà cung cấp AI thay đổi thường xuyên. Hãy sử dụng các quy tắc user-agent làm chính sách ưu tiên và danh sách IP cho phép chỉ dùng để xác thực trong những tình huống rủi ro lớn.
  • Đặt các quy tắc AI đằng sau một CDN xóa sạch phần ghi chú comment. Một vài cấu hình giảm thiểu dung lượng từ CDN có thể xóa đi các bình luận bắt đầu bằng dấu # và gây hỏng các ranh giới User-agent. Luôn xác minh tệp gốc so với tệp được phân phối.

Ví dụ cấu hình hoàn chỉnh

[[CODE_FENCE_LANG=txt]]

robots.txt cho example.com

Cập nhật: 2026-05-01

--- Tìm kiếm truyền thống ---

User-agent: Googlebot

Allow: /

User-agent: Bingbot

Allow: /

--- Truy xuất AI (cho phép để bảo tồn trích dẫn) ---

User-agent: ChatGPT-User

Allow: /

User-agent: OAI-SearchBot

Allow: /

User-agent: PerplexityBot

Allow: /

User-agent: Perplexity-User

Allow: /

User-agent: DuckAssistBot

Allow: /

User-agent: MistralAI-User

Allow: /

User-agent: Meta-ExternalAgent

Allow: /

--- Huấn luyện AI (chặn để bảo vệ giá trị nội dung) ---

User-agent: GPTBot

Disallow: /

User-agent: ClaudeBot

Disallow: /

User-agent: anthropic-ai

Disallow: /

User-agent: Google-Extended

Disallow: /

User-agent: Applebot-Extended

Disallow: /

User-agent: CCBot

Disallow: /

User-agent: Bytespider

Disallow: /

User-agent: Cohere-AI

Disallow: /

User-agent: Diffbot

Disallow: /

User-agent: ImagesiftBot

Disallow: /

--- Mặc định ---

User-agent: *

Allow: /

Sitemap: https://example.com/sitemap.xml

[[/CODE_FENCE]]

Câu hỏi thường gặp

Q: Các bot AI có thực sự tuân thủ robots.txt không?

Các nhà cung cấp AI lớn (OpenAI, Google, Anthropic, Apple, Perplexity, Mistral, DuckDuckGo, Meta, Cohere) đều công khai tuyên bố rằng họ tuân thủ robots.txt. Sự tuân thủ dựa trên hệ thống tự giác (honor system), vì vậy các chính sách bảo mật khắt khe nên được đi kèm với các biện pháp lớp biên (edge-layer) và xác minh dải IP nhà cung cấp.

Q: Việc chặn GPTBot có làm loại tôi khỏi các câu trả lời trên ChatGPT không?

Không hẳn. ChatGPT-UserOAI-SearchBot thực hiện nhiệm vụ tìm kiếm và truy xuất thông tin trực tiếp; trong khi GPTBot thực hiện nhiệm vụ lấy dữ liệu phục vụ huấn luyện. Chặn GPTBot chỉ loại bạn khỏi dữ liệu huấn luyện tương lai mà không chặn các trích dẫn trực tiếp miễn là các bot truy xuất vẫn được Allow (Cho phép).

Q: Sự khác biệt giữa Google-Extended và Googlebot là gì?

Google-Extended là một token tùy chọn từ chối huấn luyện, không phải là một crawler độc lập. Googlebot vẫn sẽ cào trang web; tuy nhiên thiết lập Disallow: / đối với Google-Extended sẽ báo hiệu cho Google không sử dụng những trang đó để huấn luyện mô hình Gemini và Vertex AI. Xếp hạng tìm kiếm thông thường của bạn sẽ không bị ảnh hưởng.

Q: Tôi có nên thêm Applebot-Extended dù cho Apple không phải là ưu tiên tìm kiếm không?

Có, nếu bạn muốn một sự từ chối rõ ràng về huấn luyện. Applebot-Extended là token từ chối huấn luyện dành cho nội dung được cào bởi Applebot (công cụ cung cấp sức mạnh cho Apple Intelligence và các gợi ý của Siri).

Q: Tần suất tôi nên xem xét và rà soát file robots.txt dành cho AI là bao lâu?

Mỗi 60 ngày, hoặc ngay sau bất kỳ thông báo cập nhật bản phát hành mô hình AI lớn nào. Thẻ token crawler mới sẽ xuất hiện mỗi quý một lần, và các bên cung cấp đôi khi cũng thay tên hoặc chia tách bot của họ.

Q: robots.txt có bảo vệ tôi khỏi việc lấy dữ liệu (scraping) để huấn luyện trái phép không?

Không. robots.txt là một lời yêu cầu, không phải là cơ chế bắt buộc thực thi. Để được bảo vệ trước các crawler không tuân thủ quy tắc, hãy cài cắm quản lý bot trên CDN, giới hạn tần suất yêu cầu (rate limiting), và thiết lập các điều khoản pháp lý ràng buộc trong điều khoản dịch vụ (terms of service) của bạn.

Q: Tôi có nên chặn CCBot (Common Crawl) không?

Điều này phụ thuộc vào bài toán kinh tế trong nội dung của bạn. Common Crawl là một bộ lưu trữ web công cộng được sử dụng bởi nhiều LLM từ bên thứ ba cũng như nhiều dự án nghiên cứu. Cho phép CCBot sẽ tối đa hóa cơ hội phơi bày trước các mô hình tiếp theo sau này; trong khi chặn nó lại là cách hiệu quả nhất để tháo bỏ nội dung của bạn khỏi một lượng lớn bộ huấn luyện mô hình, bởi nhiều mô hình hoạt động dựa trên dữ liệu lấy từ Common Crawl thay vì tự trực tiếp cào trên web.

Q: Có sự khác biệt giữa Disallow: / và loại bỏ hoàn toàn khối user-agent không?

Có. Lệnh Disallow: / là một chỉ thị chặn rõ ràng buộc bot phải tuân theo. Nếu bỏ hoàn toàn khối đó, crawler sẽ sử dụng lại quy tắc mặc định User-agent: * của bạn, mà thông thường là cho phép truy cập. Luôn luôn phải sử dụng khai báo rõ ràng đối với những bot bạn đặc biệt quan tâm.

Q: Các thành phần như hình ảnh, video và nội dung đa phương thức thì sao?

Hãy thêm ImagesiftBot cũng như các crawler đa phương thức tương tự vào danh sách chặn huấn luyện của bạn nếu như mục tiêu của bạn là bảo vệ các tài sản trực quan (hình ảnh/video). Một vài nhà cung cấp cũng tuân thủ theo các thẻ meta cấp độ trang web như noimageai để kết hợp cùng quy tắc từ robots.txt.

Bài viết liên quan

reference

AI Crawl Signals: How AI Discovers Content

Technical reference for the signals AI systems use to discover, access, and prioritize web content — including sitemaps, llms.txt, robots.txt, structured data, and HTTP headers.

reference

ai.txt: AI Agent Access Policy Reference

ai.txt is an emerging root-level file that declares site-wide permissions and attribution rules for AI training, citation, and inference.

guide

HTML Semantic Structure for AI Readability

Use HTML5 semantic elements like article, section, nav, and proper heading hierarchy to improve AI crawler extraction and citation probability.

Chủ đề
Cập nhật tin tức

Thông tin GEO & AI Search

Bài viết mới, cập nhật khung làm việc và phân tích ngành. Không spam, hủy đăng ký bất cứ lúc nào.