Đặc tả này quy định cấu trúc thiết lập nội dung web dành cho các tác nhân AI tự trị (autonomous AI agents) — bao gồm crawler, chatbot, trợ lý nghiên cứu, các browser-based agents như ChatGPT Atlas và Perplexity Comet, các coding agents như Cursor và Claude Code, và mọi hệ thống AI khác đóng vai trò tìm kiếm, phân tích cú pháp (parse) và tổng hợp thông tin từ web thay cho người dùng.

AI Agent Content Specification thiết lập ba lớp cấu trúc cốt lõi — nhận diện (llms.txt, agents.json, sitemap, robots.txt), phân tích ngữ nghĩa (frontmatter, semantic HTML, JSON-LD, agent.md), và ghi nhận nguồn (ai.txt, canonical URLs) — nhằm tối ưu hóa quy trình khám phá, hiểu và trích dẫn bản quyền nội dung web của các AI agents. Việc tuân thủ có thể được xác thực thông qua danh sách kiểm tra (compliance checklist) ở cuối tài liệu.

TL;DR

Tối ưu hóa khả năng tiếp cận của agents đối với từng trang thông qua việc cấu trúc ba lớp: Tính nhận diện (tích hợp llms.txt và sitemap.xml, cấu hình quyền truy cập cho crawlers trong robots.txt, tùy chọn khai báo qua agents.json), tính phân tích (triển khai đầy đủ frontmatter ~30 trường, phân cấp tiêu đề ngữ nghĩa, nhúng JSON-LD, và cung cấp agent.md cho các công cụ lập trình), và tính ghi nhận nguồn (canonical URL kết hợp với chính sách ai.txt để định danh nguồn và định dạng trích dẫn). Danh sách kiểm tra triển khai ở cuối tài liệu là tiêu chuẩn bắt buộc.

Để nghiên cứu chiến lược chuyên sâu, vui lòng tham khảo chuyên mục cốt lõi AI Agents.

Tổng quan kiến trúc đặc tả

Cấp độ (Layer)	Mục tiêu (Purpose)	Tiêu chuẩn triển khai (Standards)
Nhận diện (Discovery)	Hỗ trợ AI agents định vị và lập chỉ mục nội dung	`llms.txt`, `agents.json`, `sitemap.xml`, `robots.txt`
Phân tích (Parsing)	Hỗ trợ AI agents đọc hiểu cấu trúc và ngữ nghĩa	Frontmatter, semantic HTML, JSON-LD, `agent.md`
Ghi nhận (Attribution)	Đảm bảo AI agents trích dẫn nguồn định danh	`ai.txt`, source metadata, canonical URLs

Lớp 1: Nhận diện (Discovery)

llms.txt

Tất cả các website nên triển khai tệp tĩnh /llms.txt — một mục lục Markdown chuẩn hóa để cung cấp cho AI agents bản đồ điều hướng nội dung và cấu trúc kiến trúc của nền tảng. Định dạng tiêu chuẩn này được đề xuất bởi Jeremy Howard và tài liệu hóa chi tiết tại llmstxt.org.

Các thành phần cấu trúc bắt buộc:

Tên hệ thống / Site name (thẻ H1)
Mô tả nền tảng / Site description (blockquote)
Chỉ mục nội dung / Content index (danh sách liên kết kèm mô tả)
Cấu trúc phân mục / Section organization (thẻ H2)

Định dạng mẫu:

[[CODE_FENCE_LANG=markdown]]

Acme is a payments platform. This index lists the canonical references AI agents should consult.

Core concepts

Payments overview: How card and bank transfers move through Acme.
Webhooks reference: Event types, retry policy, and signature verification.

API

Authentication: API key formats and header conventions.
Errors: Error envelope and code taxonomy.

[[/CODE_FENCE]]

Chi tiết đặc tả: How to Create llms.txt.

agents.json (Đề xuất tùy chọn)

agents.json đang định hình trở thành một tiêu chuẩn để khai báo các bề mặt thao tác dành cho agent (agent-actionable surfaces) — bao gồm APIs, công cụ (tools), và các tác vụ cấu trúc (structured tasks) — được lưu trữ tại đường dẫn chuẩn /.well-known/agents.json. Tệp này hoạt động song song với llms.txt để khai báo năng lực hệ thống (capabilities) thay vì chỉ tập trung vào tài liệu nội dung (content).

Định dạng mẫu:

[[CODE_FENCE_LANG=json]]

{

"schema_version": "v1",

"name_for_model": "acme_payments",

"description_for_model": "Read and act on Acme payment data.",

"auth": { "type": "oauth", "authorization_url": "https://acme.com/oauth" },

"tools": [

{

"name": "create_invoice",

"description": "Create an invoice for a customer.",

"endpoint": "https://api.acme.com/v1/invoices",

"method": "POST"

}

"contact_email": "security@acme.com"

}

[[/CODE_FENCE]]

Mức độ ứng dụng của tiêu chuẩn này hiện đang trong giai đoạn phát triển; nên được xem như một lớp siêu dữ liệu (metadata) tương thích định hướng tương lai (forward-compatible) thay vì một yêu cầu bắt buộc cứng nhắc.

XML Sitemap tối ưu cho AI

Các tệp sitemap XML tiêu chuẩn đóng vai trò cốt lõi trong việc điều hướng AI crawlers. Cần tối ưu hóa thông qua các thuộc tính:

<lastmod> để xác thực độ mới của dữ liệu
<changefreq> để dự phóng tần suất cập nhật
<priority> nhằm phân bổ mức độ ưu tiên cho các trang nền tảng

Khuyến nghị triển khai một tệp sitemap chuyên biệt sitemap-ai.xml dành riêng cho các bài viết đạt chuẩn trích dẫn (canonical, citation-ready pages) — đặc biệt hiệu quả đối với các hệ thống phân tách rạch ròi giữa nội dung tiếp thị (marketing) và tài liệu quy chuẩn (documentation).

robots.txt hỗ trợ AI Crawlers

Cấu hình quyền truy cập minh bạch cho các AI crawlers chủ đạo trong ngành; chỉ áp dụng chặn (disallow) khi có yêu cầu bảo mật hoặc quyền riêng tư rõ ràng:

[[CODE_FENCE_LANG=text]]

User-agent: GPTBot

Allow: /

User-agent: OAI-SearchBot

Allow: /

User-agent: ChatGPT-User

Allow: /

User-agent: ClaudeBot

Allow: /

User-agent: Claude-Web

Allow: /

User-agent: PerplexityBot

Allow: /

User-agent: Perplexity-User

Allow: /

User-agent: Applebot-Extended

Allow: /

User-agent: Google-Extended

Allow: /

[[/CODE_FENCE]]

Danh sách user-agents của các crawler thường xuyên thay đổi. Cần tham chiếu tài liệu cập nhật từ OpenAI bot docs, Anthropic crawler docs, và Google crawler docs.

Lớp 2: Phân tích ngữ nghĩa (Parsing)

Lược đồ Frontmatter Metadata

Mọi trang nội dung bắt buộc phải khai báo bộ frontmatter có tổ chức và tuân thủ định dạng. Lược đồ dưới đây định nghĩa mô hình tiêu chuẩn (canonical) với 30 trường dữ liệu; chỉ điều chỉnh cấu trúc khi nội dung có đặc thù ngoại lệ.

[[CODE_FENCE_LANG=yaml]]

Identity

Q: Việc triển khai một tệp `agent.md` có bắt buộc cho mọi trang nội dung không?

A: Không. Việc thiết lập tệp `agent.md` song hành chỉ được khuyến nghị đối với các trang tài liệu kỹ thuật định hướng cấu trúc thực thi hệ thống (actionable surfaces: APIs, CLIs, SDKs, tệp cấu hình). Với những tài liệu thuần túy tường thuật (narrative) hoặc lý thuyết (conceptual), việc trang bị đầy đủ frontmatter và JSON-LD đã hoàn toàn thỏa mãn các tiêu chuẩn đọc máy.

title: "Page Title"

slug: "url-slug"

section: "section-name"

canonical_url: "https://example.com/section/url-slug"

status: "published"

Knowledge

canonical_concept_id: "unique-concept-identifier"

knowledge_domain: "domain-name"

entities: ["Primary Entity"]

aliases: ["alt name"]

related_concepts: ["related-id"]

Taxonomy

primary_audience: "developer|seo-specialist|content-strategist|founder|marketer"

secondary_audiences: ["..."]

reader_modes: ["human", "ai-agent"]

difficulty: "beginner|intermediate|advanced"

ai_platforms: ["chatgpt", "perplexity", "claude", "gemini"]

SEO

description: "120-160 char description."

focus_keyword: "primary keyword"

secondary_keywords: ["k1", "k2"]

AI readiness

canonical_question: "What is X?"

llm_summary: "2-sentence factual summary."

citation_readiness: "reviewed|draft"

Lifecycle

published_at: "YYYY-MM-DD"

updated_at: "YYYY-MM-DD"

last_reviewed_at: "YYYY-MM-DD"

review_cycle_days: 90

version: "1.0"

Relations

series: "series-id"

series_order: 1

related_articles: ["section/slug"]

I18n + authorship

lang: "en"

translations: []

author: "Author Name"

reviewed_by: null

[[/CODE_FENCE]]

agent.md (Tối ưu hóa cho môi trường lập trình)

Khi triển khai tài liệu tham chiếu API, CLI, hoặc bộ công cụ kỹ thuật, yêu cầu cung cấp song song một tệp agent.md tại cùng đường dẫn (path) bên cạnh tài liệu dành cho con người. Tệp agent.md này lược bỏ hoàn toàn các văn bản tiếp thị hoặc giải thích dư thừa, thay vào đó cung cấp trực tiếp các khai báo định danh tất định (deterministic signature) mà agent yêu cầu.

Định dạng mẫu:

[[CODE_FENCE_LANG=markdown]]

acme.payments.create_invoice

Signature

POST /v1/invoices

Content-Type: application/json

Authorization: Bearer

Input

customer_id (string, required): Acme customer ID, format cus_.
amount_cents (integer, required): Positive integer.
currency (string, required): ISO 4217 code.

Output

invoice_id (string): Created invoice ID, format inv_.
status (string): One of open, paid, void.

Errors

400 invalid_currency — currency not in ISO 4217.
402 insufficient_funds — customer balance below amount_cents.

Idempotency

Pass Idempotency-Key header. Same key returns the original response.

[[/CODE_FENCE]]

Các coding agents hiện hành như Cursor và Claude Code đã được tối ưu hóa để trực tiếp tiêu thụ định dạng agent.md. Các tệp hệ thống gốc (repository-root files) như AGENTS.md và CLAUDE.md cũng vận hành dựa trên cùng nguyên lý này nhằm cung cấp ngữ cảnh lập trình (code-context).

Cấu trúc nội dung văn bản (Content body structure)

Triển khai phương pháp tiếp cận answer-first

Vị trí đầu trang phải cung cấp cấu trúc trả lời trực tiếp nhằm giải quyết ngay mục tiêu chính của bài viết:

[[CODE_FENCE_LANG=markdown]]

[Title as Question or Topic]

[Direct answer in 1-2 sentences. Complete and self-contained.]

[2-3 sentence expanded summary.]

TL;DR

[Snippet-ready 2-3 sentence summary.]

[[/CODE_FENCE]]

Phân cấp tiêu đề (Heading hierarchy)

H1: Tiêu đề chính (duy nhất một thẻ)
H2: Các phần luận điểm chính (major sections)
H3: Các tiểu mục bổ trợ bên trong H2
H4: Ít sử dụng; hạn chế lồng ghép sâu (deeper nesting)

Các thành phần cấu trúc bắt buộc (Required structural elements)

Mọi trang nội dung hướng tới sự tương thích với AI agent phải triển khai các yếu tố sau:

Một thẻ H1 đồng nhất tuyệt đối với trường title trong frontmatter.
Tối đa một thẻ blockquote AI summary đặt ngay dưới H1.
Chuyên mục TL;DR (## TL;DR) chứa một đoạn tóm tắt tối ưu cho trích xuất snippet (2-3 câu).
Tối thiểu một cấu trúc định nghĩa minh bạch, bảng so sánh (table), hoặc danh sách tuần tự (step-by-step list) trong thân bài nhằm hỗ trợ trích xuất (extractable).
Chuyên mục FAQ với 3-8 cặp câu hỏi-trả lời sử dụng ngôn ngữ truy vấn tự nhiên (natural questions).
Khai báo URL chuẩn (canonical URL) trong cả frontmatter và thẻ HTML <link rel="canonical">.
Nhúng cấu trúc JSON-LD định danh thực thể trọng tâm (primary entity) ở cuối tài liệu.

Bất kỳ tài liệu nào thiếu sót một trong 7 tiêu chí trên sẽ bị đánh giá là không tuân thủ quy chuẩn (non-compliant) và không đủ điều kiện nhận chứng nhận citation_readiness: reviewed.

Cấu trúc mẫu hỗ trợ trích xuất (Extractable patterns)

Định dạng định nghĩa:

[[CODE_FENCE_LANG=markdown]]

[Term] is [complete definition in one sentence].

[Optional second sentence on significance.]

[[/CODE_FENCE]]

Bảng tham chiếu:

[[CODE_FENCE_LANG=markdown]]

Dimension	Option A	Option B
Aspect 1	Value	Value

[[/CODE_FENCE]]

Cấu trúc quy trình (Step-by-step):

[[CODE_FENCE_LANG=markdown]]

Step name — Description.
Step name — Description.

[[/CODE_FENCE]]

Cấu trúc hỏi đáp FAQ:

[[CODE_FENCE_LANG=markdown]]

Question in natural language?

[Direct answer. No preamble.]

[[/CODE_FENCE]]

Dữ liệu cấu trúc JSON-LD

Mỗi trang bắt buộc triển khai tối thiểu một định dạng JSON-LD.

Định dạng bài viết chuyên môn (Article):

[[CODE_FENCE_LANG=json]]

{

"@context": "https://schema.org",

"@type": "TechArticle",

"headline": "Page Title",

"description": "Page description",

"author": { "@type": "Organization", "name": "Site Name" },

"datePublished": "2025-01-01",

"dateModified": "2026-05-01"

}

[[/CODE_FENCE]]

Định dạng trang hỏi đáp (FAQPage):

[[CODE_FENCE_LANG=json]]

{

"@context": "https://schema.org",

"@type": "FAQPage",

"mainEntity": [

{

"@type": "Question",

"name": "Question text",

"acceptedAnswer": { "@type": "Answer", "text": "Answer text" }

}

]

}

[[/CODE_FENCE]]

Tài liệu tham chiếu chi tiết: Structured Data for AI Search.

Lớp 3: Ghi nhận nguồn gốc (Attribution)

ai.txt

Chính sách thiết lập minh bạch quy tắc trích dẫn bản quyền cho AI agents:

[[CODE_FENCE_LANG=text]]

AI Agent Access Policy

User-agent: *

Allow: /

Attribution-required: yes

Source-name: Your Site Name

Source-url: https://yoursite.com

Citation-format: "[Title] — [Source-name] (Source-url/path)"

[[/CODE_FENCE]]

Chi tiết đặc tả: ai.txt Starter Template.

Canonical URLs

Mỗi trang phải định nghĩa một URL chính quy (canonical URL) duy nhất:

[[CODE_FENCE_LANG=html]]

[[/CODE_FENCE]]

Các AI agents bắt buộc phải sử dụng URL này để thiết lập trích dẫn gốc, bất kể phương thức truy cập trang. Các trang gương (mirror sites), nội dung tái phân phối (syndicated copies), và các phiên bản AMP đều phải kế thừa cấu trúc tham chiếu chuẩn xác trỏ về canonical URL gốc.

Siêu dữ liệu định danh (Source metadata)

Tích hợp cấu trúc Organization schema (chứa logo, thuộc tính sameAs, thông tin liên hệ) tại một điểm kiểm soát duy nhất nhằm đảm bảo các agents có thể dễ dàng xác định thực thể chủ sở hữu mà không cần phân tích siêu dữ liệu trên từng trang phân mảnh.

Nguyên tắc tối ưu hóa đa nền tảng

Các AI agents không đồng nhất trọng số đối với các tín hiệu nội dung (weight signals differently). Các hướng dẫn dưới đây được tổng hợp từ dữ liệu quan trắc hành vi (observed behavior); khuyến nghị đối chiếu với tài liệu kỹ thuật cập nhật của từng nền tảng để đảm bảo độ chính xác.

ChatGPT (OpenAI) — Search và Atlas browser

Tuân thủ quy định truy cập qua robots.txt đối với GPTBot, OAI-SearchBot, và ChatGPT-User.
Phân bổ trọng số cao cho các trang có cấu trúc thẻ <title> rõ ràng, meta description tối ưu, và nhúng JSON-LD Article / TechArticle.
Atlas (browser agent) có khả năng phân tích toàn bộ DOM, hỗ trợ xử lý cả các nội dung render phía client (client-side-only Javascript), tuy nhiên hiệu suất xử lý thấp hơn rõ rệt so với HTML render từ phía server (server-rendered HTML).
Thiết lập trích dẫn ưu tiên dựa trên trường Source-name trong ai.txt; nếu không có, hệ thống sẽ sử dụng tên miền (domain name) mặc định.

Perplexity — Answer engine và Comet browser

Khai thác dữ liệu mạnh mẽ thông qua PerplexityBot; tuân thủ triệt để các thẻ noindex và cấu hình robots.txt.
Ưu tiên trích xuất các đoạn thông tin súc tích (extractive snippets) có dẫn nguồn; tối ưu hóa trích xuất từ các đoạn mở bài theo cấu trúc answer-first và hệ thống FAQs.
Comet (browser agent) điều hướng theo luồng tương tác của người dùng; sử dụng cấu trúc heading mạch lạc để định hướng luồng tóm tắt hệ thống mà không cần gửi truy vấn nạp lại (re-fetching).

Claude (Anthropic) — Chat, Computer Use, Claude Code

Tổ chức dữ liệu web qua ClaudeBot và Claude-Web; tuân thủ nghiêm ngặt robots.txt.
Hệ thống Computer Use phân tích dựa trên ảnh chụp màn hình (screenshots) kết hợp với cây trợ năng (accessibility trees) — việc triển khai HTML semantic chuẩn mực (phân cấp headings, label cho input, alt text) là yếu tố quyết định để agent thao tác mượt mà và chính xác.
Claude Code tự động tải bộ đệm các tệp hệ thống nội bộ như agent.md, AGENTS.md, CLAUDE.md; các tài liệu đặc tả nên được đóng gói vào repository để tối ưu hóa ngữ cảnh truy xuất mã nguồn (code-context use).

Gemini (Google) — Search, AI Overviews, Gemini Live

Googlebot xử lý dữ liệu cho hệ sinh thái Search và Google-Extended được ứng dụng trong tác vụ huấn luyện generative AI (hỗ trợ quy trình opt-in grounding).
Phụ thuộc sâu sắc vào cấu trúc dữ liệu mô tả (structured data): Article, FAQPage, HowTo, Product, và BreadcrumbList.
Hạ tầng AI Overviews đặc biệt ưu tiên hiển thị nội dung đang có thứ hạng tự nhiên cao (ranking organically), nhấn mạnh tầm quan trọng của việc kết hợp tối ưu hóa SEO kỹ thuật (technical SEO) với sự sẵn sàng cho agent (agent readiness).

Cursor và Hệ sinh thái Coding Agents

Xử lý ưu tiên các tệp AGENTS.md, agent.md, và README tại cấp cao nhất của dự án (project-root).
Cấu trúc tài liệu hiệu quả đòi hỏi các ví dụ nhập/xuất mang tính tất định (deterministic input/output examples) và khai báo mã lỗi minh bạch (explicit error taxonomies) thay cho văn bản mô tả dài dòng (prose).
Đối với các tài liệu thư viện mã nguồn, khuyến nghị cung cấp tệp llms-full.txt chứa nội dung Markdown tổng hợp toàn bộ kho tài liệu, hỗ trợ nạp ngữ cảnh ngoại tuyến nhanh chóng.

Xác thực độ tuân thủ (Validation)

Để xác thực cấu trúc nội dung có đáp ứng tiêu chuẩn của AI agents, cần áp dụng các công cụ tương tự hạ tầng parsing của các mô hình:

Schema.org Validator
Google Rich Results Test
llms.txt validator reference implementations
Sử dụng lệnh curl -A "GPTBot" -I https://yoursite.com/page để xác minh quyền truy cập HTTP và HTTP Headers cấp phát cho crawlers.
Thực hiện kiểm tra tương tự với curl -A "ClaudeBot" -I và curl -A "PerplexityBot" -I cho các nền tảng còn lại.
Thực hiện kiểm tra chéo bằng tác vụ "ask the chatbot": Nhập URL trực tiếp vào ChatGPT, Perplexity, và Claude để so sánh dữ liệu trích xuất (summary) với dữ liệu chuẩn (canonical content) đã thiết kế.

Danh sách kiểm tra triển khai (Compliance checklist)

Cấp độ Nhận diện (Discovery)

[ ] Tệp /llms.txt khả dụng và trỏ chính xác đến các tài liệu cập nhật.
[ ] Tệp /.well-known/agents.json khả dụng nếu hệ thống cung cấp bề mặt tools/APIs cho agents.
[ ] Tệp sitemap.xml đã bao gồm tất cả các trang nội dung cốt lõi kèm cờ <lastmod>.
[ ] Cấu hình robots.txt đã cấp quyền truy cập công khai cho các agent UAs chủ đạo.
[ ] Tệp /ai.txt thiết lập rõ ràng chính sách truy cập và trích dẫn bản quyền (access policy).

Cấp độ Phân tích ngữ nghĩa (Parsing)

[ ] Tất cả các bài viết triển khai cấu trúc frontmatter đầy đủ (~30-field schema).
[ ] Nội dung bắt đầu bằng luồng thông tin trả lời trực tiếp (answer-first pattern).
[ ] Trang sở hữu duy nhất một blockquote AI summary và một chuyên mục TL;DR.
[ ] Bắt buộc tích hợp một khối JSON-LD định danh đối tượng trọng tâm (primary entity) của trang.
[ ] Phân cấp thẻ Heading Hierarchy tuân thủ triệt để ngữ nghĩa (duy nhất H1, rẽ nhánh logic H2 → H3).
[ ] Các thành phần như Tables, Lists, và Code blocks được định dạng HTML/Markdown chuẩn hóa.
[ ] Tài liệu kỹ thuật chuyên biệt cho Tool / API được đính kèm tệp cấu trúc song song agent.md.

Cấp độ Ghi nhận nguồn gốc (Attribution)

[ ] Thẻ <link rel="canonical"> tồn tại trên tất cả các tài liệu web.
[ ] Tệp ai.txt đã xác định rõ ràng yêu cầu trích dẫn và định dạng bắt buộc (citation format).
[ ] Siêu dữ liệu liên quan đến Tác giả (Author) / Tổ chức (Organization) được cấu hình rõ ràng.
[ ] Các biến published_at và updated_at cung cấp thời gian thực tế để tính toán độ mới (freshness).

Các sai lầm phổ biến cần tránh (Common mistakes)

Tái sử dụng các khóa frontmatter lỗi thời. Cần loại bỏ ngay các khóa date_published, date_updated, ai_summary, và schema_type; thay thế đồng bộ bằng published_at, updated_at, llm_summary, và concept_type.
Triển khai nhiều hơn một blockquote "AI summary" hoặc nhúng nội dung này không đồng nhất. Hệ thống phân tích của agents cần cấu trúc đơn nhất, trực diện; nên đặt blockquote độc lập ngay dưới thẻ H1.
Chỉ phụ thuộc vào JSON-LD để cung cấp tín hiệu cấu trúc dữ liệu. AI agents thường thực hiện đối chiếu chéo giữa khai báo JSON-LD và nội dung HTML hiển thị (rendered HTML); sự bất đồng bộ giữa hai hệ quy chiếu này sẽ khiến cấu trúc dữ liệu bị loại bỏ (discarded).
Chặn hàng loạt (blanket block) các bots trong robots.txt vì lý do phòng vệ dư thừa. Quyết định này triệt tiêu hoàn toàn khả năng nhận diện nội dung phục vụ trích dẫn (citations) và trích xuất ngữ cảnh (grounding); chỉ nên áp dụng luật chặn chi tiết theo đường dẫn (per-path rules) đối với các phân vùng dữ liệu nội bộ và nhạy cảm.
Triển khai llms.txt dưới dạng tài liệu tiếp thị (marketing brochure). Tệp này thuần túy là một chỉ mục (index); thiết kế tài liệu cần tập trung vào sự tối giản, cô đọng, và cung cấp nhiều liên kết hữu ích (link-heavy).

FAQ

Q: Đặc tả này có phải là tiêu chuẩn chính thức của ngành không?

A: Không. Đặc tả này là hệ thống tiêu chuẩn thực tiễn (best practices) được đúc kết từ dữ liệu quan trắc hành vi của các hệ thống AI hiện hành và đại diện cho các thông lệ cộng đồng đang hình thành (emerging community conventions). Các chuẩn như JSON-LD, HTML ngữ nghĩa, và sitemaps đã được định chuẩn sâu rộng; trong khi llms.txt, ai.txt, và agents.json là các mô hình đề xuất đang có tỷ lệ chấp nhận (adoption rate) tăng mạnh.

Q: Tất cả AI agents có tiêu thụ đồng nhất các tiêu chuẩn này không?

A: Không đồng nhất (Not uniformly). Kiến trúc JSON-LD và HTML có cấu trúc đang được ưu tiên xử lý mạnh mẽ bởi hầu hết các mô hình AI lớn. Trong khi đó, llms.txt và ai.txt là các chuẩn đang phát triển (emerging) — các nhà cung cấp mô hình lớn chưa chính thức cam kết hỗ trợ, nhưng rào cản triển khai thấp (low-cost to publish) và tính linh hoạt định hướng tương lai (forward-compatible) khiến việc áp dụng sớm là rất cần thiết.

Q: Tần suất kiểm tra độ tuân thủ (compliance) đối với đặc tả này là bao lâu?

A: Khuyến nghị soát xét định kỳ hàng quý (Review quarterly). Danh sách các Crawler user agents, hệ sinh thái structured-data types, và các quy ước ngành đang phát triển thay đổi với tốc độ rất nhanh. Tuy hệ thống HTML và schema cốt lõi tương đối bền vững, nhưng các cơ chế điều hướng (discovery) và ghi nhận bản quyền (attribution mechanisms) luôn liên tục biến đổi.

Q: Lược đồ frontmatter có bắt buộc đối với các trang tĩnh thuần HTML (HTML-only) không?

A: Lược đồ frontmatter đóng vai trò là nguồn siêu dữ liệu gốc thống nhất (canonical metadata source) — dữ liệu này được nội suy tự động vào thẻ HTML <meta> và cấu trúc JSON-LD. Nền tảng biểu diễn bề mặt (transport) ít quan trọng hơn tính đầy đủ và sự chính xác (completeness and accuracy). Các hệ thống Static-site generators như Next.js, Astro, hay Hugo hỗ trợ khai báo YAML frontmatter mạnh mẽ; đối với môi trường HTML thuần túy, cần chủ động đóng gói các khóa dữ liệu tương ứng vào trong khối Article JSON-LD và khai báo Organization schemas.

Q: Đâu là tập hợp cấu trúc tối thiểu (bare-minimum subset) cần triển khai để đạt hiệu quả ban đầu?

A: Cấu trúc cơ sở bao gồm 4 yếu tố cốt lõi: (1) URL chính quy duy nhất (canonical URL) cho mỗi trang, (2) Khai báo JSON-LD cấu trúc thực thể trọng tâm (primary entity), (3) Tệp llms.txt liên kết các trang nội dung trọng yếu, (4) Quyền truy cập mở trong robots.txt cho GPTBot, ClaudeBot, và PerplexityBot. Cấu trúc nền tảng này đóng góp phần lớn vào hiệu quả xác lập lợi thế trích dẫn gốc (citation upside).

Q: Đặc tả AI Content này khác biệt thế nào so với tiêu chuẩn SEO truyền thống?

A: Tiêu chuẩn SEO truyền thống tập trung tối ưu hóa vị trí xếp hạng (ranking) trên SERP nhằm phục vụ người dùng. Trong khi đó, tối ưu hóa nội dung Agent (Agent content optimization) chú trọng việc trích xuất (extraction - khả năng một máy đọc trích lọc từng câu chữ) và xác định nguồn gốc (attribution - thiết lập chỉ mục liên kết ngược về tác giả). Tuy hai quy trình này song hành với nhau — một trang web có SEO kỹ thuật tốt sẽ sẵn sàng cho AI agent — nhưng chiến lược tiếp cận agent readiness yêu cầu các lớp siêu dữ liệu có khả năng đọc bởi máy bổ sung (machine-readable layers) như frontmatter, JSON-LD, llms.txt, và ai.txt.

Q: Việc triển khai một tệp `agent.md` có bắt buộc cho mọi trang nội dung không?

A: Không. Việc thiết lập tệp agent.md song hành chỉ được khuyến nghị đối với các trang tài liệu kỹ thuật định hướng cấu trúc thực thi hệ thống (actionable surfaces: APIs, CLIs, SDKs, tệp cấu hình). Với những tài liệu thuần túy tường thuật (narrative) hoặc lý thuyết (conceptual), việc trang bị đầy đủ frontmatter và JSON-LD đã hoàn toàn thỏa mãn các tiêu chuẩn đọc máy.

Q: Việc tuân thủ 100% đặc tả này có đảm bảo trang web sẽ luôn được trích dẫn (citations) không?

A: Không chắc chắn. Đặc tả này giúp tối đa hóa tính hợp lệ của trang web trong mắt agent (maximizes eligibility) — các agents vẫn thực thi đánh giá ưu tiên trích dẫn dựa vào mức độ uy tín về chuyên môn (topical authority), độ tươi mới của thông tin (freshness), và độ khả tín của tên miền (domain authority). Đặc tả này giúp hệ thống nội dung loại bỏ mọi trở ngại tiếp cận có thể tránh được (avoidable failure modes), thay vì đóng vai trò như một đòn bẩy thăng hạng trực tiếp (not as a ranking lever).

AI Agent Content Specification

TL;DR

Tổng quan kiến trúc đặc tả

Lớp 1: Nhận diện (Discovery)

llms.txt

Core concepts

API

agents.json (Đề xuất tùy chọn)

XML Sitemap tối ưu cho AI

robots.txt hỗ trợ AI Crawlers

Lớp 2: Phân tích ngữ nghĩa (Parsing)

Lược đồ Frontmatter Metadata

Identity

Knowledge

Taxonomy

SEO

AI readiness

Lifecycle

Relations

I18n + authorship

agent.md (Tối ưu hóa cho môi trường lập trình)

acme.payments.create_invoice

Signature

Input

Output

Errors

Idempotency

Cấu trúc nội dung văn bản (Content body structure)

Triển khai phương pháp tiếp cận answer-first

[Title as Question or Topic]

TL;DR

Phân cấp tiêu đề (Heading hierarchy)

Các thành phần cấu trúc bắt buộc (Required structural elements)

Cấu trúc mẫu hỗ trợ trích xuất (Extractable patterns)

Question in natural language?

Dữ liệu cấu trúc JSON-LD

Lớp 3: Ghi nhận nguồn gốc (Attribution)

ai.txt

AI Agent Access Policy

Canonical URLs

Siêu dữ liệu định danh (Source metadata)

Nguyên tắc tối ưu hóa đa nền tảng

ChatGPT (OpenAI) — Search và Atlas browser

Perplexity — Answer engine và Comet browser

Claude (Anthropic) — Chat, Computer Use, Claude Code

Gemini (Google) — Search, AI Overviews, Gemini Live

Cursor và Hệ sinh thái Coding Agents

Xác thực độ tuân thủ (Validation)

Danh sách kiểm tra triển khai (Compliance checklist)

Cấp độ Nhận diện (Discovery)

Cấp độ Phân tích ngữ nghĩa (Parsing)

Cấp độ Ghi nhận nguồn gốc (Attribution)

Các sai lầm phổ biến cần tránh (Common mistakes)

FAQ

Q: Đặc tả này có phải là tiêu chuẩn chính thức của ngành không?

Q: Tất cả AI agents có tiêu thụ đồng nhất các tiêu chuẩn này không?

Q: Tần suất kiểm tra độ tuân thủ (compliance) đối với đặc tả này là bao lâu?

Q: Lược đồ frontmatter có bắt buộc đối với các trang tĩnh thuần HTML (HTML-only) không?

Q: Đâu là tập hợp cấu trúc tối thiểu (bare-minimum subset) cần triển khai để đạt hiệu quả ban đầu?

Q: Đặc tả AI Content này khác biệt thế nào so với tiêu chuẩn SEO truyền thống?

Q: Việc triển khai một tệp agent.md có bắt buộc cho mọi trang nội dung không?

Q: Việc tuân thủ 100% đặc tả này có đảm bảo trang web sẽ luôn được trích dẫn (citations) không?

Bài viết liên quan

AI Agent Optimization: Technical Guide

ai.txt Starter Template: Copy-Ready AI Access Policy File

How to Create llms.txt: Step-by-Step Tutorial for AI Search

Thông tin GEO & AI Search

Q: Việc triển khai một tệp `agent.md` có bắt buộc cho mọi trang nội dung không?