MCP Server là gì? Kiến trúc và Tác động đến Trích dẫn

MCP Server là một tiến trình (process) hiển lộ các công cụ (tools), tài nguyên (resources) và prompt cho các ứng dụng AI thông qua Model Context Protocol (MCP). Là một tiêu chuẩn mã nguồn mở dựa trên JSON-RPC do Anthropic phát hành vào tháng 11 năm 2024 (và được OpenAI, Google DeepMind áp dụng), MCP cho phép bất kỳ AI client tương thích nào kết nối liền mạch với các nguồn dữ liệu mà không cần phát triển mã tích hợp (custom integration) riêng lẻ cho từng hệ thống.

TL;DR

MCP Server đóng vai trò là phía máy chủ (server-side) của Model Context Protocol, đóng gói và cung cấp các nguyên hàm (primitives) cơ bản — bao gồm tools, resources và prompts — để AI client có thể khám phá và gọi thực thi. Kiến trúc này hỗ trợ vận hành cục bộ qua stdio hoặc từ xa thông qua Streamable HTTP. Khác biệt với function calling hay plugin độc quyền của từng nhà cung cấp, MCP Server mang tính độc lập với mô hình (model-agnostic) và có khả năng tái sử dụng cao trên đa nền tảng. Đối với các nhà xuất bản nội dung (content publishers), việc triển khai MCP Server mang lại lợi thế chiến lược về trích dẫn (citation): nó biến kho lưu trữ kiến thức thành một hạ tầng dữ liệu máy đọc được (machine-readable infrastructure) thay vì chỉ là một trang web truyền thống.

Định nghĩa kỹ thuật

MCP Server là một tiến trình triển khai phía máy chủ của Model Context Protocol, có nhiệm vụ hiển lộ một tập hợp xác định các tools, resources và prompts cho các MCP-compatible clients thông qua giao thức truyền tải JSON-RPC. Bản thân MCP là một tiêu chuẩn mở do Anthropic khởi xướng vào tháng 11 năm 2024, được duy trì dưới dạng đặc tả nguồn mở và nhanh chóng được các tổ chức hàng đầu như OpenAI và Google DeepMind chấp thuận.

Về mặt kiến trúc, tài liệu chính thức định vị MCP như một "cổng USB-C cho các ứng dụng AI": một giao thức chuẩn hóa cho phép mọi AI client tương thích kết nối với bất kỳ nguồn dữ liệu hoặc năng lực xử lý (capability) nào mà không đòi hỏi nỗ lực tích hợp tùy chỉnh cho từng cặp hệ thống (point-to-point integration). Server đóng vai trò nhà cung cấp năng lực; trong khi client, được nhúng trong ứng dụng máy chủ (host application) như Claude Desktop, IDE hoặc custom agent runtime, đóng vai trò khám phá và gọi thực thi.

Về phương diện chức năng, một MCP Server hoạt động gọn nhẹ với ba nhiệm vụ cốt lõi:

Quảng bá năng lực (Capability Advertisement): Công bố danh sách các tool, resource và prompt khả dụng.
Xử lý yêu cầu (Request Handling): Phản hồi các lệnh gọi từ client (thực thi tool, truy xuất resource, điền dữ liệu prompt).
Đàm phán giao thức (Protocol Negotiation): Xác lập phương thức truyền tải, khả năng tương thích và quản lý vòng đời với client thông qua JSON-RPC.

Giá trị chiến lược cốt lõi của MCP Server nằm ở tính phân tách (decoupling): một MCP Server duy nhất có thể phục vụ vô số client khác nhau (Claude Desktop, Cursor, custom agents, Slack bots), và ngược lại, một client có thể giao tiếp với nhiều MCP Servers bất kể mô hình ngôn ngữ lớn (LLM) nào đang vận hành client đó. Đây là đặc tính định hình sự vượt trội của MCP so với các phương pháp tích hợp độc quyền như OpenAI plugins trước đây.

Tầm quan trọng chiến lược

MCP Servers đang chuyển đổi mô hình tích hợp (ad-hoc integrations) thành cơ sở hạ tầng tái sử dụng. Sự dịch chuyển này được thúc đẩy bởi ba yếu tố chính:

Kiểm soát bành trướng tích hợp (Integration Sprawl Control): Phương pháp kết nối agent với dữ liệu truyền thống đòi hỏi tích hợp tùy chỉnh cho mỗi cặp (matrix M×N), gây ra sự phân mảnh và dư thừa nguồn lực. MCP tối ưu hóa ma trận này thành M+N: mọi client và server đều giao tiếp chung một ngôn ngữ tiêu chuẩn.
Tính linh hoạt của mô hình (Model Portability): Các định dạng function calling thường khác biệt giữa các nhà cung cấp (ví dụ: schema của OpenAI không tương thích nguyên bản với Anthropic). Ngược lại, MCP Server độc lập với mô hình; việc thay đổi LLM nền tảng không làm gián đoạn hoạt động của các tools.
Tối ưu hóa bề mặt trích dẫn (Citation Surface Optimization): Đối với các nhà xuất bản nội dung và tổ chức quản trị tri thức, MCP Server cung cấp một định dạng máy đọc được tối ưu hơn website. Đây là phương thức tiêu chuẩn để các AI assistant truy xuất dữ liệu có cấu trúc và có nguồn gốc rõ ràng. Khi lưu lượng truy cập từ agent (agentic traffic) gia tăng, việc sở hữu một MCP Server chất lượng cao đồng nghĩa với việc nắm giữ trích dẫn định hướng kết quả AI, vượt trội hơn mô hình lượt truy cập trang web truyền thống.

Tốc độ chấp thuận giao thức phản ánh rõ các động lực này. Sự tham gia nhanh chóng của OpenAI, Google DeepMind và sự xuất hiện của các kho lưu trữ MCP công cộng (public registries) cung cấp tín hiệu mạnh mẽ cho các tổ chức rằng: MCP là tiêu chuẩn rủi ro thấp nhất để đầu tư vào tích hợp AI agent. Hơn nữa, MCP dịch chuyển cán cân giá trị: những nhà phát triển tool (tool builders) - chứ không chỉ các nhà cung cấp mô hình - giờ đây sở hữu lợi thế dài hạn trong việc cung cấp năng lực cho agent.

Cơ chế hoạt động

Kiến trúc của một MCP Server được xây dựng dựa trên các nguyên hàm cơ bản, phương thức truyền tải và vòng đời kết nối để quy định cách client giao tiếp, khám phá và thực thi.

Kiến trúc hệ thống

flowchart LR
    H["Host Application"] --> C["MCP Client"]
    C -- "JSON-RPC" --> T["Transport Layer (stdio / HTTP)"]
    T --> S["MCP Server"]
    S --> R["Resources"]
    S --> O["Tools"]
    S --> P["Prompts"]

Ứng dụng máy chủ (Host application) nhúng một MCP Client; client này giao tiếp qua JSON-RPC với Server thông qua lớp truyền tải (Transport Layer); Server đóng vai trò proxy bảo vệ và quản lý các năng lực thực tế (resources, tools, prompts).

Các nguyên hàm (Primitives)

MCP Servers hiển lộ ba nguyên hàm chính, mỗi loại sở hữu cơ chế khám phá và thực thi riêng biệt:

Nguyên hàm (Primitive)	Định nghĩa	Trường hợp sử dụng điển hình
Tools	Các hàm khả gọi (callable functions) với schema đầu vào/đầu ra có kiểu dữ liệu tĩnh (typed).	Truy vấn cơ sở dữ liệu, gửi API request, thao tác tệp tin.
Resources	Các thực thể dữ liệu chỉ đọc (read-only), được định danh bởi URI.	Nội dung tệp, bản ghi cơ sở dữ liệu, mục cơ sở kiến thức (knowledge base).
Prompts	Các mẫu truy vấn (templates) được thiết kế sẵn và có tham số hóa.	"Tóm tắt tài liệu X theo format Y", "Phân tích lỗi Z".

Trong thực tiễn, Tools là nguyên hàm được triển khai rộng rãi nhất. Resources và Prompts ít phổ biến hơn do các mô hình LLM hiện tại được huấn luyện chuyên sâu cho function calling hơn là resource fetching. Hầu hết các MCP Servers ở cấp độ sản xuất (production-grade) ưu tiên phát triển Tool, sau đó tích hợp Resources cho các luồng dữ liệu cần trích dẫn nguyên văn, và sử dụng Prompts chủ yếu để hỗ trợ UX cho người dùng cuối.

Giao thức truyền tải (Transports)

MCP sử dụng JSON-RPC cho payload và định nghĩa hai phương thức truyền tải tiêu chuẩn:

stdio: Giao tiếp qua luồng dữ liệu chuẩn (standard input/output). Phương thức này tối ưu cho các máy chủ cục bộ (local servers) chạy dưới dạng tiến trình con (child processes). MCP Clients được khuyến nghị hỗ trợ stdio mặc định.
Streamable HTTP: Phương thức truyền tải HTTP hỗ trợ streaming, lý tưởng cho các máy chủ từ xa (remote servers) vận hành dưới dạng dịch vụ độc lập phân tán (standalone services).

Hiện tại, Nhóm công tác truyền tải (Transport Working Group) đang nghiên cứu mở rộng các phương thức truyền tải mới để đáp ứng kiến trúc phân tán quy quy mô doanh nghiệp.

Vòng đời phiên kết nối (Lifecycle)

Một phiên làm việc MCP tuân thủ bốn giai đoạn nghiêm ngặt:

Khởi tạo (Initialization): Client và Server đàm phán phiên bản giao thức, năng lực hỗ trợ và metadata.
Khám phá (Discovery): Client truy xuất danh sách tools, resources và prompts khả dụng từ Server.
Thực thi (Invocation): Client thực thi lệnh gọi (tool calls, resource fetch, prompt generation) dựa trên quyết định suy luận của LLM.
Chấm dứt (Shutdown): Client đóng kết nối ở tầng truyền tải; Server thu hồi các tài nguyên hệ thống (memory, handles) đã cấp phát.

Tính đối xứng và dự đoán được của vòng đời này cho phép các công cụ audit (như MCP Inspector) và CLI tương tác với bất kỳ server nào mà không cần cấu hình đặc thù.

So sánh với các giải pháp lân cận

Để đưa ra quyết định kiến trúc chính xác (build vs. buy), việc phân biệt MCP với các phương thức truyền thống như function calling, OpenAI plugins và REST API là vô cùng cần thiết.

Phương thức	Phạm vi ứng dụng	Khả năng di động (Portability)	Cơ chế khám phá (Discovery)	Ứng dụng tối ưu
MCP Server	Đa client, Đa mô hình	Cao (Độc lập mô hình)	Chuẩn hóa (List/Get/Invoke)	Tools chia sẻ trong hệ sinh thái
Function Calling	Giới hạn theo nhà cung cấp LLM	Thấp (Định dạng độc quyền)	Nhúng Schema vào Request	Tích hợp in-app, ràng buộc chặt
OpenAI Plugins / Actions	Giới hạn giao diện UI cụ thể	Thấp nhất (Chỉ hoạt động trên ChatGPT)	OpenAPI Manifest	Phơi bày dịch vụ trong hệ sinh thái OpenAI
REST API	Đa người dùng cuối	Cao (Cấp độ giao thức HTTP)	Ngoại vi (Documentation)	Tiêu thụ bằng lập trình, không dành riêng cho LLM

Các yếu tố quyết định lựa chọn kiến trúc:

Khả năng tái sử dụng (Reusability): Function calling triển khai nhanh cho một mô hình cụ thể. Tuy nhiên, MCP tối ưu chi phí vòng đời khi một công cụ cần tương thích đa nền tảng (Claude Desktop, Cursor, hệ thống CI/CD) nhờ nguyên tắc "xây dựng một lần, kết nối nhiều nơi".
Quản trị vòng đời (Governance): MCP tập trung hóa quản lý phiên bản và phân quyền tại Server. Một bản cập nhật Tool lập tức khả dụng cho mọi Client. Với function calling, sự thay đổi schema yêu cầu cập nhật code trên tất cả các Client đang sử dụng.
Tiêu chuẩn mở (Standardization): MCP định nghĩa một tiêu chuẩn độc lập với nhà cung cấp (vendor-neutral), tạo niềm tin cho hệ sinh thái phát triển (bao gồm Wikipedia entry và registry riêng biệt).

Cần lưu ý: MCP không thay thế function calling; nó hoạt động ở lớp trừu tượng cao hơn. Một MCP Client vẫn sử dụng function calling của LLM chủ để quyết định việc kích hoạt MCP Tool. MCP định chuẩn hóa đường ống giao tiếp (communication pipeline), không phải lớp suy luận (reasoning layer).

Hướng dẫn triển khai thực tiễn

Quy trình phát triển và triển khai một MCP Server cấp độ sản xuất bao gồm các bước chiến lược:

1. Xác định Business Case đa nền tảng

MCP mang lại ROI cao nhất khi một năng lực (capability) được tiêu thụ bởi nhiều client. Các trường hợp sử dụng tối ưu bao gồm: hệ thống tìm kiếm tài liệu nội bộ, truy vấn cơ sở dữ liệu sản phẩm, và tự động hóa quy trình nghiệp vụ. Nếu năng lực chỉ phục vụ một ứng dụng duy nhất, vendor-specific function calling có thể là lựa chọn tối ưu về chi phí.

2. Lựa chọn SDK nền tảng

Hệ sinh thái hiện cung cấp SDK chính thức cho Python, TypeScript, Rust, Go và Java. Tại môi trường Python, thư viện FastMCP tự động chuyển đổi function signatures và docstrings thành tool schemas, giảm thiểu tối đa boilerplate code và rủi ro lỗi định dạng.

3. Thiết kế kiến trúc: Tools > Resources > Prompts

Tools: Thiết kế theo nguyên tắc micro-operations: đơn nhiệm, lũy đẳng (idempotent) và có kiểu dữ liệu tĩnh nghiêm ngặt. Tránh các "god tools" với tham số văn bản tự do (free-text arguments) làm tăng tỷ lệ ảo giác của LLM.
Resources: Chỉ định nghĩa đối với dữ liệu chỉ đọc (read-only) yêu cầu agent trích dẫn nguyên văn (ví dụ: file log, documentation).
Prompts: Sử dụng như cơ chế hỗ trợ khám phá tính năng (onboarding) cho người dùng cuối.

4. Lựa chọn phương thức truyền tải (Transport)

Sử dụng stdio cho môi trường phát triển cục bộ và các công cụ năng suất cá nhân (IDE integrations).
Triển khai Streamable HTTP cho môi trường production, đa người dùng (multi-tenant), yêu cầu quản trị tập trung. Các mô hình passthrough server cũng phổ biến để bọc (wrap) các HTTP backends hiện hữu vào hệ sinh thái MCP.

5. Quản trị bảo mật (Auth & Authorization)

Đối với remote MCP Servers, cơ chế xác thực dựa trên OAuth 2.0 là tiêu chuẩn công nghiệp. Khai báo rõ ràng các phạm vi quyền hạn (scopes) cho từng tool để hỗ trợ quy trình ủy quyền minh bạch từ phía người dùng (consent flow).

6. Tài liệu hóa và Registry

Biên soạn metadata chi tiết (descriptions, tool schemas, transcript examples). Đối với các server mã nguồn mở, đăng ký tại MCP registry công cộng để tối đa hóa khả năng khám phá. Tài liệu của MCP Server là bề mặt giao tiếp song song cho cả tác nhân AI và lập trình viên.

7. Kiểm thử đa môi trường (Cross-client Testing)

Sự khác biệt trong diễn dịch schema giữa các LLMs có thể dẫn đến hành vi bất đồng. Yêu cầu bắt buộc là chạy end-to-end (E2E) testing trên ít nhất hai clients (ví dụ: Claude Desktop và custom Python client) trước khi phát hành. Sử dụng MCP CLI để thiết lập proxy và mock testing.

Phân tích các mô hình triển khai (Examples)

Anthropic Reference Servers: Kho lưu trữ các MCP Servers mẫu mã nguồn mở (filesystem, memory, fetch). Phù hợp cho mục đích giáo dục và hiểu rõ giao thức, chưa cấu hình cho môi trường production.
GitHub MCP Server: Cung cấp năng lực thao tác repository (đọc issue, mở PR, phân tích code) thông qua môi trường containerized, minh chứng cho việc đóng gói MCP Server cấp độ doanh nghiệp.
Knowledge Base Router: Một mô hình kiến trúc phổ biến: MCP Server đóng vai trò API gateway đứng trước một Vector Database nội bộ, hiển lộ một công cụ search_docs duy nhất. Các client đa dạng (IDE copilot, support bot, executive dashboard) kết nối để chia sẻ chung một logic truy xuất chuẩn hóa.
Database Access Gateway: Đội ngũ Data Engineering phát triển một công cụ SQL chung, phơi bày qua MCP Server. Phân quyền truy cập được quản lý tại tầng server, cho phép các nhóm Support và Engineering truy xuất an toàn thông qua các AI clients khác nhau.
API Wrapper (Weather API): Mô hình phổ biến để tích hợp hệ thống legacy: MCP Server bao bọc (wrap) các REST APIs truyền thống (ví dụ: National Weather Service), chuyển đổi các endpoints thành MCP tools.

Các Anti-patterns cần tránh

Nhầm lẫn MCP với Agent Framework: MCP chỉ là đường ống tích hợp dữ liệu (data pipeline), không phải bộ điều phối suy luận (reasoning orchestrator). Cần kết hợp MCP với một Agent Runtime chuyên dụng để quản lý bộ nhớ và quy hoạch đa bước.
Thiết kế "God Tools": Việc gộp nhiều chức năng vào một tool duy nhất có tham số mập mờ làm suy giảm độ chính xác lựa chọn tool của mô hình. Tách biệt thành các hàm nhỏ, có định dạng rõ ràng (typed).
Phớt lờ Resources: Việc loại bỏ hoàn toàn Resources làm mất đi bề mặt trích dẫn nguyên văn, giảm độ tin cậy của dữ liệu tĩnh.
Vendor Lock-in ngầm: Phát triển một MCP Server chỉ kiểm thử trên một client duy nhất (ví dụ: Claude Desktop) làm mất đi lợi thế đa nền tảng cốt lõi của giao thức.
Triển khai production với stdio: Phương thức stdio thiếu cơ chế kiểm soát truy cập (access control) và rate limiting cần thiết cho môi trường đa người dùng. Phải sử dụng Streamable HTTP cho các dịch vụ public.
Đồng nhất hóa MCP và REST API: Thiết kế MCP Tool đòi hỏi "agent-shaped design" (mô tả ngữ nghĩa, giới hạn phạm vi cho LLM hiểu), khác biệt với "developer-shaped design" của REST endpoint. Việc map 1:1 REST API sang MCP thường thất bại trong quá trình LLM phân tích ngữ cảnh.

FAQ

Q: Khác biệt cốt lõi giữa MCP Server và định nghĩa Tool trong function calling là gì?

A: Định nghĩa function calling được đính kèm vào payload của mọi API request tới mô hình (tồn tại tạm thời trong session). MCP Server duy trì một trạng thái độc lập bên ngoài, cho phép các client khám phá linh hoạt. MCP Server tái sử dụng được trên nhiều mô hình (Claude, GPT, Gemini), trong khi schema function calling thường mang tính chất cục bộ (model-specific).

Q: Tôi nên xây dựng MCP Server bằng ngôn ngữ lập trình nào?

A: MCP hỗ trợ bất kỳ ngôn ngữ nào tương thích với JSON-RPC và giao tiếp qua stdio hoặc HTTP. Các SDK chính thức có sẵn cho Python, TypeScript, Rust, Go, Java. Python (với FastMCP) tối ưu hóa tốc độ phát triển cho data science, trong khi TypeScript phù hợp với hệ sinh thái web hiện hữu.

Q: Việc triển khai MCP Server có an toàn cho hệ thống mạng nội bộ không?

A: Tính bảo mật phụ thuộc vào lớp triển khai. Bản thân giao thức MCP không tự động bảo vệ hệ thống. Đối với môi trường doanh nghiệp, cần tích hợp Auth/OAuth, sandboxing và rate-limiting nghiêm ngặt ở tầng Network/Transport trước khi phơi bày MCP Server.

Q: Vai trò của MCP Server đối với chiến lược tối ưu hóa trích dẫn AI (AEO) là gì?

A: Khác với HTML parsing phụ thuộc vào thuật toán cào quét dữ liệu (scraping), MCP Server cung cấp dữ liệu có cấu trúc, được định danh rõ ràng. Việc hiển lộ dữ liệu qua MCP Resources trao quyền cho nhà xuất bản (publisher) kiểm soát chính xác ngữ cảnh và nguồn gốc dữ liệu mà LLM trích dẫn, tạo ra lợi thế AEO vượt trội.

Q: MCP tương tác với RAG (Retrieval-Augmented Generation) như thế nào?

A: MCP không thay thế RAG mà đóng vai trò là hạ tầng phân phối (delivery pipeline). RAG là kỹ thuật luận giải dữ liệu; MCP là giao thức kết nối. AI agent sử dụng MCP Server để gọi tool tìm kiếm cơ sở dữ liệu vector, từ đó mô hình sử dụng kết quả trả về để thực hiện RAG.