Tác giả: Jinming Nguồn: HashKey Capital Biên dịch: Shan Ouba, Golden Finance
Giới thiệu
Khái niệm về tác nhân trí tuệ nhân tạo (AI Agent), dùng để chỉ hệ thống phần mềm thông minh có khả năng hiểu được môi trường xung quanh và tự động thực hiện các hành động thay mặt cho người dùng hoặc máy móc để đạt được mục tiêu của họ, đã được đề xuất từ những năm 1980. Tuy nhiên, phải đến những năm 2010, với sự ra đời của học sâu và mô hình ngôn ngữ lớn (LLM), khái niệm này mới bắt đầu được chú ý, chứng minh khả năng hiểu và tạo ra phản ứng giống con người.
Ngày nay, LLM đã trở thành một phần không thể thiếu trong cuộc sống của chúng ta, với các sản phẩm như ChatGPT có hơn 15,5 triệu người dùng trả phí trên toàn thế giới và nhu cầu sẽ còn tăng cao hơn nữa khi OpenAI ra mắt các mô hình suy luận thông minh hơn. Việc áp dụng rộng rãi các LLM như ChatGPT, Claude và DeepSeek đã mở đường cho sự phát triển tự nhiên của nền kinh tế đại lý. Một tác nhân phức tạp hơn LLM và được định nghĩa là một hệ thống bao gồm một mô hình duy nhất hoặc nhiều mô hình và một khuôn khổ với bộ công cụ xác định danh tính của tác nhân (Hình 1).
Các tác nhân được trang bị vai trò và bộ công cụ có thể nhận nhiệm vụ, phân tích, xử lý và tự động thực hiện các hành động thay mặt cho người dùng, mặc dù đôi khi cần có sự tham gia của con người để cung cấp phản hồi và học thông qua học tăng cường. Các tác nhân có khả năng cấu thành và khi các tác nhân trở nên chuyên biệt hơn và tinh vi hơn về mặt kỹ thuật, yếu tố con người tham gia vào hệ thống tác nhân có thể sẽ không còn quan trọng nữa, trong khi giao tiếp giữa các tác nhân sẽ trở thành trọng tâm để đơn giản hóa quy trình làm việc phức tạp và mở ra những bước tiến về hiệu quả. Khi các khuôn khổ dựa trên tác nhân tiếp tục phát triển, chúng tôi dự đoán sẽ có những bước tiến vượt bậc trong nhiều ứng dụng thông qua việc tích hợp blockchain, một công nghệ được xây dựng dựa trên tính minh bạch, phi tập trung và sự liên kết khuyến khích.
Ngoài ra, bằng cách tận dụng các đặc tính đáng tin cậy, an toàn và minh bạch của công nghệ blockchain, các tác nhân trên hợp đồng thông minh có thể thực hiện các giao dịch ví tự động, kiếm được phần thưởng mã thông báo cho hành vi tốt và bị trừng phạt vì hành vi đối đầu. Trong báo cáo này, trước tiên chúng ta sẽ tìm hiểu hệ thống đa tác nhân là gì và các khuôn khổ phối hợp hỗ trợ phát triển các hệ thống này, sau đó tìm hiểu sự tương tác giữa hệ thống đa tác nhân và công nghệ Web3. Sau đó, chúng ta sẽ khám phá các trường hợp sử dụng, thách thức và nỗ lực giải quyết vấn đề của các khuôn khổ đa tác nhân Web3.
Hình 1: Các thành phần của một tác nhân

Hệ thống đa tác nhân
Trong hệ thống đa tác nhân, không giống như hệ thống tác nhân đơn lẻ, các tác nhân có thể tập trung vào lĩnh vực tương ứng của mình và cộng tác để mô phỏng hoạt động nhóm của con người và giải quyết hiệu quả các vấn đề phức tạp, nhiều bước trong thế giới thực (Hình 2). Điều này nâng cao khả năng nhận thức và lý luận của các tác nhân dựa trên một LLM duy nhất, mang lại khả năng mở rộng và hiệu quả cao hơn. Trong một tác nhân duy nhất có bằng LLM, tác nhân phải chịu gánh nặng to lớn là phải hoàn thành một nhiệm vụ từ đầu đến cuối, điều này thường dẫn đến sự chậm trễ và tắc nghẽn khi nhiệm vụ trở nên phức tạp và khó khăn hơn.
Trong hệ thống đa tác nhân, thường có một trình quản lý tác vụ xác định các yêu cầu của tác vụ, chia nhỏ tác vụ thành các tác vụ nhỏ hơn và phân công các tác vụ phụ cho các tác nhân dựa trên khả năng của họ, giúp hệ thống đa tác nhân trở nên linh hoạt hơn và phù hợp hơn với các trường hợp sử dụng của doanh nghiệp quy mô lớn. Bản chất hợp tác của các hệ thống đa tác nhân tạo điều kiện cho việc quản lý bộ nhớ hiệu quả bằng cách mỗi tác nhân chỉ lưu trữ bối cảnh có liên quan đến vai trò của mình. Nhờ kiến trúc phân tán, tác nhân này tránh được việc xử lý khối lượng bộ nhớ lớn, do đó cải thiện khả năng mở rộng và mở ra cánh cửa cho nhiều trường hợp sử dụng hơn.
Chìa khóa để phát triển các hệ thống đa tác nhân nằm ở các khuôn khổ đa tác nhân cho phép các tác nhân giao tiếp và phối hợp với nhau một cách hiệu quả để đạt được các mục tiêu đã đề ra. Thông qua nhiều khuôn khổ đa tác nhân, học tăng cường đa tác nhân (MARL), môi trường mô phỏng và các lớp điều phối tác nhân được cải thiện, họ mở ra những cơ hội thú vị cho các ứng dụng do tác nhân điều khiển trên nhiều ngành công nghiệp khác nhau, bao gồm cả ngành công nghiệp tiền điện tử. Dưới đây, chúng ta sẽ xem xét một số khuôn khổ phối hợp đa tác nhân trong Web2 và Web3 mở ra những khả năng mới thông qua quy trình làm việc do tác nhân điều khiển.
Khung điều phối đa tác nhân
Khung điều phối đa tác nhân xử lý việc quản lý các tác nhân dựa trên LLM để giải quyết các vấn đề. Hệ thống đa tác nhân đóng vai trò quan trọng trong việc đơn giản hóa và cải thiện hiệu quả khi tự động hóa các tác vụ phức tạp so với hệ thống chỉ có một tác nhân.
Hình 2: Kiến trúc khung đa tác nhân

Lưu ý rằng đây không phải là danh sách đầy đủ vì các khung đa tác nhân liên tục phát triển.
AutoGen
AutoGen là một nền tảng đa tác nhân nguồn mở được thiết kế bởi Phòng thí nghiệm AI Frontier của Microsoft Research. Nó hỗ trợ phát triển các ứng dụng đa tác nhân với thiết kế dạng mô-đun và có thể mở rộng. AutoGen Core triển khai các tác nhân truyền tin nhắn và điều khiển sự kiện có thể được lập trình bằng ngôn ngữ Python và .NET. API AgentChat cho phép giao tiếp liền mạch giữa các tác nhân và được xây dựng dựa trên API cốt lõi. Có nhiều tiện ích mở rộng khác nhau, cho phép tác nhân thực hiện nhiều chức năng khác nhau như duyệt web, phân tích video, phân tích tệp và gói các công cụ Langchain. Được xây dựng trên nền tảng đa tác nhân AutoGen, MagenticOne có khả năng thực hiện các tác vụ như thực thi mã, duyệt web và quản lý tệp.
CrewAI
CrewAI là một nền tảng đa tác nhân nguồn mở cho phép tự động hóa tác vụ hiệu quả và liền mạch thông qua việc phối hợp đa tác nhân dựa trên vai trò được xác định rõ ràng. Kiến trúc của nó cho phép các tác nhân có vai trò, mục tiêu và tính cách có thể cấu hình để tương tác tuần tự hoặc song song, đảm bảo thực hiện tác vụ theo thứ tự. Để duy trì sự liên quan, các tác nhân có thể khai thác cơ sở kiến thức sâu rộng hỗ trợ các nguồn văn bản và định dạng dữ liệu có cấu trúc. CrewAI cũng cung cấp quyền truy cập vào các công cụ LangChain và LlamaIndex, cũng như chức năng cấp doanh nghiệp do Portkey cung cấp, cho phép các tác nhân dễ dàng sử dụng API, cơ sở dữ liệu và hệ thống truy xuất bên ngoài. Nền tảng này cũng thân thiện với nhà phát triển và hỗ trợ cấu hình dựa trên YAML, giúp nhà phát triển dễ dàng cấu hình và triển khai tác nhân.
Langroid
Langroid là một khuôn khổ lập trình Python nguồn mở lấy lập trình đa tác nhân làm nguyên tắc thiết kế cốt lõi, mang lại cho các tác nhân một trạng thái tương tự như công dân. Khung này được các nhà phát triển công nhận vì tính đơn giản, trực quan và khả năng mở rộng, cung cấp nhiều mô-đun và công cụ để đáp ứng nhu cầu của các ứng dụng tác nhân thông minh phức tạp. Theo mặc định, Agent hoạt động như một trình chuyển đổi tin nhắn và có 3 phương thức phản hồi: phản hồi LLM, phản hồi Agent và phản hồi Người dùng. Các phương pháp phản hồi này cho phép các tác nhân thực hiện chức năng, tạo ra phản hồi bằng ngôn ngữ tự nhiên mà con người có thể đọc được và kết hợp phản hồi của con người vào quy trình làm việc của tác nhân. Việc đóng gói các tác vụ xung quanh các tác nhân cho phép chúng điều phối các tương tác bằng cách phân công các tác vụ phụ cho các tác nhân khác. Các lệnh gọi hàm LLM và OpenAI LLM được hỗ trợ thông qua cơ chế ToolMessage, cho phép các tác nhân truy cập vào nhiều công cụ và chức năng khác nhau. Kết hợp với tích hợp với các kho lưu trữ vector như LanceDB, Qdrant và Chroma, các tác nhân của Langroid có trạng thái hội thoại liên tục và bộ nhớ lưu trữ vector, giúp chúng có khả năng quản lý các cảnh động phức tạp.
CAMEL
CAMEL là một khuôn khổ đa tác nhân nguồn mở cung cấp cơ sở hạ tầng chung cho nhiều ứng dụng khác nhau như tự động hóa tác vụ, tạo dữ liệu và mô phỏng thế giới thực. Là một phần của CAMEL, mô-đun xã hội đóng vai trò quan trọng trong việc phối hợp nhiều tác nhân. Nó bao gồm hai khuôn khổ—RolePlaying và BabyAGI—được thiết kế để quản lý các tương tác của tác nhân và thúc đẩy các kết quả hướng đến mục tiêu. Cách tiếp cận theo hướng nhập vai và trò chuyện khiến nó rất phù hợp để xây dựng đội ngũ nhân viên tiếp xúc trực tiếp với khách hàng. Việc tích hợp CAMEL với nhiều cơ sở dữ liệu vector và LLM hỗ trợ RAG và cung cấp bộ nhớ liên tục cho các tác nhân của nó, khiến nó rất phù hợp cho các ứng dụng doanh nghiệp quy mô lớn. Tuy nhiên, sự thành công của khuôn khổ RolePlaying hiện nay đòi hỏi các nhà phát triển phải có kỹ năng thiết kế nhân vật và kỹ năng thiết kế tín hiệu hiệu quả, điều này có thể khiến nó trở nên kém thân thiện với những người không có nền tảng vững chắc về lập trình và AI. CAMEL đã triển khai một chatbot AI, Eigent Bot, có thể thu thập thông tin theo thời gian thực, hỗ trợ khả năng đa phương thức và tận dụng RAG đồ họa để hiểu rõ hơn về ngữ cảnh.
MetaGPT
MetaGPT là một khuôn khổ điều phối đa tác nhân lập trình siêu dữ liệu mã hóa các quy trình vận hành chuẩn (SOP) dưới dạng chuỗi nhắc kết hợp với các vai trò và trách nhiệm của tác nhân được xác định rõ ràng. Thiết kế này giúp giảm thiểu nguy cơ gây ra ảo giác phức tạp hơn do sự tương tác giữa các tác nhân. Các tác nhân trong MetaGPT giao tiếp thông qua định dạng đầu ra được xác định đến một nhóm tin nhắn được chia sẻ thay vì tham gia vào các cuộc trò chuyện một-một, do đó giảm nội dung không liên quan hoặc bị mất. Nó cũng triển khai các cơ chế phản hồi có thể thực hiện được để hỗ trợ việc tự sửa lỗi và xem xét lại. MetaGPT đặc biệt hiệu quả trong môi trường phát triển phần mềm, nơi các vai trò được xác định rõ ràng có thể cải thiện chất lượng mã và phân bổ nhiệm vụ. Khi so sánh với các chuẩn mực tạo mã, MetaGPT đạt được kết quả đáng kể trong HumanEval và MBPP, lần lượt là 85,9% và 87,7%.
LangGraph
LangGraph là một khuôn khổ tác nhân thông minh nguồn mở được phát triển bởi những người sáng tạo ra LangChain. Nó được thiết kế để quản lý các quy trình làm việc phức tạp của nhiều tác nhân và có kiến trúc mô-đun cho phép các tác nhân khác nhau giao tiếp, phối hợp và thực hiện tác vụ một cách hiệu quả. Bằng cách sử dụng kiến trúc dựa trên đồ thị để mô hình hóa mối quan hệ giữa các thành phần khác nhau của quy trình làm việc của tác nhân, LangGraph tạo điều kiện phân bổ tác vụ động, khả năng mở rộng liền mạch và khả năng giải quyết vấn đề mạnh mẽ trên các hệ thống phân tán. Phương pháp tiếp cận sáng tạo này đơn giản hóa việc quản lý trạng thái và phù hợp với quy trình làm việc nhiều bước đòi hỏi ngữ cảnh liên tục. Ngoài ra, Bộ điều hợp Giao thức ngữ cảnh mô hình Langchain (MCP), một trình bao bọc nhẹ, cho phép các công cụ MCP dễ dàng được chuyển đổi thành công cụ Langchain để các tác nhân LangGraph sử dụng, do đó mở rộng bộ công cụ khả dụng của chúng. Trong không gian đa tác nhân, LangGraph được hưởng lợi từ hiệu ứng mạng lưới mạnh mẽ vì nó tận dụng hệ sinh thái LangChain.
ElizaOS
ElizaOS có lẽ là nền tảng đa tác nhân Web3 nổi tiếng nhất. Đây là nền tảng đa tác nhân TypeScript nguồn mở nhúng các thành phần Web3 để giải quyết các rào cản gia nhập và vấn đề về khả năng truy cập trong ngành công nghiệp tiền điện tử. Khung này có thiết kế theo dạng mô-đun với bộ plugin mở rộng hiện hỗ trợ nhiều mô hình (ví dụ: OpenAI, DeepSeek, Llama, Qwen, v.v.), tích hợp nền tảng (ví dụ: Twitter, Discord, Telegram, Farcaster, v.v.) và hơn 25 chuỗi tương thích (ví dụ: Solana, Ethereum, Ton, Aptos, Sui, Sei, v.v.). Việc tích hợp với GOAT SDK cũng cho phép các tác nhân thực hiện nhiều hoạt động khác nhau trên chuỗi. Kiến trúc cốt lõi của ElizaOS bao gồm các tác nhân, tệp vai trò, nhà cung cấp, hành động và trình đánh giá, cùng nhau cho phép tác nhân có bộ nhớ liên tục và nhận thức ngữ cảnh khi thực hiện nhiều tác vụ khác nhau và nhận phản hồi từ trình đánh giá để đảm bảo hiệu suất tốt hơn.
Một ví dụ đáng chú ý là Quỹ ai16z DAO, đã tận dụng nền tảng ElizaOS để tạo ra một tác nhân tự động có thể lọc các tín hiệu thị trường và giao dịch nhiều loại tiền meme khác nhau. Vào thời kỳ đỉnh cao, công ty quản lý hơn 36 triệu đô la tài sản.
Là nền tảng tác nhân trưởng thành nhất trong Web3, nền tảng tác nhân ElizaOS tiếp tục được ưa chuộng trong số các nhà phát triển Web3 vì đã nhận được hơn 14 nghìn sao trên github và hiện có 99 tích hợp. Với kế hoạch ra mắt nền tảng khởi chạy tác nhân trong tương lai, điều này có thể kích thích thêm sự quan tâm của nhà phát triển bằng cách cung cấp cho họ nền tảng khởi chạy tác nhân không cần mã/mã thấp.
RIG
Một khuôn khổ tác nhân Web3 phổ biến khác với hơn 3.000 sao trên github là RIG, một khuôn khổ tác nhân nguồn mở dựa trên Rust nổi bật nhờ cung cấp lõi nhẹ đồng thời hỗ trợ các mẫu suy luận nâng cao (từ chuỗi nhắc đến logic có điều kiện và thực thi tác vụ song song). Khung RIG cung cấp API thống nhất trên các nhà cung cấp LLM được hỗ trợ (OpenAI, cohere, DeepSeek, v.v.) và cung cấp hỗ trợ nhúng đơn giản và lưu trữ vector cho các triển khai RAG. Các công cụ tùy chỉnh cũng có thể được tạo ra để làm cho khuôn khổ có thể mở rộng cho các ứng dụng dựa trên LLM.
Sử dụng khả năng không đồng bộ của Rust, các hệ thống đa tác nhân có thể xử lý nhiều tác vụ cùng lúc. Mặc dù hiện tại nó vẫn tụt hậu so với ElizaOS với 23 tích hợp gốc trên Web3. ARC, nhà phát triển đằng sau RIG, đã hợp tác với Quỹ Solana để thúc đẩy việc áp dụng khuôn khổ này bằng cách cung cấp các khoản tài trợ có mục tiêu cho các nhà phát triển xây dựng tác nhân dựa trên Rust bằng RIG. Ngoài ra, ARC còn ra mắt nền tảng khởi chạy tác nhân mang tên Forge, sử dụng mô hình nền tảng khởi chạy tương tự như Virtuals, nhưng hiện tại chỉ cho phép các nhóm được cấp phép truy cập vào nền tảng. Một trường hợp sử dụng đáng chú ý của nền tảng ra mắt RIG và Forge là nền tảng AskJimmy, một quỹ đầu cơ đa đại lý phối hợp một nhóm các đại lý được điều hành bởi một thư viện các chiến lược giao dịch để thực hiện giao dịch liền mạch trên EVM và Solana trên các nền tảng hàng đầu như Hyperliquid, Drift, GMX, v.v.
G.A.M.E
Khung G.A.M.E do nhóm Virtuals Protocol phát triển là một khung đa tác nhân nguồn mở dựa trên Python và JavaScript giúp tạo ra các tác nhân trên chuỗi. Việc tích hợp với thư viện Web3 GOAT SDK cung cấp cho các tác nhân hơn 200 hoạt động trên chuỗi thông qua nhiều giao thức khác nhau. Quá trình xử lý tác vụ được thực hiện thông qua phương pháp phân cấp, trong đó người lập kế hoạch tác vụ sẽ chia nhỏ tác vụ thành các tác vụ nhỏ và phân công cho các tác nhân làm việc chuyên biệt để phối hợp và giao tiếp để đưa ra kết quả cuối cùng. Hiện tại, hầu hết các tác nhân đều hoạt động trên các nền tảng mạng xã hội và môi trường trong trò chơi, trong đó tác nhân nổi tiếng nhất là AIXBT. Kể từ khi ra mắt, AIXBT — một công ty phân tích chuỗi khối được hỗ trợ bởi AI có tài khoản X riêng — đã trở nên nổi tiếng nhờ những hiểu biết phân tích sâu sắc, với hơn 490.000 người theo dõi tính đến thời điểm viết bài này.

Nguồn: Virtuals Protocol GAME Architecture
uAgents
uAgents là một khuôn khổ đa tác nhân dựa trên Python do Fetch.AI phát triển. Nó đã được tích hợp với nhiều khuôn khổ Web2 khác nhau như LangChain, Vertex AI, CrewAI, v.v., giúp dễ dàng tạo và triển khai các tác nhân tự động trên chuỗi khối Fetch.AI. Sau khi được tạo, Agent sẽ được đăng ký trên hợp đồng thông minh Almanac, cho phép các Agent khác dễ dàng truy vấn hợp đồng và xác định Agent nhận theo địa chỉ Agent và điểm cuối HTTP. Bảo mật mật mã đảm bảo rằng các tương tác giữa các tác nhân vẫn an toàn, cho phép tác nhân phù hợp nhất đáp ứng các yêu cầu của người dùng mà không ảnh hưởng đến tính bảo mật.
Phân tích so sánh (Web2 Framework và Web3 Framework)





Ưu điểm của Khung đa tác nhân Web3
Mặc dù các khung đa tác nhân Web2 đã tương đối hoàn thiện và có nhu cầu mạnh mẽ từ các tổ chức, nhưng chúng vẫn thiếu chức năng gốc trên chuỗi so với các khung đa tác nhân Web3. Các nhà phát triển sử dụng công cụ Web2 phải đính kèm các thư viện của bên thứ ba để tương tác với hợp đồng thông minh hoặc phân tích dữ liệu blockchain, gây ra sự phức tạp và lỗ hổng tiềm ẩn. Các nhà phát triển sử dụng khung đa tác nhân Web3 có thể hưởng lợi từ các khả năng tích hợp sẵn trên chuỗi mà các khung này cung cấp, mang lại trải nghiệm liền mạch hơn khi triển khai các tác nhân trên chuỗi vì họ có thể tập trung nhiều hơn vào việc thiết kế trải nghiệm người dùng giao diện người dùng tốt. Ngoài ra, bằng cách tận dụng blockchain và hợp đồng thông minh làm cơ sở hạ tầng cơ bản, các tác nhân trên chuỗi có thể hưởng lợi từ các đường ray mật mã, chẳng hạn như để ví của họ thực hiện các hoạt động trên chuỗi thay mặt cho người dùng và đảm bảo sự thống nhất về động cơ.
Các chỉ số hiệu suất của khuôn khổ đa tác nhân Web3

Đơn giản hóa quy trình làm việc trong Web3
Mặc dù các khuôn khổ proxy Web2 ngày càng hoàn thiện và phổ biến, nhưng khái niệm proxy vẫn chưa được chú ý trong Web3 cho đến quý 4 năm 2024. Các công ty lớn như ElizaOS, Virtuals Protocol và RIG (mỗi công ty có token riêng) đã đạt được vốn hóa thị trường đáng kể, làm nổi bật nhu cầu mạnh mẽ đối với các tác nhân AI trong Web3 vượt ra ngoài giao dịch đầu cơ đơn thuần. Sự phấn khích thể hiện qua vốn hóa thị trường token này không phải là không có cơ sở vì Web3 vẫn đang nỗ lực để đạt được sự chấp nhận rộng rãi. Cho phép các tác nhân trên blockchain tự động thực hiện các hoạt động trên chuỗi có tiềm năng lớn trong việc thay đổi trải nghiệm của người dùng. Bên cạnh những hiệu quả có thể đạt được, vấn đề về tác nhân trong Web3 có thể bắt nguồn từ những lập luận tương tự về AI trong blockchain, cụ thể là tính minh bạch và khả năng truy xuất nguồn gốc cũng như các tính năng bảo mật tiên tiến. Giao dịch của đại lý được ghi lại trên blockchain, cho phép người dùng dễ dàng theo dõi và xác minh các hành động do đại lý thực hiện. Dưới đây, chúng tôi nêu bật một số lĩnh vực chính phù hợp nhất để cơ quan áp dụng.
DeFAI
Các giao dịch trên chuỗi vốn phức tạp và đòi hỏi người dùng phải có ít nhất hiểu biết cơ bản về blockchain và ví Web3. Điều này tạo ra trải nghiệm người dùng kém và vẫn là rào cản đáng kể đối với người dùng không phải là người dùng tiền điện tử. Trong khi đăng nhập bằng mạng xã hội gần đây đã được nhiều nhà cung cấp ví Web3 áp dụng rộng rãi, việc phát triển tài khoản và chuỗi trừu tượng vẫn còn chậm và hạn chế. Người dùng vẫn cần hiểu các khái niệm như phí gas, địa chỉ ví và cầu nối khi tham gia vào thị trường DeFi. Ngược lại, Operator Agent mới ra mắt của OpenAI chỉ yêu cầu người dùng thực hiện xử lý ngôn ngữ tự nhiên đơn giản để thực hiện giao dịch, loại bỏ nhiều bước mà người dùng phải thực hiện thông qua xử lý tác nhân ở phía sau. Web3 cũng không ngoại lệ và chúng tôi tin rằng việc tích hợp các tác nhân AI với nhiều giao thức DeFi (DeFAI) khác nhau có thể giúp người dùng dễ dàng tham gia hơn và có trải nghiệm liền mạch.
Virtuals Protocol gần đây đã ra mắt Giao thức thương mại đại lý, thiết lập phương pháp chuẩn hóa về cách các đại lý giao tiếp và tương tác với nhau. Phương pháp này giới thiệu một quy trình gồm 4 giai đoạn bao gồm yêu cầu, đàm phán, giao dịch và đánh giá. Việc giới thiệu các trình đánh giá, ký quỹ dựa trên hợp đồng thông minh và xác minh mật mã là các tính năng cốt lõi của khuôn khổ nhằm đảm bảo các giao dịch được cung cấp đáp ứng các yêu cầu của nhiệm vụ. Khi tất cả các yêu cầu được đáp ứng, hợp đồng thông minh sẽ mở khóa tiền và cung cấp dịch vụ, đảm bảo giao dịch có thể được thực hiện một cách minh bạch và không cần tin cậy. Giao thức thương mại đại lý chỉ là một ví dụ về cách một khuôn khổ điều phối đa đại lý có thể giúp thúc đẩy tương tác giữa các đại lý trên chuỗi theo cách an toàn và không cần tin cậy.
Olas Protocol trình diễn DeFAI trong thực tế: cửa hàng ứng dụng Pearl của giao thức này bao gồm các tác nhân Mobius và Optimus, sử dụng ngăn xếp Olas để tự động hóa các chiến lược DeFi trên các nền tảng như Uniswap, Balancer và Sturdy, bao gồm các mạng như Optimism, Base và Mode. Mech Marketplace của Olas Protocol cũng hoạt động như một sàn giao dịch cho các công cụ và plugin của tác nhân, cho phép các tác nhân được triển khai thuê ngoài các tác vụ thông qua giao tiếp giữa các tác nhân. Một ví dụ đáng chú ý khác là Questflow, cũng đề xuất một khuôn khổ phối hợp nhiều tác nhân để khớp ý định, trong đó các yêu cầu của người dùng được xử lý bởi một bộ điều phối xác định các tác nhân có liên quan và phân công họ thực hiện các nhiệm vụ này thông qua một trình quản lý tác vụ giám sát việc thực hiện quy trình làm việc của tác nhân. Vì các tác nhân được phân phối trong sổ đăng ký tác nhân Deagent nên người tạo ra tác nhân cũng có thể nhận được khoản thù lao công bằng.
Quyền sở hữu dữ liệu
Giữa bối cảnh proxy rộng lớn và lượng dữ liệu khổng lồ được tạo ra trên chuỗi, phân tích trên chuỗi đang trở thành một lĩnh vực ngày càng có giá trị, với nhiều dự án tìm cách cung cấp các dịch vụ gắn nhãn dữ liệu (ví dụ: Sahara AI), theo dõi (Arkham Intelligence, Kaito), sổ đăng ký bằng chứng (EAS, BAS, v.v.). Là cánh tay phải của người dùng, các tác nhân có thể đóng góp vào bối cảnh dữ liệu đang phát triển trong Web3 bằng cách xin phép người dùng, cho phép người dùng nhận được phần thưởng công bằng cho những đóng góp dữ liệu của họ.
Trò chơi
Cộng đồng game Web3 ngày càng quan tâm và có nhu cầu cao đối với các tác nhân hỗ trợ AI. Các tác nhân trong trò chơi có thể cung cấp sức mạnh cho các nhân vật không phải người chơi (NPC) hoặc quản lý nền kinh tế trong trò chơi. Chúng giúp tạo ra môi trường năng động, nhạy bén bằng cách thực hiện các nhiệm vụ một cách tự động và phản hồi lại hành động của người chơi. Các dự án đáng chú ý trong lĩnh vực này bao gồm nền tảng WayFinder của Parallel, nền tảng này đang xây dựng biểu đồ kiến thức có thể được các tác nhân AI sử dụng trên nhiều quy trình làm việc khác nhau trong trò chơi. Treasure DAO là một ví dụ đáng chú ý khác, gần đây đã công bố việc ra mắt nền tảng khởi chạy proxy MAGE do ElizaOS cung cấp, tiến thêm một bước nữa tới bối cảnh chơi game Web3 do tác nhân điều khiển. Virtuals Protocol cũng đã ra mắt Dự án WestWorld, một mô phỏng tương tác trong Roblox, nơi nhiều tác nhân tự động tương tác và điều khiển các câu chuyện trò chơi năng động được hỗ trợ bởi khuôn khổ G.A.M.E.
Các trường hợp sử dụng khác
DAO hỗ trợ AI: Proxy có thể chắt lọc các đề xuất dài dòng thành thông tin dễ hiểu mà người dùng chính thống có thể dễ dàng hiểu và bỏ phiếu, do đó nâng cao tinh thần cốt lõi của phi tập trung.
Kiểm toán hợp đồng thông minh, phân tích mạng, phát hiện gian lận: Các tác nhân có thể đóng vai trò quan trọng trong việc gỡ lỗi, thường xác định các rủi ro tiềm ẩn nhanh hơn con người, do đó giảm thiểu rủi ro bảo mật khi kết hợp với trí thông minh của con người.
Tối ưu hóa chuỗi cung ứng: Điều này có thể hợp lý hóa và cho phép các hoạt động tiết kiệm chi phí hơn bằng cách sử dụng sức mạnh dự đoán của AI và các tính năng minh bạch và bảo mật của blockchain.
Thách thức và nỗ lực đối với các hệ thống đa tác nhân Web3 trưởng thành
Các hệ thống đa tác nhân (MAS) trong môi trường Web3, nơi các tác nhân chạy trên cơ sở hạ tầng phi tập trung và thường được phối hợp bằng hợp đồng thông minh, phải đối mặt với một số hạn chế và thách thức có thể ảnh hưởng đến thiết kế, triển khai và hiệu suất của chúng. Sau đây là một số trở ngại mà các tác nhân Web2 và Web3 có thể gặp phải:
Giống như các hệ thống dựa trên một LLM duy nhất, các hệ thống đa tác nhân cũng có nguy cơ xảy ra ảo giác mô hình. Nguy cơ ảo giác trong hệ thống đa tác nhân có thể nghiêm trọng hơn khi ảo giác được truyền từ tác nhân này sang tác nhân khác, làm trầm trọng thêm vấn đề. Việc giao tiếp giữa các tác nhân kém sẽ dẫn đến hiệu suất không tối ưu. Do đó, khi chúng ta tiến tới các tác nhân hoàn toàn tự động trong tương lai, nhiều khuôn khổ vẫn sẽ yêu cầu một số sự giám sát của con người.
Đạt được sự đồng thuận và đồng bộ hóa trạng thái giữa các tác nhân. Trong hệ thống đa tác nhân, để hoàn thành thành công một nhiệm vụ, một tác nhân phải điều hướng một hệ thống đa tác nhân phức tạp và phân cấp, đảm bảo tính nhất quán với nhiệm vụ chung, trách nhiệm của chính tác nhân đó và giao tiếp giữa nhiều tác nhân.
Proxy trong Web3 cũng phải đối mặt với các vấn đề về khả năng mở rộng và độ trễ vì chúng chạy trên blockchain cơ bản và do đó phải cạnh tranh không gian khối với các loại giao dịch khác. Điều này có thể có nghĩa là chúng ta sẽ không thấy sự phối hợp hoàn toàn trên chuỗi của các mạng proxy lớn trong tương lai gần cho đến khi các thách thức về khả năng mở rộng chuỗi khối được giải quyết. Những thách thức về bảo mật và quyền riêng tư trên blockchain cũng đặc biệt trong môi trường Web3, làm tăng thêm tính phức tạp. Tuy nhiên, tình trạng này đang dần được giải quyết với sự xuất hiện của các giải pháp mới nổi như Turnkey, cung cấp giải pháp TEE (AWS Nitro Enclaves) nơi các tác nhân có thể thực hiện các hoạt động một cách an toàn và có thể xác minh được. Phala Network cũng đã công bố quan hệ đối tác với GoPlus để nâng cao tác nhân ElizaOS bằng cách sử dụng các tính năng TEE của Phala và tính năng bảo mật của GoPlus.
Quản lý bộ nhớ đa tác nhân. Trong hệ thống đa tác nhân, các tác nhân khác nhau thực hiện các nhiệm vụ khác nhau và lưu trữ thông tin khác nhau. Do đó, để đảm bảo thực hiện thành công mục tiêu chung, việc đạt được sự đồng thuận về thông tin là hữu ích, trong khi việc triển khai các cơ chế kiểm soát truy cập mạnh mẽ là rất quan trọng vì một số tác nhân có thể đang xử lý thông tin cực kỳ nhạy cảm. Không thực hiện các biện pháp bảo mật mạnh mẽ có thể dẫn đến vi phạm quyền riêng tư dữ liệu và thất bại nhiệm vụ.
Việc thiếu các chuẩn mực đánh giá và chuẩn mực toàn diện trong một số lĩnh vực nhất định (chẳng hạn như thí nghiệm khoa học trong phòng thí nghiệm, mô hình kinh tế và kỹ năng chuỗi) có thể cản trở sự phát triển nhanh chóng của lĩnh vực này.
Kết luận
Tương lai của các khuôn khổ đa tác nhân rất hứa hẹn nhưng cũng đầy thách thức, điều này nhấn mạnh rằng vẫn còn một chặng đường dài ở phía trước. So với các khuôn khổ đa tác nhân Web2 đã được thiết lập và công nhận về mặt thể chế, các khuôn khổ đa tác nhân Web3 vẫn còn trong giai đoạn sơ khai với một số ít trường hợp sử dụng sẵn sàng đưa vào sản xuất. Tuy nhiên, sự thay đổi về quy định và những nỗ lực liên tục nhằm giảm thiểu những thách thức nêu trên chính là chất xúc tác quan trọng thúc đẩy việc áp dụng rộng rãi hơn.
Ngoài ra, sự phát triển của các công cụ phát triển tác nhân (như SendAI Suite, Coinbase Agent Suite, ShellAgent No-Code Platform, Olas Stack, v.v.) để đơn giản hóa việc tạo tác nhân và mở rộng các trường hợp sử dụng tác nhân tiếp tục đạt được tiến bộ, thúc đẩy tăng trưởng và đổi mới cho các nhà phát triển. Những tiến bộ trong thư viện Web3 như GOAT SDK giúp mở rộng khả năng thực hiện các hoạt động của tác nhân. Cuối cùng, khi công nghệ phát triển và các hệ thống này hoàn thiện, chúng ta có thể mong đợi quy trình làm việc proxy sẽ trở nên phổ biến trong các tương tác trên chuỗi. Cũng giống như có nhiều khuôn khổ đa tác nhân cho Web2, chúng tôi hy vọng sẽ thấy nhiều khuôn khổ tác nhân hơn trong Web3 cung cấp cả phương pháp chung và chuyên biệt.