Tác giả: Shlok Khemani, Oliver Jaros Nguồn: Decentralised.co Dịch: Shan Ou Ba, Golden Finance
Bài viết hôm nay sẽ giải thích về các khuôn khổ proxy và đánh giá của chúng tôi về chặng đường phát triển của chúng. Đây cũng là một yêu cầu đề xuất, nhắm tới những người sáng lập làm việc tại giao điểm của đường dây tiền tệ internet (tiền điện tử) và cơ quan.
Trong năm qua, Decentralised.co đã đi sâu vào mối quan hệ giao thoa giữa tiền điện tử và AI. Chúng tôi thậm chí còn xây dựng một sản phẩm được hơn 70.000 người sử dụng để theo dõi các tác nhân AI và cơ sở hạ tầng của tác nhân. Mặc dù cơn sốt xung quanh lĩnh vực này đã lắng xuống trong những tuần gần đây, nhưng tác động của AI đối với công nghệ và xã hội không giống bất cứ điều gì chúng ta từng thấy kể từ khi có internet. Nếu tiền điện tử trở thành phương tiện tài chính chủ chốt trong tương lai như chúng tôi dự đoán, thì sự kết hợp của nó với AI sẽ là chủ đề thường xuyên thay vì chỉ xuất hiện một lần.
Một trong những hạng mục dự án thú vị hơn nổi lên từ làn sóng này là các khuôn khổ tác nhân AI gốc mã hóa. Chúng là một thử nghiệm hấp dẫn trong việc đưa các nguyên tắc cốt lõi của blockchain — chuyển giao giá trị không cần cấp phép, tính minh bạch và các động cơ phù hợp — vào quá trình phát triển AI. Bản chất nguồn mở của chúng mang đến cho chúng ta cơ hội hiếm có để xem xét hoạt động bên trong của chúng và phân tích không chỉ những lời hứa mà còn cả cách chúng thực sự hoạt động.
Trong bài viết này, trước tiên chúng ta sẽ phân tích xem khuôn khổ proxy thực sự là gì và tại sao chúng lại quan trọng. Sau đó, chúng ta sẽ giải quyết câu hỏi hiển nhiên: tại sao chúng ta lại cần một khuôn khổ tiền điện tử gốc khi đã có những lựa chọn hoàn thiện như LangChain? Để đạt được mục đích này, chúng tôi đã phân tích các nền tảng mã hóa gốc hàng đầu cùng điểm mạnh và hạn chế của chúng trong các trường hợp sử dụng khác nhau. Cuối cùng, nếu bạn đang xây dựng một tác nhân AI, chúng tôi sẽ giúp bạn quyết định khuôn khổ nào phù hợp với nhu cầu của bạn. Hoặc bạn nên xây dựng theo một khuôn khổ nào đó?
Chúng ta hãy tìm hiểu sâu hơn.
Tóm tắt
“Sự tiến bộ của nền văn minh bao gồm việc mở rộng số lượng các hoạt động quan trọng mà chúng ta có thể thực hiện mà không cần suy nghĩ.” - Alfred North Whitehead
Hãy nghĩ về cách tổ tiên chúng ta đã sống. Mỗi gia đình phải tự trồng lương thực, tự may quần áo và tự xây nơi trú ẩn. Họ dành vô số thời gian cho các nhiệm vụ sinh tồn cơ bản, không còn nhiều thời gian cho bất cứ việc gì khác. Ngay cả hai thế kỷ trước, gần 90 phần trăm dân số làm nghề nông. Ngày nay, chúng ta mua thực phẩm từ siêu thị, sống trong những ngôi nhà do các chuyên gia xây dựng và mặc quần áo được sản xuất tại các nhà máy xa xôi. Những gì từng tiêu tốn nhiều thế hệ công sức giờ đây đã trở thành một giao dịch đơn giản. Ngày nay, chỉ có 27% dân số thế giới tham gia vào ngành nông nghiệp (tỷ lệ này giảm xuống dưới 5% ở các nước phát triển).
Khi chúng ta bắt đầu làm chủ một công nghệ mới, các mô hình quen thuộc sẽ xuất hiện. Chúng ta bắt đầu bằng cách hiểu những điều cơ bản – điều gì hiệu quả, điều gì không hiệu quả và những mô hình nào vẫn đang xuất hiện. Khi các mô hình này trở nên rõ ràng, chúng tôi đã đóng gói chúng thành các khái niệm trừu tượng dễ dàng hơn, nhanh hơn và đáng tin cậy hơn. Những sự trừu tượng này giải phóng thời gian và nguồn lực để giải quyết những thách thức đa dạng và có ý nghĩa hơn. Điều này cũng đúng với việc xây dựng phần mềm.

Lấy phát triển Web làm ví dụ. Vào những ngày đầu, các nhà phát triển cần phải viết mọi thứ từ đầu — xử lý các yêu cầu HTTP, quản lý trạng thái và tạo UI — những nhiệm vụ phức tạp và tốn thời gian. Sau đó, các khuôn khổ như React xuất hiện giúp đơn giản hóa đáng kể những thách thức này bằng cách cung cấp các khái niệm trừu tượng hữu ích. Sự phát triển của thiết bị di động cũng đi theo con đường tương tự. Ban đầu, các nhà phát triển cần có kiến thức chuyên sâu về nền tảng cho đến khi các công cụ như React Native và Flutter xuất hiện, cho phép họ viết mã một lần và triển khai ở mọi nơi.
Một mô hình trừu tượng tương tự cũng xảy ra trong học máy. Vào đầu những năm 2000, các nhà nghiên cứu đã phát hiện ra tiềm năng của GPU đối với khối lượng công việc ML. Ban đầu, các nhà phát triển phải vật lộn với các nguyên mẫu đồ họa và ngôn ngữ như GLSL của OpenGL—các công cụ không được xây dựng cho mục đích tính toán chung. Mọi thứ đã thay đổi vào năm 2006 khi NVIDIA giới thiệu CUDA, giúp lập trình GPU dễ tiếp cận hơn và mang chương trình đào tạo ML đến với nhiều nhà phát triển hơn.
Khi sự phát triển của ML ngày càng phát triển, các khuôn khổ chuyên biệt xuất hiện để trừu tượng hóa sự phức tạp của lập trình GPU. TensorFlow và PyTorch cho phép các nhà phát triển tập trung vào kiến trúc mô hình thay vì bị sa lầy vào mã GPU cấp thấp hoặc các chi tiết triển khai. Điều này đẩy nhanh quá trình lặp lại các kiến trúc mô hình và những tiến bộ nhanh chóng trong AI/ML mà chúng ta đã thấy trong vài năm qua.
Chúng ta hiện đang chứng kiến sự tiến hóa tương tự ở các tác nhân AI—một chương trình phần mềm có thể đưa ra quyết định và hành động để đạt được mục tiêu, giống như trợ lý hoặc nhân viên con người. Nó sử dụng một mô hình ngôn ngữ lớn làm “bộ não” và có thể tận dụng nhiều công cụ khác nhau như tìm kiếm trên web, thực hiện lệnh gọi API hoặc truy cập cơ sở dữ liệu để hoàn thành tác vụ.
Để xây dựng một tác nhân từ đầu, các nhà phát triển phải viết mã phức tạp để xử lý mọi khía cạnh: cách tác nhân suy nghĩ về các vấn đề, cách tác nhân quyết định sử dụng công cụ nào và khi nào, cách tác nhân tương tác với các công cụ đó, cách tác nhân ghi nhớ bối cảnh của các tương tác trước đó và cách chia nhỏ các tác vụ lớn thành các bước dễ quản lý. Mỗi chế độ phải được giải quyết riêng lẻ, dẫn đến công sức chồng chéo và kết quả không nhất quán.
Đây chính là lúc khuôn khổ tác nhân AI phát huy tác dụng. Cũng giống như React đơn giản hóa quá trình phát triển web bằng cách xử lý các phần khó khăn của việc cập nhật UI và quản lý trạng thái, các khuôn khổ này giải quyết những thách thức phổ biến trong việc xây dựng tác nhân AI. Chúng cung cấp các thành phần có sẵn cho các mô hình hiệu quả mà chúng tôi đã khám phá, chẳng hạn như cách xây dựng quy trình ra quyết định của tác nhân, tích hợp các công cụ khác nhau và duy trì bối cảnh trong nhiều tương tác.
Khi sử dụng một khuôn khổ, các nhà phát triển có thể tập trung vào những gì làm cho tác nhân của họ trở nên độc đáo—các khả năng và trường hợp sử dụng cụ thể—thay vì xây dựng lại các thành phần cơ bản này. Họ có thể tạo ra các tác nhân AI tinh vi chỉ trong vài ngày hoặc vài tuần thay vì vài tháng, dễ dàng thử nghiệm các phương pháp tiếp cận khác nhau và học hỏi từ các phương pháp hay nhất do các nhà phát triển khác và cộng đồng khám phá ra.
Để hiểu rõ hơn tầm quan trọng của một khuôn khổ, hãy xem xét một nhà phát triển đang xây dựng một tác nhân để giúp bác sĩ xem xét các báo cáo y tế. Nếu không có khuôn khổ, họ sẽ phải lập trình mọi thứ từ đầu: xử lý tệp đính kèm email, trích xuất văn bản từ tệp PDF, nhập văn bản vào LLM theo đúng định dạng, quản lý lịch sử hội thoại để theo dõi nội dung đã thảo luận và đảm bảo các tác nhân phản hồi phù hợp. Đây là rất nhiều mã phức tạp cho một tác vụ không dành riêng cho trường hợp sử dụng cụ thể của tác vụ đó.
Khi sử dụng khung tác nhân, nhiều khối xây dựng này có thể được sử dụng trực tiếp. Khung này xử lý việc đọc email và PDF, cung cấp các mẫu để xây dựng lời nhắc kiến thức y khoa, quản lý luồng hội thoại và thậm chí giúp theo dõi các chi tiết quan trọng trong nhiều lần giao tiếp. Các nhà phát triển có thể tập trung vào những điểm độc đáo của tác nhân, chẳng hạn như tinh chỉnh lời nhắc phân tích y tế hoặc thêm các biện pháp kiểm tra an toàn dành riêng cho chẩn đoán, thay vì phát minh lại các mô hình phổ biến. Những gì có thể mất nhiều tháng để xây dựng từ đầu giờ đây có thể được tạo nguyên mẫu chỉ trong vài ngày.
LangChain đã trở thành công cụ đa năng của ngành phát triển AI, cung cấp bộ công cụ linh hoạt để xây dựng các ứng dụng dựa trên LLM. Mặc dù không hoàn toàn là một khuôn khổ tác nhân, nhưng nó cung cấp các khối xây dựng cơ bản mà hầu hết các khuôn khổ tác nhân được xây dựng dựa trên, từ chuỗi để sắp xếp các cuộc gọi LLM đến hệ thống bộ nhớ để duy trì ngữ cảnh. Hệ sinh thái tích hợp rộng lớn và tài liệu phong phú khiến đây trở thành điểm khởi đầu hàng đầu cho các nhà phát triển muốn xây dựng các ứng dụng AI thực tế.
Ngoài ra còn có các khuôn khổ đa tác nhân như CrewAI và AutoGen, cho phép các nhà phát triển xây dựng các hệ thống với nhiều tác nhân AI làm việc cùng nhau, mỗi tác nhân có vai trò và khả năng riêng. Thay vì chỉ thực hiện các nhiệm vụ theo trình tự, các khuôn khổ này nhấn mạnh vào sự hợp tác giữa các tác nhân thông qua đối thoại để cùng nhau giải quyết vấn đề.

Ví dụ, khi giao một báo cáo nghiên cứu, một tác nhân có thể phác thảo cấu trúc của báo cáo, một tác nhân khác có thể thu thập thông tin có liên quan và một tác nhân thứ ba có thể nhận xét và chỉnh sửa bản thảo cuối cùng. Giống như việc thành lập một nhóm ảo nơi các tác nhân AI có thể thảo luận, tranh luận và cùng nhau cải thiện các giải pháp. Các hệ thống gồm nhiều tác nhân làm việc cùng nhau theo cách này để đạt được các mục tiêu cấp cao thường được gọi là "bầy" tác nhân AI.
Mặc dù không phải là một khuôn khổ truyền thống, AutoGPT đã tiên phong trong khái niệm về tác nhân AI tự động. Nó cho thấy AI có thể thực hiện mục tiêu cấp cao, chia nhỏ thành các nhiệm vụ nhỏ và hoàn thành chúng một cách độc lập với sự can thiệp tối thiểu của con người. Bất chấp những hạn chế của mình, AutoGPT đã tạo nên làn sóng đổi mới trong các tác nhân tự động và ảnh hưởng đến việc thiết kế các khuôn khổ có cấu trúc hơn sau này.
Nhưng tại sao nó lại được mã hóa?
Tất cả bối cảnh này cuối cùng đưa chúng ta đến sự trỗi dậy của các khuôn khổ tác nhân AI gốc mã hóa. Đến đây, bạn có thể thắc mắc tại sao Web3 lại cần có khuôn khổ riêng khi chúng ta đã có những khuôn khổ tương đối hoàn thiện như Langchain và CrewAI trong Web2? Chắc chắn các nhà phát triển có thể sử dụng các khuôn khổ hiện có này để xây dựng bất kỳ tác nhân nào họ muốn? Sự hoài nghi này là hợp lý khi xét đến xu hướng của ngành công nghiệp này trong việc đưa Web3 vào mọi câu chuyện.
Chúng tôi tin rằng có ba lý do chính đáng cho sự tồn tại của một khuôn khổ proxy dành riêng cho Web3.
Các tác nhân tài chính hoạt động trên chuỗi
Chúng tôi tin rằng hầu hết các giao dịch tài chính trong tương lai sẽ được thực hiện trên các chuỗi khối. Điều này đã thúc đẩy nhu cầu về một nhóm tác nhân AI có thể phân tích dữ liệu trên chuỗi, thực hiện giao dịch blockchain và quản lý tài sản kỹ thuật số trên nhiều giao thức và mạng lưới. Từ các bot giao dịch tự động có thể phát hiện cơ hội chênh lệch giá cho đến các nhà quản lý danh mục đầu tư thực hiện các chiến lược lợi nhuận, các tác nhân này dựa vào sự tích hợp sâu các khả năng của blockchain vào quy trình làm việc cốt lõi của họ.

Các khuôn khổ Web2 truyền thống không cung cấp các thành phần gốc cho các tác vụ này. Bạn phải ghép các thư viện của bên thứ ba lại với nhau để tương tác với các hợp đồng thông minh, phân tích các sự kiện thô trên chuỗi và xử lý việc quản lý khóa riêng tư — gây ra sự phức tạp và lỗ hổng tiềm ẩn. Ngược lại, các khuôn khổ Web3 chuyên dụng có thể xử lý các chức năng này ngay lập tức, cho phép các nhà phát triển tập trung vào logic và chính sách của tác nhân thay vì phải vật lộn với hệ thống blockchain cấp thấp.
Sự phối hợp và động cơ bản địa
Blockchain không chỉ là tiền kỹ thuật số. Họ cung cấp một hệ thống lưu trữ hồ sơ toàn cầu, giảm thiểu sự tin cậy với các công cụ tài chính tích hợp giúp tăng cường sự phối hợp giữa nhiều tác nhân. Các nhà phát triển có thể sử dụng các nguyên hàm trên chuỗi như đặt cược, ký quỹ và nhóm khuyến khích để phối hợp lợi ích của nhiều tác nhân AI, thay vì dựa vào danh tiếng ngoài chuỗi hoặc cơ sở dữ liệu riêng biệt.
Hãy tưởng tượng một nhóm tác nhân hợp tác để hoàn thành một nhiệm vụ phức tạp (ví dụ: gắn nhãn dữ liệu để đào tạo một mô hình mới). Hiệu suất của mỗi tác nhân có thể được theo dõi trên chuỗi và phần thưởng được tự động phân phối dựa trên sự đóng góp. Tính minh bạch và bất biến của các hệ thống dựa trên blockchain cho phép trả lương công bằng, theo dõi danh tiếng chặt chẽ hơn và các chương trình khuyến khích phát triển theo thời gian thực.
Các khuôn khổ gốc mã hóa có thể nhúng rõ ràng các khả năng này, cho phép các nhà phát triển thiết kế các cấu trúc khuyến khích bằng cách sử dụng hợp đồng thông minh mà không cần phải phát minh lại bánh xe mỗi khi cần tin tưởng một tác nhân hoặc cần thực hiện thanh toán cho một tác nhân khác.
Cơ hội mới trong thị trường sơ khai
Mặc dù các khuôn khổ như LangChain đã có sức ảnh hưởng và hiệu ứng mạng lưới, nhưng lĩnh vực tác nhân AI vẫn còn trong giai đoạn sơ khai. Người ta vẫn chưa rõ trạng thái cuối cùng của những hệ thống này sẽ như thế nào và không có cách duy nhất nào để khóa chặt thị trường.
Các động lực kinh tế tiền điện tử mở ra những khả năng mới về cách xây dựng, quản lý và kiếm tiền từ các khuôn khổ mà không phù hợp với kinh tế SaaS hoặc Web2 truyền thống. Việc thử nghiệm ở giai đoạn đầu này có thể mở ra các chiến lược kiếm tiền mới cho chính khuôn khổ đó, chứ không chỉ cho các tác nhân được xây dựng trên đó.
Đối thủ cạnh tranh
ElizaOS, liên kết với dự án nổi tiếng AI16Z, là một khuôn khổ dựa trên Typescript để tạo, triển khai và quản lý các tác nhân AI. Nó được thiết kế như một hệ điều hành tác nhân AI thân thiện với Web3 cho phép các nhà phát triển xây dựng các tác nhân có tính cách độc đáo, các công cụ linh hoạt để tương tác với blockchain và dễ dàng mở rộng thông qua các hệ thống đa tác nhân.
Rig là một khuôn khổ tác nhân AI nguồn mở do Playgrounds Analytics Inc. phát triển, được xây dựng bằng ngôn ngữ lập trình Rust để tạo ra các tác nhân AI có thể mở rộng và theo mô-đun. Nó có liên quan đến dự án AI Rig Complex (ARC).
Daydreams là một khuôn khổ tác nhân tạo ra ban đầu được tạo ra để tạo ra các tác nhân tự chủ cho các trò chơi trên chuỗi, nhưng kể từ đó đã được mở rộng để thực hiện các tác vụ trên chuỗi.
Pippin là một khuôn khổ tác nhân AI được phát triển bởi Yohei Nakajima, người sáng lập BabyAGI, được thiết kế để giúp các nhà phát triển tạo ra các trợ lý kỹ thuật số tự động và có tính mô-đun. Đầu tiên, Yohei xây dựng một tác nhân độc lập rồi mở rộng thành một khuôn khổ chung.
ZerePy là một nền tảng Python nguồn mở được thiết kế để triển khai các tác nhân tự động trên nhiều nền tảng và chuỗi khối, tập trung vào AI sáng tạo và tích hợp phương tiện truyền thông xã hội. Giống như Pippin, Zerepy ban đầu là một tác nhân độc lập, Zerebro, và sau đó mở rộng thành một khuôn khổ.
Tiêu chí
Để đánh giá điểm mạnh của từng khuôn khổ, chúng tôi đã đứng trên góc nhìn của một nhà phát triển muốn xây dựng một tác nhân AI. Họ sẽ quan tâm tới điều gì? Chúng tôi cho rằng việc chia nhỏ đánh giá thành ba hạng mục chính là hữu ích: cốt lõi, chức năng và trải nghiệm của nhà phát triển.
Bạn có thể coi cốt lõi của khuôn khổ là nền tảng mà tất cả các tác nhân khác được xây dựng trên đó. Nếu lõi yếu, chậm hoặc không phát triển thì các tác nhân được tạo ra bằng cách sử dụng khuôn khổ cũng sẽ bị hạn chế tương tự. Lõi có thể được đánh giá dựa trên các tiêu chí sau:
Vòng lặp suy luận cốt lõi:Bộ não của bất kỳ khuôn khổ tác nhân nào; cách nó giải quyết vấn đề. Khung mạnh mẽ này hỗ trợ mọi thứ từ luồng đầu vào và đầu ra cơ bản đến các mô hình phức tạp như chuỗi suy nghĩ. Nếu không có khả năng suy luận mạnh mẽ, các tác nhân không thể phân tích hiệu quả các nhiệm vụ phức tạp hoặc đánh giá nhiều lựa chọn, khiến chúng trở thành những chatbot phức tạp.
Cơ chế bộ nhớ:Các tác nhân cần cả bộ nhớ ngắn hạn để thực hiện các cuộc trò chuyện đang diễn ra và bộ nhớ dài hạn để lưu trữ kiến thức lâu dài. Các khuôn khổ tốt không chỉ ghi nhớ mà còn hiểu được mối quan hệ giữa các thông tin khác nhau và có thể ưu tiên thông tin nào đáng giữ và thông tin nào đáng quên.
Hỗ trợ nhúng và RAG:Các tác nhân hiện đại phải sử dụng kiến thức bên ngoài như tài liệu và dữ liệu thị trường. Một khuôn khổ mạnh mẽ có thể dễ dàng nhúng thông tin này và truy xuất thông tin theo ngữ cảnh thông qua RAG, do đó đưa ra phản hồi dựa trên kiến thức cụ thể thay vì chỉ dựa vào đào tạo mô hình cơ sở.
Cấu hình tính cách:Khả năng định hình cách giao tiếp của nhân viên dịch vụ khách hàng (giọng điệu, phép xã giao và tính cách) rất quan trọng đối với sự tương tác của người dùng. Một khuôn khổ tốt có thể dễ dàng định hình các đặc điểm này, nhận ra rằng tính cách của tác nhân có thể ảnh hưởng đáng kể đến lòng tin của người dùng.
Phối hợp nhiều tác nhân: Khung mạnh mẽ này cung cấp các mẫu tích hợp để các tác nhân cộng tác, cho dù thông qua các cuộc trò chuyện có cấu trúc, phân công nhiệm vụ hay hệ thống bộ nhớ chia sẻ. Điều này có thể tạo ra các nhóm chuyên biệt, trong đó mỗi tác nhân có những khả năng riêng để cùng nhau giải quyết vấn đề.
Ngoài chức năng cốt lõi, tiện ích thực tế của một khuôn khổ phụ thuộc phần lớn vào các tính năng và tích hợp của nó. Các công cụ mở rộng đáng kể chức năng thực tế của một tác nhân. Một tác nhân chỉ có quyền truy cập LLM mới có thể tham gia vào cuộc trò chuyện, nhưng bằng cách cấp cho tác nhân quyền truy cập vào trình duyệt web, tác nhân có thể truy xuất thông tin theo thời gian thực. Kết nối nó với API lịch của bạn và nó có thể lên lịch các cuộc họp. Mỗi công cụ mới đều làm tăng khả năng của tác nhân theo cấp số nhân. Theo quan điểm của nhà phát triển, số lượng công cụ càng nhiều thì tính tùy chọn và phạm vi thử nghiệm càng lớn.
Chúng tôi đánh giá khả năng của các khuôn khổ mã hóa gốc theo ba chiều:
Khả năng và hỗ trợ mô hình AI: Các khuôn khổ mạnh mẽ cung cấp khả năng tích hợp gốc với nhiều mô hình ngôn ngữ — từ chuỗi GPT của OpenAI đến các giải pháp thay thế nguồn mở như Llama và Mistral. Nhưng không chỉ có LLM. Việc hỗ trợ các khả năng AI bổ sung như chuyển văn bản thành giọng nói, sử dụng trình duyệt, tạo hình ảnh và suy luận mô hình cục bộ có thể mở rộng đáng kể khả năng của tác nhân. Hỗ trợ mô hình mạnh mẽ đang trở thành điều bắt buộc phải có đối với nhiều khuôn khổ này.
Hỗ trợ cơ sở hạ tầng Web3:Việc xây dựng proxy tiền điện tử đòi hỏi phải tích hợp sâu với cơ sở hạ tầng blockchain. Điều này có nghĩa là hỗ trợ các thành phần Web3 cần thiết như ví để ký giao dịch, RPC để giao tiếp chuỗi và trình lập chỉ mục để truy cập dữ liệu. Một khuôn khổ mạnh mẽ phải tích hợp với các công cụ và dịch vụ thiết yếu trên toàn hệ sinh thái, từ thị trường NFT và giao thức DeFi đến các giải pháp nhận dạng và lớp dữ liệu khả dụng.
Phạm vi phủ sóng chuỗi: Hỗ trợ cơ sở hạ tầng Web3 xác định những gì proxy có thể làm, trong khi phạm vi phủ sóng chuỗi xác định nơi chúng có thể làm. Hệ sinh thái tiền điện tử đang phát triển thành một hệ sinh thái phi tập trung, đa chuỗi, làm nổi bật tầm quan trọng của phạm vi chuỗi rộng.
Cuối cùng, ngay cả nền tảng mạnh mẽ nhất cũng chỉ tốt bằng trải nghiệm của nhà phát triển. Một khuôn khổ có thể có chức năng tốt nhất trong phân khúc, nhưng nếu các nhà phát triển gặp khó khăn khi sử dụng nó một cách hiệu quả, nó sẽ không bao giờ được áp dụng rộng rãi.
Ngôn ngữ được sử dụng trong một khuôn khổ ảnh hưởng trực tiếp đến những ai có thể xây dựng bằng khuôn khổ đó. Python thống trị cả lĩnh vực AI và khoa học dữ liệu, khiến nó trở thành lựa chọn tự nhiên cho các khuôn khổ AI. Các khuôn khổ được viết bằng ngôn ngữ chuyên biệt có thể có những lợi thế riêng, nhưng có thể tách biệt khỏi hệ sinh thái nhà phát triển rộng lớn hơn. Sự phổ biến của JavaScript trong phát triển web khiến nó trở thành một đối thủ mạnh, đặc biệt là đối với các khuôn khổ nhắm mục tiêu tích hợp web.
Tài liệu hướng dẫn rõ ràng và toàn diện chính là chìa khóa giúp các nhà phát triển áp dụng một khuôn khổ mới. Không chỉ có các tham chiếu API, mặc dù chúng cũng rất quan trọng. Tài liệu hướng dẫn chặt chẽ bao gồm các tổng quan khái niệm giải thích các nguyên tắc cốt lõi, hướng dẫn từng bước, mã mẫu có chú thích rõ ràng, hướng dẫn đào tạo, hướng dẫn khắc phục sự cố và các mẫu thiết kế đã được thiết lập.
Kết quả
Bảng sau tóm tắt hiệu suất của từng khung trong các tham số chúng tôi vừa xác định (xếp hạng từ 1-5). Mặc dù việc thảo luận về lý do đằng sau mỗi điểm dữ liệu nằm ngoài phạm vi của bài viết này, nhưng sau đây là một số ấn tượng nổi bật mà mỗi khuôn khổ để lại cho chúng ta.
Eliza là nền tảng hoàn thiện nhất trong danh sách này. Với việc khuôn khổ Eliza đã trở thành điểm Schelling để hệ sinh thái tiền điện tử tương tác với AI trong làn sóng proxy gần đây, một trong những tính năng nổi bật của nó là số lượng lớn các tính năng và tích hợp mà nó hỗ trợ.

Do mức độ phổ biến mà nó tạo ra, mọi công cụ phát triển và blockchain đều nhanh chóng tích hợp vào khuôn khổ này (hiện tại nó có gần 100 tích hợp!). Đồng thời, Eliza cũng thu hút nhiều nhà phát triển hơn hầu hết các nền tảng khác. Eliza được hưởng lợi từ một số hiệu ứng mạng lưới rất rõ ràng, ít nhất là trong ngắn hạn. Framework này được viết bằng TypeScript, một ngôn ngữ hoàn thiện được cả người mới bắt đầu và nhà phát triển có kinh nghiệm sử dụng, điều này càng làm tăng thêm sự phổ biến của nó.
Eliza còn nổi bật với nội dung giáo dục phong phú và các hướng dẫn dành cho các nhà phát triển sử dụng nền tảng này.
Chúng tôi đã thấy nhiều tác nhân sử dụng nền tảng Eliza, bao gồm Spore, Eliza (tác nhân) và Pillzumi. Phiên bản mới của khung Eliza dự kiến sẽ được phát hành trong những tuần tới.
Cách tiếp cận của Rig về cơ bản khác với Eliza. Sản phẩm nổi bật với lõi mạnh mẽ, nhẹ và hiệu suất cao. Nó hỗ trợ nhiều kiểu lý luận khác nhau, bao gồm chuỗi gợi ý (áp dụng gợi ý theo trình tự), phối hợp (phối hợp nhiều tác nhân), logic có điều kiện và song song (thực hiện các hoạt động đồng thời).
Tuy nhiên, bản thân Rig không được tích hợp đầy đủ. Thay vào đó, cần có một cách tiếp cận khác mà nhóm nghiên cứu gọi là “bắt tay Arc”. Tại đây, nhóm Arc hợp tác với nhiều nhóm chất lượng cao khác trong Web2 và Web3 để mở rộng chức năng của Rig. Một số sự hợp tác này bao gồm hợp tác với Soulgraph về tính cách của đại lý và với Listen và Solana Agent Kit về khả năng của blockchain.
Tuy nhiên, Rig có hai nhược điểm. Đầu tiên, nó được viết bằng Rust, một ngôn ngữ có hiệu suất cực cao nhưng lại khá quen thuộc với số ít nhà phát triển. Thứ hai, chúng tôi chỉ thấy một số lượng hạn chế các tác nhân do Rig điều khiển trong các ứng dụng thực tế (AskJimmy là một ngoại lệ), điều này khiến việc đánh giá mức độ áp dụng thực sự của các nhà phát triển trở nên khó khăn.
Trước khi bắt đầu Daydreams, nhà sáng lập lordOfAFew là người đóng góp chính cho nền tảng Eliza. Điều này giúp ông thấy được sự phát triển của khuôn khổ này và quan trọng hơn là một số nhược điểm của nó. Daydreams khác với các khuôn khổ khác ở chỗ nó tập trung vào lý luận chuỗi suy nghĩ để giúp các tác nhân đạt được các mục tiêu dài hạn. Điều này có nghĩa là khi được giao một mục tiêu phức tạp và cấp cao, tác nhân sẽ thực hiện lý luận nhiều bước, đề xuất nhiều hành động khác nhau, chấp nhận hoặc loại bỏ chúng dựa trên việc chúng có giúp đạt được mục tiêu hay không và tiếp tục quá trình này để đạt được tiến triển. Điều này làm cho các tác nhân được tạo ra bằng Daydreams thực sự có tính tự chủ.
Bối cảnh của những người sáng lập trong việc xây dựng các dự án trò chơi đã ảnh hưởng đến cách tiếp cận này. Trò chơi, đặc biệt là trò chơi trên chuỗi, là môi trường lý tưởng để đào tạo các tác nhân và kiểm tra khả năng của họ. Không có gì ngạc nhiên khi một số trường hợp sử dụng ban đầu cho các tác nhân Daydreams nằm trong các trò chơi như Pistols, Istarai và PonziLand.
Khung này cũng có chức năng triển khai quy trình làm việc phối hợp và cộng tác đa tác nhân mạnh mẽ.
Tương tự như Daydreams, Pippin cũng là một game mới ra mắt trong dòng game này. Chúng tôi sẽ trình bày chi tiết về buổi ra mắt trong bài viết này. Cốt lõi trong tầm nhìn của Yohei là cho phép các tác nhân trở thành “sự hiện diện kỹ thuật số” có thể hoạt động một cách thông minh và tự chủ khi được tiếp cận các công cụ phù hợp. Tầm nhìn này được phản ánh trong cốt lõi đơn giản nhưng thanh lịch của Pippin. Chỉ với một vài dòng mã, bạn có thể tạo ra một tác nhân tinh vi có thể chạy tự động và thậm chí có thể tự viết mã cho chính nó. Nhược điểm của nền tảng này là nó thiếu cả những tính năng cơ bản như nhúng vector hỗ trợ và quy trình làm việc RAG. Nó cũng khuyến khích các nhà phát triển sử dụng thư viện Composio của bên thứ ba cho hầu hết các tích hợp. Nó đơn giản là không hoàn thiện như các khuôn khổ khác đã được thảo luận cho đến nay.
Một số proxy được xây dựng bằng Pippin bao gồm Ditto và Telemafia.
Zerepy có triển khai cốt lõi tương đối đơn giản. Nó sẽ chọn một tác vụ từ một tập hợp các tác vụ đã được cấu hình và thực hiện tác vụ đó khi cần. Tuy nhiên, nó thiếu các mô hình lý luận phức tạp như lập kế hoạch theo mục tiêu hoặc theo chuỗi suy nghĩ.
Mặc dù hỗ trợ các lệnh gọi suy luận tới nhiều LLM, nhưng nó lại thiếu bất kỳ chức năng nhúng hoặc triển khai RAG nào. Nó cũng thiếu bất kỳ nguyên lý nào cho bộ nhớ hoặc sự phối hợp giữa nhiều tác nhân.
Việc thiếu chức năng cốt lõi và tích hợp này được phản ánh trong việc áp dụng Zerepy. Chúng tôi vẫn chưa thấy bất kỳ tác nhân thực tế nào trực tuyến sử dụng khuôn khổ này.

Xây dựng bằng các khung
Nếu tất cả những điều này nghe có vẻ mang tính kỹ thuật và lý thuyết, chúng tôi không trách bạn. Một câu hỏi đơn giản hơn là "tôi có thể xây dựng loại tác nhân nào bằng cách sử dụng các khuôn khổ này mà không cần phải tự viết một loạt mã?".
Để đánh giá các khuôn khổ này trong thực tế, chúng tôi đã xác định năm loại tác nhân phổ biến mà các nhà phát triển thường muốn xây dựng. Chúng đại diện cho nhiều mức độ phức tạp khác nhau và kiểm tra nhiều khía cạnh khác nhau của chức năng của từng khuôn khổ.
Trình trò chuyện tài liệu: Kiểm tra chức năng cốt lõi của RAG bao gồm xử lý tài liệu, duy trì ngữ cảnh, độ chính xác của tham chiếu và quản lý bộ nhớ. Bài kiểm tra này cho thấy khả năng của khuôn khổ trong việc thu hẹp khoảng cách giữa hiểu biết tài liệu thực sự và việc khớp mẫu đơn giản.
Chatbot: Đánh giá hệ thống bộ nhớ và tính nhất quán của hành vi. Khung này phải duy trì các đặc điểm tính cách nhất quán, ghi nhớ thông tin chính trong các cuộc trò chuyện và cho phép cấu hình tính cách, về cơ bản là biến một chatbot không có trạng thái thành một thực thể kỹ thuật số bền bỉ.
Bot giao dịch trên chuỗi: Kiểm tra khả năng tích hợp bên ngoài bằng cách xử lý dữ liệu thị trường theo thời gian thực, thực hiện giao dịch xuyên chuỗi, phân tích tâm lý xã hội và triển khai các chiến lược giao dịch. Điều này cho thấy cách thức khuôn khổ xử lý cơ sở hạ tầng blockchain phức tạp và kết nối API.
NPC trong trò chơi: Mặc dù thế giới chỉ mới bắt đầu chú ý đến các tác nhân trong năm ngoái, các tác nhân đã đóng vai trò quan trọng như các nhân vật không phải người chơi (NPC) trong trò chơi trong nhiều thập kỷ. Các tác nhân trò chơi đang chuyển đổi từ các tác nhân dựa trên quy tắc sang các tác nhân thông minh được điều khiển bởi LLM và vẫn là trường hợp sử dụng chính cho khuôn khổ này. Ở đây, chúng tôi kiểm tra khả năng của tác nhân trong việc hiểu môi trường xung quanh, suy luận về các tình huống một cách độc lập và đạt được các mục tiêu dài hạn.
Trợ lý giọng nói: Đánh giá quá trình xử lý thời gian thực và trải nghiệm của người dùng thông qua xử lý giọng nói, thời gian phản hồi nhanh và tích hợp nền tảng nhắn tin. Kiểm tra này nhằm xem liệu khuôn khổ có thể hỗ trợ các ứng dụng thực sự tương tác hay không, chứ không chỉ là mô hình yêu cầu-phản hồi đơn giản.
Chúng tôi cho mỗi khung điểm trên 5 cho từng loại tác nhân. Sau đây là cách chúng hoạt động:

Số liệu nguồn mở

Khi đánh giá các khuôn khổ này, hầu hết các phân tích đều chú trọng nhiều vào số liệu GitHub, chẳng hạn như số sao và số nhánh. Ở đây chúng ta sẽ nhanh chóng tìm hiểu các số liệu này là gì và chúng phản ánh chất lượng của khuôn khổ như thế nào.
Ngôi sao là dấu hiệu rõ ràng nhất của sự nổi tiếng. Về cơ bản, chúng là những dấu trang mà nhà phát triển đánh dấu cho những mục họ thấy thú vị hoặc muốn theo dõi. Mặc dù số lượng sao cao cho thấy mức độ nhận biết và quan tâm rộng rãi, nhưng nó cũng có thể gây hiểu lầm. Đôi khi các dự án tích lũy được số sao thông qua tiếp thị hơn là giá trị kỹ thuật. Hãy coi các ngôi sao như bằng chứng xã hội chứ không phải là thước đo chất lượng.
Số lượng nhánh cho bạn biết có bao nhiêu nhà phát triển đã tạo bản sao cơ sở mã của riêng họ để xây dựng dựa trên đó. Số lượng nhánh lớn hơn thường chỉ ra rằng các nhà phát triển đang tích cực sử dụng và mở rộng dự án. Tuy nhiên, nhiều nhánh cuối cùng vẫn bị hủy bỏ, do đó số lượng nhánh thô cần có bối cảnh cụ thể.
Số lượng người đóng góp cho biết có bao nhiêu nhà phát triển thực sự đã gửi mã cho dự án. Điều này thường có ý nghĩa hơn là đánh dấu sao hoặc phân nhánh. Số lượng người đóng góp thường xuyên cho thấy dự án có một cộng đồng tích cực duy trì và cải thiện dự án.
Chúng tôi đã tiến thêm một bước nữa và thiết kế chỉ số riêng của mình - điểm số của người đóng góp. Chúng tôi đánh giá lịch sử công khai của từng nhà phát triển, bao gồm những đóng góp trước đây của họ cho các dự án khác, tần suất hoạt động và mức độ phổ biến của tài khoản của họ để chấm điểm cho từng cộng tác viên. Sau đó, chúng tôi tính trung bình tất cả những người đóng góp cho một dự án và đánh giá họ theo số lượng đóng góp của họ.
Những con số này có ý nghĩa gì đối với khuôn khổ của chúng ta?
Trong hầu hết các trường hợp, số lượng ngôi sao là không đáng kể. Chúng không phải là chỉ số có ý nghĩa về việc áp dụng. Ngoại lệ ở đây là Eliza, từng có thời điểm trở thành kho lưu trữ thịnh hành số 1 của tất cả các dự án trên GitHub, phù hợp với quan điểm Schelling của tất cả AI tiền điện tử. Ngoài ra, các nhà phát triển nổi tiếng như 0xCygaar cũng đã đóng góp cho dự án. Điều này cũng được phản ánh qua số lượng người đóng góp – gấp 10 lần so với các dự án khác – mà Eliza thu hút được.
Ngoài ra, Daydreams còn hấp dẫn chúng tôi đơn giản vì nó thu hút được nhiều nhà phát triển chất lượng cao. Là một công ty ra mắt sau thời kỳ đỉnh cao của sự cường điệu, công ty này không được hưởng lợi từ hiệu ứng mạng lưới của Eliza.
Tiếp theo là gì?
Nếu bạn là một nhà phát triển, chúng tôi hy vọng ít nhất đã cung cấp cho bạn điểm khởi đầu để lựa chọn khuôn khổ nào để xây dựng (nếu bạn cần). Ngoài ra, bạn vẫn phải nỗ lực kiểm tra xem lý luận cốt lõi và sự tích hợp của từng khuôn khổ có phù hợp với trường hợp sử dụng của bạn hay không. Điều này là không thể tránh khỏi.
Theo quan điểm của người quan sát, điều quan trọng cần nhớ là tất cả các khuôn khổ tác nhân AI này đều mới ra đời chưa đến ba tháng. (Đúng vậy, cảm giác như lâu hơn.) Trong thời gian đó, họ đã chuyển từ trạng thái cực kỳ được quảng cáo rầm rộ sang được gọi là “lâu đài trên không”. Đó là bản chất của công nghệ. Bất chấp sự biến động này, chúng tôi tin rằng không gian này là một thử nghiệm mới thú vị và lâu dài trong lĩnh vực tiền điện tử.
Điều quan trọng tiếp theo là các khuôn khổ này sẽ trưởng thành như thế nào về mặt công nghệ và kiếm tiền.
Về mặt công nghệ, lợi thế lớn nhất mà khuôn khổ này có thể tạo ra cho chính nó là cho phép các tác nhân tương tác liền mạch trên chuỗi. Đây là lý do hàng đầu khiến các nhà phát triển chọn nền tảng mã hóa gốc thay vì nền tảng chung. Hơn nữa, công nghệ tác nhân và xây dựng tác nhân là những vấn đề kỹ thuật tiên tiến trên toàn thế giới, với những phát triển mới diễn ra mỗi ngày. Khung này cũng phải tiếp tục phát triển và thích ứng với những tiến bộ này.
Điều thú vị hơn nữa là cách thức kiếm tiền từ khuôn khổ này. Vào những ngày đầu này, việc tạo ra một bệ phóng lấy cảm hứng từ Virtuals là mục tiêu dễ đạt được của dự án. Nhưng chúng tôi nghĩ rằng vẫn còn nhiều chỗ để thử nghiệm ở đây. Chúng ta đang hướng tới tương lai với hàng triệu đại lý chuyên về mọi lĩnh vực có thể tưởng tượng được. Các công cụ giúp họ phối hợp hiệu quả có thể thu được giá trị to lớn từ phí giao dịch. Với tư cách là cổng thông tin cho các nhà xây dựng, các khuôn khổ chắc chắn phù hợp nhất để nắm bắt những giá trị này.
Đồng thời, việc kiếm tiền từ các khuôn khổ cũng ngụy trang thành vấn đề kiếm tiền từ các dự án nguồn mở và khen thưởng những người đóng góp, những người trước đây làm công việc miễn phí và không được đánh giá cao. Nếu một nhóm có thể giải mã cách tạo ra nền kinh tế nguồn mở bền vững trong khi vẫn duy trì được bản chất cốt lõi của nó, tác động sẽ vượt xa khuôn khổ của cơ quan.
Đây là những chủ đề mà chúng tôi hy vọng sẽ khám phá trong những tháng tới.