大家都在说 AI Agent,但是大家所说的并不是同一个东西,这导致我们所关心的 AI Agent 和大众视角下,以及 AI 从业者的视角都有所不同。
许久之前,我曾写过 Crypto 是 AI 的幻觉,从那时到现在,Crypto 和 AI 的结合一直是一场单相思,AI 从业者甚少提及 Web3/区块链这些术语,而 Crypto 从业者却对 AI 的一往情深,而在见识到 AI Agent 框架都能被代币化的奇景后,不知道能否真正将 AI 从业者引入我们的世界。
AI 是 Crypto 的代理人,这是从加密视角本位去看待本轮 AI 狂飙的最佳注释,Crypto 对 AI 的狂热不同于其他行业,我们特别希望能将金融资产的发行和运作与之嵌合。
Agent 进化,技术营销下的本源
究其根源,AI Agent 至少有三种源流,而 OpenAI 的 AGI(通用人工智能)将其列为重要一步,让该词成为超越技术层面的流行语,但是本质上 Agent 并不是新鲜概念,即使加上 AI 赋能,也很难说是革命性的技术趋势。
其一便是 OpenAI 眼中的 AI Agent,类似自动驾驶分级中的 L3,AI Agent 可以视作具备一定的高阶辅助驾驶能力,但是还不能完全取代人。
其三,Crypto 领域的意图(Intent)概念是 AI Agent 圈内爆火的先导,不过要注意,这仅在 Crypto 内部有效,从功能残缺的比特币脚本到以太坊智能合约,本身就是 Agent 概念的泛用,而后催生的跨链桥--链抽象、EOA--AA 钱包都是此类思路的自然延伸,所以在 AI Agent “入侵” Crypto 之后,导向 DeFi 场景也就不足为奇。
这就是 AI Agent 概念的混淆之处,在 Crypto 的语境下,我们实际上想实现的是“自动理财、自动打新 Meme”的 Agent,但是在 OpenAI 的定义下,这么危险的场景甚至需要 L4/L5 才能真正实现,然后大众在把玩的是代码自动生成或者 AI 一键总结、代写等功能,双方交流并不在一个维度。
理解了我们真正想要的是什么,接下来重点聊聊 AI Agent 的组织逻辑,技术细节会隐藏其后,毕竟 AI Agent 的代理概念就是将技术从大规模普及的障碍前移除,一如浏览器对个人 PC 产业的点石成金,所以我们的重心会在两点上:从人机交互看 AI Agent ,以及 AI Agent 和 LLM 的区别和联系,以此引出第三部分:Crypto 和 AI Agent 的结合最终会留下什么。
人和机器需要互相理解,如果我们让多个 LLM 相互理解和协作,本质上已经是在触及 AI Agent 的运作模式,即人的代理去调用其他资源,甚至可以包括大模型和其他 Agent。
由此,我们掌握了 LLM 和 AI Agent 的联系:LLM 是一系列知识的汇总,人类可以通过对话窗口与之交流,但是在实践中,我们发现一些特定的任务流可以被归纳为特定的小程序、Bot、指令集合,我们就把这些定义为 Agent。
AI Agent 依然是 LLM 的一部分,两者不能等同视之,而 AI Agent 的调用方式在 LLM 的基础上,特别强调对外部程序、LLM 和其他 Agent 的协同,所以才有 AI Agent = LLM+API 的感慨。
那么,在 LLM 的工作流上,可以添加 AI Agent 的说明,我们以调用 X 的 API 数据为例:
人类用户打开聊天窗口;
用户使用自然语言,即文字或语音描述自己的需要;
LLM 将其解析为 API 调用类 AI Agent 任务,并将对话权限转移给该 Agent;
AI Agent 询问用户 X 账号和 API 密码,并根据用户描述与 X 联网通信;
AI Agent 将最终结果返回给用户。
还记得人机交互的进化史吗,在 Web 1.0 和 Web 2.0 存在的浏览器、API 等依然会存在,但是用户完全可以无视其存在,只需要跟 AI Agent 交互即可,而 API 调用等过程都可以用对话方式使用,而这些 API 服务可以是任意类型,包括本地的数据,联网信息,以及外部 App 的数据,只要对方开放接口,并且用户具备其使用权限。
一个完整的 AI Agent 使用流程如上图,LLM 在其中可以视作和 AI Agent 分离的部分,也可以视为一个过程的两个子环节,但是无论如何划分,都是在服务用户的需求。
从人机交互的过程来看,甚至是用户自己跟自己在对话,你只需尽情表达自己的所思所想,AI/LLM/AI Agent 会一次次的猜测你的需要,反馈机制的加入,以及要求 LLM 对当前情景上下文(Context)的记忆,可以确保 AI Agent 不会突然忘记自己在干什么。
总之,AI Agent 是更具人格化的产物,这是其和传统的脚本、自动化工具的本质区别,就像一个私人管家一样去为用户考虑真实需求,但是必须指出,这种人格依然是一种概率推测的结果,L3 级别的 AI Agent 没有人类的理解和表达能力,因此将其和外部 API 的对接充满着危险。
AI 框架货币化之后
AI 框架竟然能货币化是我对 Crypto 保持兴趣的重要原因,在传统的 AI 技术堆栈中,框架并不十分重要,至少比不上数据和算力,而 AI 产品的变现方式也很难从框架入手,毕竟大部分 AI 算法和模型框架都是开源产品,真正闭源的是数据等敏感信息。
原因并不复杂,Web3 的 AI 产品基本都是拾人牙慧,都是在已有的 AI 框架、算法和产品上改进出自己的定制化产品,甚至不同的 Crypto AI 框架背后的技术原理都相差不大,既然技术上无法区分,就需要在名称、应用场景等方面做文章,于是 AI 框架本身的某些细微调整都成了不同代币的支撑,因此造成了 Crypto AI Agent 的框架泡沫。