作者:Chris Dixon,a16z crypto创始人;Elizabeth Harkavy,a16z crypto合伙人;翻译:金色财经xiaozou
现代人工智能系统不仅依赖于算力和算法,更离不开人类反馈。企业采用人类反馈强化学习(RLHF)和直接偏好优化(DPO)等训练后(post-training)优化技术来改进模型。这些技术能减少偏见,使模型对提示词作出更高质量、更连贯的响应——这对加速AI发展至关重要。模型评估同样关键,但只有先界定何为"更好",才能实现模型优化。
挑战由此产生:企业不愿共享——他们将数据和训练流程视为机密。这导致AI模型评估只能依赖封闭系统的有限信息,或是脱离实际应用的静态基准测试,严重制约了模型的改进空间。用户也处于信息盲区,既不清楚自己的反馈如何影响模型,甚至连反馈是否被采用都无法确认。部分模型排行榜和众包平台试图改善透明度,但通常既不支持用户追溯自身贡献,也不提供实质参与回报。那些宣称公平透明的平台,往往依赖诚信而非可执行标准。
我们相信加密技术能为这个AI灰色地带带来透明度和所有权。区块链既能帮助贡献者便捷获取奖励,又能为AI开发者提供反馈数据质量和来源的可靠保证。用户获得激励,开发者获得可信数据,所有人都能在这个开放市场中实现双向审计。为此我们领投了消费级产品Yupp的3300万美元种子轮,该平台让每个人都能免费探索和对比最新AI模型。
Yupp采用众包模式进行模型评估:用户输入提示词,并行查看多个AI生成的响应,然后选出最佳答案。他们的选择会生成带有数字签名的偏好数据"数据包",这些数据对AI训练后优化和评估极具价值。用户不仅能免费使用最新模型,还能根据提供的反馈获得奖励。
Yupp的设计将人类判断转化为可再生的经济资源。随着新交互数据的产生,旧数据会"过期",从而形成自然飞轮:更多采用带来更新鲜的评估;更新鲜的评估催生更优质的模型;更优质的模型吸引更多使用。所有参与者——无论是普通用户还是AI模型开发者——都能加入其中,并看到适用于所有人的透明规则,确保市场保持可信的中立性。无人能隐藏得分,也无人能操纵奖励或结果。
创始团队兼具AI与加密领域的深厚经验。他们曾在推特早期共同开发过面向消费者的机器学习产品。Pankaj Gupta曾任Google Pay和Coinbase的全球消费端工程负责人,Gilad Mishne曾是GoogleX的机器学习负责人。初创团队汇聚了来自谷歌、Coinbase及顶尖实验室的高级工程师。
AI需要基于大规模人类输入的强健可靠评估体系,而加密技术正是实现这一目标的信任机器。通过让全球用户贡献改进模型的反馈,Yupp致力于成为未来AI的基础评估层。我们很荣幸能支持Yupp,并期待协助他们构建链上反馈闭环,确保AI创新的成果由所有建设者共享。