来源:AI范儿
8位谷歌员工偶然相遇,共同撰写了开创性的“变换器”论文,这一技术突破彻底改变了人工智能领域,尤其在理解和生成类似人类的文本方面。
2017年春,一篇名为《Attention Is All You Need》的科学论文诞生,其上署名的八位作者均来自谷歌,尽管当时已有一名成员离职。资深作者Noam Shazeer在看到初稿时,意外地发现自己的名字排在首位,这似乎意味着他的贡献最为重要。对此,他表示:“我并没有刻意考虑过这个问题。”
在学术界,如何排列作者名字一直是个微妙的平衡问题——谁的名字放在最前面,谁的又放在最后。尤其是在这种每个人都在一个真正的团队合作中留下了独特印记的情况下。在匆忙完成论文的过程中,研究团队最终决定打破常规,不再对贡献者进行排名。他们在每个名字旁加上了星号和脚注:“平等贡献者”,并注明“排名顺序是随机的”。这篇论文随后被提交到了一个享有盛誉的人工智能会议,并在那里引发了一场革命。
姓名:NOAM SHAZEER / 职业:角色AI的联合创始人兼首席执行官
如今,随着“Attention”论文即将迎来七周年,它已经获得了传奇般的地位。这篇论文的作者们从一个蓬勃发展的人工智能技术——神经网络——出发,将其提升到了一个新的高度:他们创造出了一个数字系统,其强大到仿佛拥有外星智能。这种被称为“变换器”(transformers)的架构,成为了所有令人惊叹的AI产品背后的神秘力量,包括ChatGPT以及图形生成器Dall-E和Midjourney等。
Shazeer开玩笑说,如果他早知道这篇论文会变得如此著名,他“可能会更加担心作者名单的排序”。如今,所有八位作者都已经成为了微型名人。Llion Jones(随机排在第五位)说:“有人因为我曾经参与过一篇论文而向我索要自拍。”
姓名:LLION JONES/职业:SAKANA AI的联合创始人
“没有变换器,我认为我们今天不会在这里,”世界著名AI科学家Geoffrey Hinton说,尽管他并非论文的作者。他指的是我们所处的这个变革时代,OpenAI等公司正在构建的系统在某些方面甚至超越了人类的产出。
这八位作者后来都离开了谷歌。现在,他们和数百万人一样,都在以某种方式使用他们2017年创造的技术。我采访了这八位“变换器”作者,试图拼凑出这一突破性成果的全貌——一群人类智慧的集合,创造出了一台可能最终自我终结的机器。
变换器的故事始于名单上的第四个名字:Jakob Uszkoreit。他的父亲Hans Uszkoreit是一位知名的计算语言学家。Hans在1960年代末因抗议苏联入侵捷克斯洛伐克而在东德被监禁了15个月。出狱后,他逃到西德,并在柏林学习计算机和语言学。后来他来到美国,在加利福尼亚州门洛帕克的SRI研究所工作,那时Jakob出生了。最终,他们一家回到了德国,Jakob在那里上了大学。
姓名:JAKOB USZKOREIT / 职业:INCEPTIVE的联合创始人兼首席执行官
尽管他原本并未打算专注于语言,但在开始研究生学习时,他在谷歌的山景城办公室实习,并加入了公司的翻译团队。他放弃了博士计划,2012年决定加入谷歌一个团队,该团队致力于开发一个能够在搜索页面上直接回答用户问题的系统,而无需将用户重定向到其他网站。当时,苹果刚刚发布了Siri,一个承诺能在随意对话中提供一次性答案的虚拟助手,谷歌高层认为Siri可能会威胁到他们的搜索流量。他们开始更加关注Uszkoreit的新团队。
“这是一场虚假的恐慌,”Uszkoreit说。Siri并没有真正威胁到谷歌。但他欢迎有机会深入研究计算机与人类对话的系统。当时,循环神经网络——一度是学术界的边缘领域——突然开始超越其他AI工程方法。这些网络由多层构成,信息在这些层中反复传递,以识别最佳响应。
神经网络在图像识别等领域取得了巨大成功,AI复兴运动突然兴起。谷歌正在疯狂地调整其劳动力结构,以采用这些技术。公司希望建立能够产生类似人类响应的系统——比如在电子邮件中自动完成句子,或创建相对简单的客户服务聊天机器人。
然而,这个领域遇到了限制。循环神经网络难以处理较长的文本块。例如,理解句子“Joe is a baseball player, and after a good breakfast he went to the park and got two hits”中的“two hits”,语言模型需要记住关于棒球的信息。用人类的话说,它必须保持关注。
当时的解决方案是一种名为“长短期记忆”(LSTM)的技术,它允许语言模型处理更大、更复杂的文本序列。但计算机仍然严格按顺序处理这些序列——逐词处理——并忽略了可能出现在文本后面的上下文线索。“我们正在应用的方法基本上是权宜之计,”Uszkoreit说。“我们无法真正让正确的东西按规模工作。”
大约在2014年,他开始构思一种不同的方法,他称之为自我关注。这种网络可以通过引用文本的任何其他部分来翻译一个词。这些其他部分可以帮助澄清一个词的意图,并帮助系统产生一个好的翻译。“它实际上考虑了一切,并为你提供了一种同时查看许多输入的有效方式,然后以相当选择性的方式取出一些东西,”他说。尽管AI科学家小心翼翼地不将神经网络的隐喻与生物大脑的实际工作方式混淆,但Uszkoreit似乎相信自我关注与人类处理语言的方式有些相似。
Uszkoreit认为,自我关注模型可能比循环神经网络更快、更有效。它处理信息的方式也非常适合支持机器学习热潮的大规模生产的并行处理芯片。它不是采用线性方法(按顺序查看每个词),而是采用更并行的方法(同时查看多个词)。如果做得正确,Uszkoreit怀疑,你可以专门使用自我关注来获得更好的结果。
并不是每个人都认为这个想法会改变世界,包括Uszkoreit的父亲,他在儿子为公司工作期间获得了两项谷歌教职研究奖。“人们对此表示怀疑,因为它抛弃了所有现有的神经架构,”Jakob Uszkoreit说。告别循环神经网络?这是异端!“我和爸爸在餐桌上的对话中,我们并不完全一致。”
Uszkoreit说服了一些同事对自我关注进行实验。他们的工作显示出前景,并在2016年发表了一篇关于它的论文。Uszkoreit希望将他们的研究推向更远——团队的实验只使用了文本的微小部分——但他的合作者都没有兴趣。相反,他们像赌徒一样,带着适度的胜利离开了赌场,将他们所学到的教训应用于谷歌的各个不同领域,包括搜索和最终的广告。在许多方面,这是一个惊人的成功,但Uszkoreit不想就此止步。
Uszkoreit认为自我关注可以承担更大的任务。他会向任何愿意倾听的人,甚至一些不愿意的人,阐述他的愿景,并在谷歌校园北缘的查尔斯顿路1945号大楼中,用白板勾勒出他的愿景。
2016年的一天,Uszkoreit正在谷歌咖啡厅与一位名叫Illia Polosukhin的科学家共进午餐。出生于乌克兰的Polosukhin在谷歌工作了将近三年。他被分配到回答搜索领域直接提出的问题的团队。情况并不十分顺利。“要在Google.com上回答某些东西,你需要一些非常便宜且高性能的东西,”Polosukhin说。“因为你只有毫秒级的时间来响应。”当Polosukhin表达了他的抱怨时,Uszkoreit毫不犹豫地提出了一个解决方案。“他建议,为什么不使用自我关注?”Polosukhin说。
姓名:ILLIA POLOSUKHIN/职业:NEAR的联合创始人
Polosukhin有时与同事Ashish Vaswani合作。Vaswani出生在印度,在中东长大,他去了南加州大学获得了机器翻译精英团队的博士学位。之后,他搬到山景城加入了谷歌——特别是一个名为谷歌大脑(Google Brain)的新组织。他将大脑描述为“一个激进的团队”,相信“神经网络将推进人类理解”。但他仍在寻找一个大项目来工作。他的团队在1945号大楼旁边,即1965号大楼工作,他听说了自我关注的想法。那会是项目吗?他同意着手进行。
这三位研究人员共同起草了一份名为“变换器:迭代自我关注和处理各种任务”的设计文件。他们从“第一天”起就选择了“变换器”这个名字,Uszkoreit说。这个想法是,这种机制将转换它所接收的信息,使系统能够提取尽可能多的理解——或者至少给人这种印象。此外,Uszkoreit对童年时期与孩之宝动作人物玩具一起玩耍有着美好的回忆。“我小时候有两个小变形金刚玩具,”他说。文件以一张卡通形象的六个变形金刚在山区地形中,相互发射激光的图片结束。
姓名:ASHISH VASWANI/职业:ESENTIAL AI的联合创始人兼首席执行官
论文开头的句子也有些自大:“我们很棒。”
2017年初,Polosukhin离开谷歌创办了自己的公司。到那时,新的合作者加入了进来。一位名叫Niki Parmar的印度工程师曾在印度为一家美国软件公司工作,后来搬到美国。她在2015年从南加州大学获得了硕士学位,并被所有大型科技公司招募。她选择了谷歌。当她开始工作时,她加入了Uszkoreit并致力于改进谷歌搜索的模型变体。
另一位新成员是Llion Jones。他在威尔士出生和长大,他喜欢计算机“因为它不正常”。在伯明翰大学,他上了一门AI课程,并对作为历史遗迹介绍的神经网络产生了好奇心。他在2009年7月获得了硕士学位,由于在经济衰退期间找不到工作,他靠救济金生活了几个月。他在一家当地公司找到了工作,然后作为“绝望之举”申请了谷歌。他得到了这份工作,并最终进入了谷歌研究部门,他的经理是Polosukhin。
有一天,Jones从名叫Mat Kelcey的同事那里听说了自我关注的概念,并后来加入了变换器团队。(后来,Jones遇到了Kelcey,并向他简要介绍了变换器项目。Kelcey并不买账。“我告诉他,‘我不确定那会有效,’这基本上是我一生中最大的错误预测,”Kelcey现在说。)
姓名:NIKI PARMAR / 职业:ESSENTIAL AI的联合创始人
变换器的工作吸引了其他也在试图改进大型语言模型的谷歌大脑研究人员。这第三波包括出生于波兰的理论计算机科学家Łukasz Kaiser和他的实习生Aidan Gomez。Gomez在加拿大安大略省的一个小农场村庄长大,他的家人每年春天都会为枫糖浆敲击枫树。
作为多伦多大学的大三学生,他对AI“一见钟情”,加入了机器学习小组——Geoffrey Hinton的实验室。他开始联系在谷歌写过有趣论文的人,提出扩展他们工作的想法。Kaiser上钩了,并邀请他实习。直到几个月后,Gomez才知道这些实习是为博士生准备的,而不是像他这样的本科生。
Kaiser和Gomez很快意识到,自我关注看起来是解决他们正在解决的问题的一个有前途的、更激进的方案。“我们有意识地讨论了是否想要合并这两个项目,”Gomez说。答案是是的。
变换器团队开始构建一个自我关注模型,将文本从一种语言翻译成另一种语言。他们使用一个称为BLEU的基准来衡量其性能,该基准将机器的输出与人类翻译者的工作进行比较。从一开始,他们的新模型就做得很好。“我们从没有概念证明到拥有至少与当时LSTM的最佳替代方法相媲美的东西,”Uszkoreit说。但与长短期记忆相比,“它并不更好。”
他们达到了一个平台——直到2017年的一天,Noam Shazeer偶然听说了他们的项目。Shazeer是一位资深谷歌员工——他于2000年加入公司——并是一个内部传奇,从他在公司早期广告系统的工作开始。Shazeer已经从事深度学习工作五年,最近对大型语言模型产生了兴趣。但这些模型远远没有产生他认为可能的流畅对话。
据Shazeer回忆,他正在1965号楼的走廊里走过Kaiser的工作区。他发现自己在听一场热烈的讨论。“我记得Ashish正在谈论使用自我关注的想法,Niki对此非常兴奋。我想,哇,那听起来是个好主意。这看起来是一个有趣、聪明的团队,正在做一些有前途的事情。”Shazeer发现现有的循环神经网络“令人恼火”,并想:“让我们去替换它们!”
Shazeer加入团队是关键。“这些理论或直觉机制,如自我关注,总是需要非常谨慎的实施,通常由少数经验丰富的‘魔术师’来展示任何生命迹象,”Uszkoreit说。Shazeer立即开始施展他的魔法。他决定自己编写变换器团队代码的版本。“我拿了基本想法,自己把它做出来了,”他说。
偶尔他会向Kaiser提问,但大多数时候,他说,他“只是做了一段时间,然后回来说,‘看,它工作了。’”使用团队成员后来用“魔法”、“炼金术”和“铃铛和哨子”等词语描述的东西,他将系统提升到了一个新的水平。
“那引发了一场冲刺,”Gomez说。他们有动力,他们也想要赶上即将到来的截止日期——5月19日,这是在12月举行的年度最大AI活动,神经信息处理系统会议(Neural Information Processing Systems conference)上发表论文的提交日期。随着硅谷的冬天转变成春天,实验的步伐加快了。他们测试了两种变换器模型:一种是用12小时训练生产的,另一种是更强大、被称为Big的版本,经过三天半的训练。他们让它们开始进行英语到德语的翻译。
基本模型超越了所有竞争对手——而Big获得了一个BLEU分数,决定性地打破了以前的记录,同时在计算上也更有效率。“我们做到了,比任何人都快,”Parmar说。“而且那只是开始,因为数字不断在提高。”当Uszkoreit听到这个消息时,他拿出了他在山地探险卡车里一直放着的一瓶老香槟庆祝。
在截止日期前的最后两周,团队的工作节奏变得疯狂。尽管官方上一些团队成员仍然在1945号楼有办公桌,但他们大多在1965号楼工作,因为那里的微型厨房里有一台更好的浓缩咖啡机。“人们几乎不睡觉,”Gomez回忆道,作为实习生,他忙于调试,同时还负责制作论文的可视化和图表。在这类项目中,通常会进行消融实验——移除某些部分以验证剩余部分是否足以完成任务。
“我们尝试了所有可能的技巧和模块组合——哪些有用,哪些无用。我们不断地尝试和替换,”Gomez说。“为什么模型会以这种违反直觉的方式运作?哦,因为我们忘记正确地进行遮蔽。现在它工作了吗?好的,接下来继续下一个。我们现在称之为变换器的所有这些组成部分都是这种高速、迭代试错过程的产物。”在Shazeer的代码实现的帮助下,消融实验产生了“某种简约的成果”,Jones评价道。“Noam是个巫师。”
Vaswani记得有一次在办公室沙发上过夜,当时团队正在撰写论文。他盯着分隔沙发和房间其余部分的窗帘,被上面的图案吸引,那看起来像是突触和神经元。Gomez当时也在场,Vaswani告诉他,他们正在做的工作将超越机器翻译。“最终,就像人脑一样,你需要将所有这些模态——语音、音频、视觉——统一在一个单一的架构下,”他说。“我有一个强烈的预感,我们正在发现一些更普遍的东西。”
然而,在谷歌的高层,这项工作被视为只是另一个有趣的AI项目。作者们被问及他们的上司是否经常召集他们更新项目进展,答案并不多。但“我们知道这可能是相当大的一件事,”Uszkoreit说。“这导致我们实际上对论文末尾的一句话着迷了。”
那句话预示了接下来可能发生的事情——变换器模型应用于基本上所有形式的人类表达。“我们对基于注意力的模型的未来感到兴奋,”他们写道。“我们计划将变换器扩展到涉及除文本以外的输入和输出模态的问题”,并研究“图像、音频和视频。”
在截止日期前几天的一个晚上,Uszkoreit意识到他们需要一个标题。Jones指出,团队已经对一种技术进行了根本性的拒绝:注意力。披头士乐队曾经给一首歌命名为“你需要的只是爱”。为什么不把论文命名为“Attention Is All You Need”呢?
“我是英国人,”Jones说。“这真的只花了五秒钟的思考。我没想到他们会用它。”
他们继续收集实验结果,直到截止日期。Parmar说:“我们提交论文前五分钟,英法数字结果出来了。”“我当时坐在1965号楼的微型厨房里,拿到了最后一个数字。”他们只剩下两分钟的时间,匆忙地发送了论文。
谷歌和其他几乎所有科技公司一样,迅速对这项工作申请了临时专利。原因不是为了阻止他人使用这些想法,而是为了建立其专利组合以用于防御目的。(公司的理念是“如果技术进步,谷歌将收获好处。”)
当变换器团队听到会议同行评审者的反馈时,反应是混合的。“一个是积极的,一个是极其积极的,一个是,‘这还可以,’”Parmar说。论文被接受在晚上的海报环节中展示。
到了12月,论文开始引起轰动。他们12月6日的四小时会议挤满了想要了解更多的科学家。作者们谈到嗓子都哑了。到了晚上10点半,会议结束时,还有一群人。“保安不得不告诉我们离开,”Uszkoreit说。对他来说,最满意的时刻可能是计算机科学家Sepp Hochreiter走上前来赞扬这项工作——考虑到Hochreiter是长短期记忆的共同发明者,这是相当大的赞美,而变换器刚刚将其作为AI工具箱中的首选工具所取代。
变换器并没有立即接管世界,甚至没有接管谷歌。Kaiser回忆说,在论文发表前后,Shazeer向谷歌高管提议,公司应该放弃整个搜索索引,用变换器训练一个巨大的网络——基本上是用变换器改变谷歌组织信息的方式。在那个时候,即使是Kaiser也认为这个想法是荒谬的。现在,传统智慧认为这只是时间问题。
一个名为OpenAI的初创公司更快地抓住了机会。论文发表后不久,OpenAI的首席研究员Ilya Sutskever——在谷歌时期就认识变换器团队——建议其科学家Alex Radford研究这个想法。结果就是第一批GPT产品。正如OpenAI首席执行官Sam Altman去年告诉我的,“当变换器论文出来时,我认为谷歌没有人意识到它的意义。”
内部情况更为复杂。“我们很清楚变换器可以做到真正神奇的事情,”Uszkoreit说。“现在,你可能会问,为什么2018年谷歌没有推出ChatGPT?实际上,我们本可以在2019年,也许2020年就有GPT-3甚至3.5。真正的问题不是,他们看到了吗?问题是,为什么我们没有利用我们已经看到的事实做任何事情?答案是复杂的。”
许多科技评论家指出,谷歌从以创新为中心的游乐场转变为以底线为中心的官僚机构。正如Gomez告诉《金融时报》的那样,“他们没有现代化。他们没有采用这项技术。”但对于一个技术领先行业数十年并获得巨大利润的巨头公司来说,这需要很大的胆量。谷歌确实开始在2018年将变换器集成到产品中,首先是其翻译工具。同年,它引入了一个新的基于变换器的语言模型BERT,第二年开始应用于搜索。
姓名:AIDAN GOMEZ/职业:COHERE的联合创始人兼首席执行官
但与OpenAI的飞跃和微软大胆将基于变换器的系统整合到其产品线相比,这些幕后的变化似乎胆小。当我问首席执行官Sundar Pichai去年为什么他的公司没有像ChatGPT那样首先推出大型语言模型时,他认为在这种情况下,谷歌发现让其他人领先是有利的。“我还不太确定它是否会像现在这样成功。事实是,人们看到它是如何工作的之后,我们能做得更多,”他说。
不可否认的是,论文的八位作者都离开了谷歌。Polosukhin的公司Near建立了一个区块链,其代币市值约为40亿美元。Parmar和Vaswani在2021年成为商业伙伴,共同创立了Adept(估值10亿美元),现在正在运营他们的第二家公司,名为Essential AI(获得800万美元投资)。
位于东京的Llion Jones的Sakana AI估值为2亿美元。Shazeer于2021年10月离开后,共同创立了Character AI(估值50亿美元)。实习生Aidan Gomez在2019年共同创立了位于多伦多的Cohere(估值22亿美元)。Jakob Uszkoreit的生物技术公司Inceptive估值为3亿美元。所有这些公司(除Near外)都基于变换器技术。
姓名:LUKASZ KAISER / 职业:OPENAI的研究员
Kaiser是唯一一个没有创立公司的人。他加入了OpenAI,并成为一项名为Q*的新技术的发明者,Altman去年说这项技术将“推动无知的面纱,并将发现的前沿推向前进。”(当我试图在我们的采访中询问Kaiser关于这个问题时,OpenAI的公关人员几乎跳过桌子来阻止他。)
谷歌是否想念这些逃兵?当然,除了其他人从公司转移到新的AI初创公司。(Pichai提醒我,当我问他关于变换器离职的问题时,行业宠儿OpenAI也看到了叛逃:“AI领域非常、非常动态,”他说。)但谷歌可以夸耀的是,它创造了一个支持追求非传统想法的环境。“在很多方面,谷歌一直领先——他们投资于正确的头脑,并创造了一个我们可以探索和推动极限的环境,”Parmar说。“它花了时间才被采纳并不奇怪。谷歌有更多的利害关系。”
如果没有那个环境:就没有变换器。不仅作者们都是谷歌员工,他们也在同一办公室工作。走廊上的偶遇和午餐时的闲聊导致了重大时刻。该团队在文化上也是多元化的。八位作者中有六位出生在美国以外;另外两位是两位持有绿卡的德国人的孩子,他们暂时在加利福尼亚,以及一位家庭逃离迫害的一代美国人。
Uszkoreit从他在柏林的办公室说,创新都是关于正确的条件。“这是让那些对某事非常兴奋的人在他们生活的合适时机聚集在一起,”他说。“如果你有这个,并且你在做事时有乐趣,你正在处理正确的问题——而且你很幸运——魔法就会发生。”
Uszkoreit和他著名的父亲之间也发生了一些神奇的事情。在所有那些餐桌辩论之后,Hans Uszkoreit,他的儿子报告说,现在共同创立了一家公司,正在构建大型语言模型。当然,使用的是变换器。