来源:有新Newin
在 OpenAI 首次开发者日的发布会上,Sam Altman 阐述了公司一系列重要的进展,不限于 GPT-4 Turbo,这是一个功能更强大、上下文更长、控制更多的新模型,另外还推出了 Assistance API,以简化开发者构建辅助代理的体验,OpenAI 强调了自然语言将成为未来与计算机互动的重要方式,同时也介绍了通过对话编程 GPT 的能力,Altman 宣布了 GPT 商店的即将推出,这将允许用户分享和发现创新的 GPT 应用,并提供收入分享激励。Altman 还谈到了与微软的深化合作,展示了新的文本到语音模型和改进的功能调用,总结下来包括以下几个环节:
GPT-4 Turbo: 新模型推出,上下文长度增加,控制更精准。
Assistance API: 为开发者提供创建辅助代理的简化流程。
自然语言编程: 展示了通过对话创建 GPT 的方法。
GPT 商店: 允许用户分享和发现 GPT 应用,并为创造者提供收入分享。
微软合作: 展示了新的文本到语音模型,以及微软 CEO Satya Nadella 的讲话。
团队感谢: Altman 对 OpenAI 团队的工作表示感谢。
技术展示: 展示了新功能,包括用于旅游应用的演示和语音激活的助手。
以下是 OpenAI 首次开发者日的所有完整内容:
首先,Altman 回顾了去年 11 月 30 日 ChatGPT 作为一个低调的研究预览版发布的情况,并自豪地宣布了 3 月推出的 GPT-4,这是目前世界上最强大的模型。
Altman 还介绍了在过去几个月中为 ChatGPT 引入的语音和视觉功能,使其具备了看、听和说的能力,并宣布了 DALL·E 3 的推出,这是世界上最先进的图像模型,并已整合到 ChatGPT 中。
对企业级客户,OpenAI 推出了 ChatGPT Enterprise,它提供了更高速的 GPT 访问、更长的上下文窗口以及更多的企业级安全性和隐私保护。Altman 揭示了约有 200 万开发者正在使用他们的 API,超过 92% 的财富 500 强公司在构建基于他们产品的解决方案,并且 ChatGPT 现在拥有大约 1 亿周活跃用户。他特别指出,这一成就完全依赖于口碑传播,因为用户发现产品有用并推荐给朋友。他最后指出,尽管数据令人瞩目,但更重要的是人们如何使用这些产品,如何利用 AI,随后展示了一段视频,直观展现了这些进展。
在 OpenAI 的开发者大会上,Sam Altman 通过一段视频给我们呈现了人工智能如何深刻影响人们的个人生活和创造力。视频中的一个案例讲述了一个人使用 ChatGPT 以非浪漫的方式,但又充满尊重和深情,用他父亲的母语——他加禄语——和一个复杂的语法结构告诉父亲他的爱和支持。这个案例展示了 ChatGPT 在理解和应用文化与语言细微差别方面的能力。
Altman 介绍说,ChatGPT 的创造性应用令人惊叹,可以助力创造者扩展思维,增强信心。一个例子是,有人用 ChatGPT 协助他们做日常事务,比如检查冰箱缺少什么,规划素食食谱,甚至是帮助创建电子表格和编写代码;另一个视频中的人物发现了 ChatGPT 的亲和力、耐心、知识渊博和响应速度。对于一个 4.0 的学生兼四个孩子的母亲而言,ChatGPT 能够提供问题的解答及其解释,减少了对家教的依赖,为她赢得了更多和家人以及自己相处的时间。最后,视频中还有一个人讲述了他如何在经历了脊髓和大脑手术后,受限于左手的使用。现在,通过使用 ChatGPT 的语音输入和对话功能,这位用户得到了极大的帮助和便利。这些个案故事一方面体现了 ChatGPT 在提供日常生活帮助、学习支持和克服障碍方面的巨大潜力,另一方面也展示了 AI 如何在全球范围内以前所未有的方式连接和赋能用户。
接着,Sam Altman 分享了人们如何利用他们的技术,并强调这正是他们工作的原因。接着,他宣布了一系列新的进展。Altman 说,他们花了大量时间与全球开发者交流,聆听他们的反馈,这些反馈对今天要展示的内容影响深远。
OpenAI 推出了新型号 GPT-4 Turbo。这个新模型将解决许多开发者提出的需求。他详细介绍了六大更新:首先是上下文长度,GPT-4 支持长达 8000 个 token 的上下文,在某些情况下可以达到 32000 个。而 GPT-4 Turbo 支持长达 128000 个 token 的上下文,相当于标准书籍的 300 页,比 8000 个 token 的上下文长 16 倍。除了更长的上下文长度,这个模型在处理长上下文时的准确性也有了显著提高。
第二个更新是更多的控制权。为满足开发者对模型响应和输出的更多控制需求,他们引入了一个名为 JSON 模式的新功能,确保模型响应有效的 JSON,这将大大简化 API 调用。模型在函数调用方面也有所改进,可以同时调用多个函数,并且更好地遵循指令。他们还引入了一个名为“可复现输出”的新功能,通过传递一个种子参数,可以使模型返回一致的输出,这显然提供了对模型行为更高程度的控制。这个功能目前处于测试阶段。
接下来几周,他们将推出一个新功能,允许在 API 中查看日志探针。第三个更新是更好的世界知识。为了使模型能够访问更准确的世界知识,他们推出了检索功能,允许从外部文档或数据库中提取知识。他们还更新了知识截止日期,GPT-4 Turbo 的世界知识更新到了 2023 年 4 月,并将继续改进。
第四个更新是新的模态,DALL·E 3、GPT-4 Turbo 的视觉功能和新的文本到语音模型今天都进入了 API,已有少数客户开始使用 DALL·E 3 以编程方式生成图像和设计。今天,Coca-Cola 正在启动一个活动,让客户使用 DALL·E 3 生成排灯节贺卡。
当然,他们的安全系统帮助开发者防止应用程序被滥用,这些工具可以在 API 中使用。GPT-4 Turbo 现在可以通过 API 接受图像输入,并生成标题、分类和分析。例如,Miis 使用这项技术帮助盲人或视力低下的人进行日常任务,如识别他们面前的产品。而通过新的文本到语音模型,你将能够在 API 中从文本生成听起来非常自然的音频,有六种预设声音可供选择。
Altman 播放了一个例子,他播放了一个声音示例,展示了他们新的文本到语音模型的自然度。这种声音转换技术使得应用程序的交互更加自然和可访问,并解锁了像语言学习和语音助手等许多用例。
Altman 还宣布了他们的开源语音识别模型 Whisper v3 的下一个版本,并表示它将很快加入 API。这个版本在多种语言上的性能都有所提高,他认为开发者们会非常喜欢。
接着,他讨论了定制化问题。自几个月前推出 GPT 3.5 以来,微调功能表现良好。从今天开始,这将扩展到模型的 16K 版本。他们还邀请积极使用微调的用户申请 GPT-4 微调实验访问计划。微调 API 非常适合在各种应用中通过相对较少的数据来改进模型的性能,无论是学习全新的知识领域还是使用大量专有数据。
第五个更新,Altman 宣布了一个名为“自定义模型”的新计划,OpenAI 的研究人员将与公司密切合作,使用他们的工具为特定用例打造专门的定制模型。这包括修改模型训练过程的每一个步骤,进行特定领域的预训练,定制强化学习后训练过程等。他承认,一开始他们无法与许多公司合作,这将是一项大量的工作,并且至少在初期并不便宜。但如果有企业希望将事物推向目前的极限,请与他们联系。
此外,Altman 宣布了更高的速率限制。他们将为所有现有的 GPT-4 客户的每分钟 token 数量翻倍,使其更容易做更多事情,并且可以直接在 API 账户设置中请求更改进一步的速率限制和配额。除了这些速率限制,他们还引入了版权盾,这意味着如果客户面临版权侵权的法律索赔,OpenAI 将介入保护客户并支付产生的费用。这适用于 ChatGPT Enterprise 和 API。他清楚地提醒大家,他们从不使用来自 API 或 ChatGPT Enterprise 的数据进行训练。
Altman 接着讲到一个比前面所有提及的还要大的开发者请求,那就是定价问题。他宣布 GPT-4 Turbo 不仅比 GPT-4 更智能,而且价格更便宜,提示 token 降低了 3 倍,完成 token 降低了 2 倍。新定价为每千个提示 token 0.01 美元,每千个完成 token 0.03 美元。这导致 GPT-4 Turbo 的综合费率比 GPT-4 便宜了超过 2.75 倍。他们非常努力地实现了这一点,并希望大家对此感到兴奋。
在决定优先考虑价格问题时,他们不得不在价格和速度之间做出选择,但接下来他们将致力于提高速度。他还宣布了 GPT 3.5 Turbo 16K 的降价,输入 token 降低了 3 倍,输出 token 降低了 2 倍,这意味着 GPT 3.516K 现在比以前的 GPT 3.54K 模型更便宜。运行微调过的 GPT 3.5 Turbo 16K 版本也比旧的微调 4K 版本更便宜,他表示希望这些变化能解决大家的反馈问题,并非常兴奋地将这些改进带给每个人。
在介绍这一切时,他提到 OpenAI 很幸运有一个合作伙伴在使这一切成为可能方面起着至关重要的作用。于是他请来了一位特别嘉宾,微软的 CEO Satya Nadella。
Nadella 回忆起第一次接触 OpenAI 时,Altman 问他是否有一些 Azure 积分可用,他们从那时起就走过了很长的路。他称赞 OpenAI 建立了一些神奇的东西,并且分享了微软对合作关系的两个看法:首先是工作负载,他们一起从电力到数据中心,再到机架和加速器,乃至网络,共同构建系统,以支持 OpenAI 正在建立的模型。微软的目标是建造最好的系统,以便 OpenAI 能够构建最佳的模型,并将其提供给开发者。其次,微软本身也是一个开发者,正在构建产品。Nadella 提到,他首次见到 GitHub Copilot 和 GPT 后,对这整代基础模型的信念完全改变了。他们致力于在 OpenAI 的 API 之上构建自己的产品,并希望将 GitHub Copilot 企业版提供给在场的所有与会者试用。
Altman 还询问了 Nadella 对合作关系未来和 AI 未来的看法。Nadella 强调,微软全力投入于提供所需的系统和计算资源,以支持 OpenAI 在其路线图上大胆前进。他们致力于提供最佳的训练和推理系统,以及最多的计算资源,以便 OpenAI 能够不断推动前沿发展。Nadella 认为,AI 的真正价值在于它能赋能人们,这与 OpenAI 和微软的使命相一致——赋能地球上每个人和每个组织去实现更多。他提到,安全性是他们合作中的一个关键焦点,并且这是他们共同努力的重点,不是事后才考虑的问题。Nadella 的这些话强调了 OpenAI 和微软合作的深度和目的,展现了两家公司在推动 AI 发展和普及方面的共同愿景。
接着,Altman 转向了会议的主题,虽然这是一个针对开发者的会议,但他们还是对 ChatGPT 进行了一些改进。现在,ChatGPT 使用了 GPT-4 Turbo 和所有最新的改进,包括最新的知识截止时间,并将继续更新,这些改进已经在当天生效。ChatGPT 现在能够在需要时浏览网络,编写和运行代码,分析数据,生成图像等等。他们也听到了用户反馈,认为模型选择器极其烦人,因此已经取消了。从今天开始,用户不必在下拉菜单中点击,ChatGPT 将自动知道何时使用哪个功能。
Altman 指出,尽管价格是一个重要问题,但这并不是开发者请求的主要内容。他们相信,如果给人们更好的工具,他们将做出惊人的事情。人们希望 AI 更聪明、更个性化、更可定制,并能代表用户做更多的事情。最终,用户只需请求电脑,它就会为你完成所有这些任务。在 AI 领域,这些能力通常被称为“代理”。为了解决 AI 的安全问题,OpenAI 认为逐步迭代的部署是最佳方式,并且认为谨慎地朝这个“代理”的未来迈进尤为重要。这将需要大量的技术工作和社会的深思熟虑。
于是,他们迈出了向这个未来迈进的第一小步。Altman 非常激动地介绍了 GPT——为特定目的量身定做的 ChatGPT 版本。你可以用指令、扩展知识和行动来构建几乎任何事物的定制版本的 ChatGPT,然后发布供他人使用。由于它们结合了指令、扩展知识和行动,它们可以更有用,更适合多种情境,并提供更好的控制。
它们将使完成各种任务变得更容易,或者只是让你有更多乐趣。你可以直接在 ChatGPT 中使用它们。实际上,你可以通过与它对话来用语言编程 GPT。它很容易定制行为以适应你的需求。这使得构建它们非常容易,并赋予了每个人能力。
Altman 继续说,他们将展示 GPT 是什么、如何使用它们、如何构建它们,然后将讨论它们将如何被分发和发现。之后,对于开发者,他们将展示如何将这些类似代理的体验构建到自己的应用中。
他介绍了几个例子。code.org 的合作伙伴正在努力扩展学校的计算机科学课程,他们拥有全球数千万学生使用的课程。Code.org 制定了一个教学计划和 GPT,以帮助老师为中学生提供更吸引人的体验。例如,如果老师要求以创造性的方式解释循环,它就会这样做,在这个案例中,它会用视频游戏角色重复捡硬币的方式来解释,这对八年级学生来说非常容易理解。这个 GPT 结合了 code.org 广泛的课程和专业知识,让老师可以快速轻松地根据自己的需求进行调整。
接下来,Canva 构建了一个 GPT,你可以通过用自然语言描述你想要的设计来开始设计工作。如果你说,今天下午为 Dev Day 招待会制作一张海报,并提供一些细节,它将通过调用 Canva 的 API 生成一些起始选项。
Altman 指出,对于一些人来说,这个概念可能很熟悉。他们将插件发展成为 GPT 的自定义行动。你可以继续与这个聊天,看不同的迭代,当你看到喜欢的,你可以点击穿越到 Canva 以获得完整的设计体验。
然后,他们想现场展示一个 GPT。Zapier 构建了一个 GPT,可以让你跨越 6000 个应用程序执行行动,解锁各种集成可能性。Altman 介绍了 OpenAI 的解决方案架构师 Jessica,她将负责演示。
解决方案架构师 Jessica Shei 上台并迅速开始了演示,Jessica 指出 GPTs 将位于界面的左上角,并展示了一个名为 Zapier AI actions 的实例。她展示了自己当天的日历,并提到已经将 GPTs 连接到了她的日历。
在演示中,Jessica 询问了当天的日程安排。她强调,构建 GPTs 时考虑到了安全性,任何行动或数据共享之前,系统都会请求用户的许可。她允许 GPTs 访问她的日程,并说明 GPTs 被设计为接受用户的指令,决定调用哪个功能来执行相应的动作。
接着,Jessica 展示了 GPTs 如何成功连接到她的日历,并提取了日程信息。她还指示 GPTs 检查日历上的冲突,并显示出它成功地识别出了一个冲突。然后,她演示了如何让一个名为 Sam 的人知道她需要提早离开,并切换到与 Sam 的对话中,请求执行这一操作。
当 GPTs 完成了请求后,Jessica 问 Sam 是否收到了通知,Sam 确认了收到。Jessica 以此为例说明了 GPTs 的潜力,并表达了对看到其他人将会构建什么的期待。
接下来 Sam 继续介绍了更多 GPT 的例子。他提到,除了演示的那些,还有许多正在被创造的 GPT,以及很快将会被创造出来的。他意识到许多想要构建 GPT 的人不会编程,所以他们使得人们可以通过对话来编程 GPT。Altman 相信自然语言将是人们未来使用计算机的重要部分,并认为这是一个有趣的早期例子。
接着,Altman 展示了如何构建一个 GPT。他想要创建一个帮助创始人和开发者在启动新项目时提供建议的 GPT。他进入 GPT 构建器,告诉它他想要的东西,并且 GPT 开始基于他的描述构建详细的指令。它还提出了一个名字“startup mentor”,并且在预览模式中开始填充信息和可能的问题。Altman 上传了他之前关于创业的演讲稿,以此为基础提供建议,并在指令中添加了“简洁和建设性反馈”。
然后,Altman 在预览标签中尝试了这个 GPT,并对结果表示满意。他决定暂时只将其发布给自己,以便之后进一步完善和分享。他提到,他一直想要创建一个这样的机器人,现在很高兴能够实现这一点。Altman 强调,GPTs 允许人们轻松地分享和发现他们用 ChatGPT 做的有趣事情。人们可以创建私有的 GPT,或者通过链接公开分享他们的创作,或者如果他们使用 ChatGPT Enterprise,可以只为他们的公司制作 GPTs。他们计划在本月晚些时候推出 GPT 商店,人们可以在那里列出 GPT,并且 OpenAI 将特别展示最好和最受欢迎的 GPTs。
Altman 还提到,OpenAI 将确保商店中的 GPT 遵循他们的政策,OpenAI 重视收入分享,将向构建最有用和最受欢迎的 GPTs 的人支付一部分收入。他们期待通过 GPT 商店培养一个充满活力的生态系统,并对即将分享的更多信息感到兴奋。
Altman 也强调,这是一个针对开发者的会议,他们将同样的概念带到了 API。他提到,许多人已经在 API 上构建了类似代理的体验,例如 Shopify Sidekick 和 Discord 的 Collide,以及可以添加到群聊中并提供推荐的定制聊天机器人 my AI。这些体验很棒,但构建它们通常很困难,有时需要数月时间和数十名工程师的团队。为了简化这一过程,他们推出了新的 Assistance API。
Assistance API 包括持久的线程,内置的检索代码解释器,一个工作的 Python 解释器和沙箱环境,以及他们之前讨论过的改进的函数调用功能。
接着是 OpenAI 开发者体验负责人 Raman 展示这是如何工作的。Ramon 表示,看到许多人将 AI 融入他们的应用程序令他感到鼓舞。Ramon 宣布,他们不仅在 API 中推出了新的模式,还非常兴奋地改善了开发者体验,以便大家能够更容易地构建辅助代理。然后,他直接展示了构建流程。
Ramon 介绍了他正在构建的名为“wanderlust”的旅行应用程序,用于全球探险者。他还展示了利用 GPT-4 生成的目的地创意,以及使用当天对所有人开放的新 DALL·E 3 API 程序化生成的插图。随后,Ramon 展示了如何通过添加一个简单的助手来增强应用程序。他切换到新的辅助工具游乐场,创建一个助手,为它命名,提供初始指令,选择模型,启用代码解释器和检索功能,然后保存。
Ramon 接着介绍了如何将这个助手集成到应用程序中,他查看了一些代码,并演示了如何为每个新用户创建一个新线程,并将他们的消息添加到这些线程中。他还展示了如何随时运行助手,将响应返回到应用程序中。
接下来,Ramon 展示了功能调用,一个他特别喜欢的功能。功能调用现在保证了 JSON 输出,并且可以同时调用多个函数。然后,他演示了助手如何知道包括在右侧地图上标注的功能,并在地图上实时添加标记。
Ramon 还讨论了检索功能,这是关于给助手提供超出即时用户消息的更多知识。他上传了一个 PDF 文件,系统读取这些文件,并在屏幕上显示信息。然后,他也将 Airbnb 的预订信息拖放到对话中。
Ramon 强调,开发者们通常需要计算嵌入、设置分块算法,而现在所有这些都被新的有状态 API 所处理。他还展示了开发者仪表板中可以看到工具采取的步骤,包括被调用的函数和上传的 PDF 文件。
然后,Ramon 讨论了许多开发者期待已久的新功能:代码解释器,它现在也在 API 中可用。它使 AI 能够即时编写和执行代码,甚至生成文件。他演示了如果说出一个需要进行货币换算和天数计算的问题,代码解释器将如何工作。最后,Ramon 概述了如何快速创建一个代理,它可以为用户对话管理状态,利用外部工具如知识检索和代码解释器,并调用自己的函数来实现功能。
Ramon 还介绍了结合新发布的模式和功能调用的功能,他为 Dev Day 构建了一个自定义助手。而且,他决定使用语音代替聊天界面。他展示了一个简单的 Swift 应用程序,可以接收麦克风输入,并在终端日志中显示后台发生的事情。他使用了 whisper 将语音输入转换为文本,利用 GPT-4 Turbo 的助手,并且使用新的 TTS API 使其发声。
Ramon 还演示了助手如何连接到互联网并为用户执行真实操作。他提出让助手随机为五名 Dev Day 参与者提供 $500 的 OpenAI 信用,并且助手成功完成了这项任务。
最后,在 OpenAI 开发者日的闭幕演讲中,Sam Altman 表示辅助 API 已进入 beta 测试阶段,他对看到开发者将如何使用它感到非常兴奋。他强调 GPT 和辅助工具是通向更为复杂的代理的先驱,这些代理将能够为用户规划和执行更复杂的任务。
Altman 再次强调了逐步迭代部署的重要性,并鼓励人们现在就开始使用这些代理,以便适应它们变得更加能干的未来世界。他保证 OpenAI 将继续根据用户的反馈更新系统,他表示 OpenAI 拥有杰出的人才密度,但仍需要大量的努力和协调才能实现所有这些。他觉得自己有世界上最好的同事,对能与他们一起工作感到无比感激。
之所以 OpenAI 的团队如此努力的原因:他们相信 AI 将是技术和社会革命的一部分,它将以多种方式改变世界。Altman 提到,他们早些时候讨论过,给人们更好的工具,他们就能改变世界。他相信 AI 将带来前所未有的个人赋能和代理规模,从而将人类提升到一个前所未有的层次。随着智能的普及,我们都将随时拥有超能力。他对大家将如何使用这项技术以及我们共同构建的新未来感到兴奋。