Ryze Labs
Search
2023年3月16日

GPT-4 揭示:探索 OpenAI 的先进多模态语言模型

GPT-4 揭示:探索 OpenAI 的先进多模态语言模型

本周二,OpenAI 推出了 GPT-4,这是他们迄今为止“最能干且最符合预期”的语言模型,尽管仍存在一些“缺陷”。

这个新模型是多模态的,即它可以接受文本和图像输入。文本输入功能现已向所有 ChatGPT Plus 订户开放,可通过 ChatGPT 界面使用,但 API 的使用需要等待名单。至于图像输入功能,目前仍处于研究阶段,需要进一步测试其安全性。

微软必应、Stripe、Duolingo、摩根士丹利、可汗学院和 OpenAI Converge 投资组合公司等机构已经可以访问 GPT-4 API 并将 GPT-4 集成到其产品中,而其他人则需要等待。

在很多情况下,GPT4 显著改进了之前的模型 GPT-3.5,例如在美国律师学院毕业生的律师考试中,它的得分位于前 10%,而 GPT-3.5 的得分则在最低的 10%。我们稍后会详细讨论测试结果。


功能和演示

根据 OpenAI 的说法,这一代语言模型在三个关键领域上超越了其前任:视觉输入、创造力和更长的上下文。它在合作创意项目方面表现出色,可以根据简单的提示生成 HTML、CSS 和 JavaScript 代码以制作简单的游戏。

模型的创造力进一步体现在写歌词、编写剧本、技术写作,甚至“学习用户的写作风格”等方面。

虽然 GPT4 在对话中看起来与其前任相似,但不同之处在于它可以承担的任务的复杂性。“GPT-4 更加可靠、有创造力,并且能够处理更加细致的指令,”OpenAI 表示。

在昨天通过 YouTube 直播的在线演示中,OpenAI 总裁 Greg Brockman 展示了该模型的一些能力。它在编码方面表现出色,可以从头开始构建一个完整的 Discord 机器人,甚至根据错误消息纠正代码。它可以接受手绘的简单笔记本草图,并根据它生成一个完全功能的网页。它还可以帮助个人计算他们的税收,通过将税法条款作为上下文输入。该模型的一个版本具有 32,000 个 Token 的上下文窗口,相当于约 100 页,这是对 GPT-3.5 的显著改进。更长的上下文窗口和能够向 GPT-4 发送一个网页链接并要求其与该页面的文本交互,有助于创建长篇内容和延续性对话。

GPT-4 的多模态意味着它现在可以接受图像作为参考进行交互。在一个示例中,它被输入了一个物理问题的图像,并被要求解决这个问题。另一个示例是输入了几种烘焙原料的图像,并询问可以用这些原料做什么。在在线演示中,Brockman 给 GPT-4 输入了 Discord 窗口的截图,并要求它描述截图,结果成功了。再次强调,图像输入功能目前仍在少数几家公司之外的用户进行安全测试中。

OpenAI 声称,与 GPT-3.5 相比,GPT-4 的使用安全性显著提高。在内部测试中,GPT-4 产生了比 GPT-3.5 多 40% 的事实性回答,并且对于不允许的内容请求的回应减少了 82%。然而,通过一些创造性的提示工程,它成功生成了一份通过扮演不对齐的 AI 来推翻人类的计划。

其防护措施似乎比 GPT-3.5 更灵活和更健壮。

OpenAI 声称,使用更多强化学习与人类反馈(RLHF)的训练有助于实现这些改进。还有一个红队,旨在尝试引诱产生不允许的内容的回应。


考试结果

为了了解 GPT-4 与其前身 GPT-3.5 的区别,OpenAI 在各种基准测试上进行了测试,包括最初为人类设计的模拟考试。他们使用了最新的公开可用测试或购买了 2022-2023 年的练习考试。对于这些考试,他们没有进行明确的培训。请参阅下面的结果。


限制

虽然该模型比其前身更强大和更有能力,但它并不是没有局限性的。像 GPT-3.5 一样,它仍然存在社会偏见、幻觉和敌对提示的问题。用 Greg Brockman 的话来说,“GPT-4 不是完美的,但你也不是”。


论文和缺乏架构细节

以下是论文对于 GPT-4 的一些收获。

模型是多模态的,如前所述,意味着它接受图像和文本。论文对安全挑战做了诚实的说明,并使用了内部和外部评估来评估安全性。模型在考试中表现良好。

关于模型或其架构的信息缺乏,“GPT-4 是一个 Transformer 风格的模型,预先训练以预测文档中的下一个 Token,使用了公开可用数据(例如互联网数据)和从第三方提供商许可的数据。”我们对于模型或数据集的大小一无所知。

我们得知模型是“使用 RLHF 进行微调的”,但不清楚使用的确切方法是什么,或者是否类似于 InstructGPT 或 ChatGPT 中使用的方法。

结论

GPT-4 显然有很多改进,但它还远未完美。OpenAI 意识到了这一点,并将继续在未来的模型上取得进展。谁知道 GPT-5 将会带来什么?