本周二，OpenAI 推出了 GPT-4，这是他们迄今为止“最能干且最符合预期”的语言模型，尽管仍存在一些“缺陷”。

这个新模型是多模态的，即它可以接受文本和图像输入。文本输入功能现已向所有 ChatGPT Plus 订户开放，可通过 ChatGPT 界面使用，但 API 的使用需要等待名单。至于图像输入功能，目前仍处于研究阶段，需要进一步测试其安全性。

微软必应、Stripe、Duolingo、摩根士丹利、可汗学院和 OpenAI Converge 投资组合公司等机构已经可以访问 GPT-4 API 并将 GPT-4 集成到其产品中，而其他人则需要等待。

在很多情况下，GPT4 显著改进了之前的模型 GPT-3.5，例如在美国律师学院毕业生的律师考试中，它的得分位于前 10%，而 GPT-3.5 的得分则在最低的 10%。我们稍后会详细讨论测试结果。

功能和演示

根据 OpenAI 的说法，这一代语言模型在三个关键领域上超越了其前任：视觉输入、创造力和更长的上下文。它在合作创意项目方面表现出色，可以根据简单的提示生成 HTML、CSS 和 JavaScript 代码以制作简单的游戏。

模型的创造力进一步体现在写歌词、编写剧本、技术写作，甚至“学习用户的写作风格”等方面。

虽然 GPT4 在对话中看起来与其前任相似，但不同之处在于它可以承担的任务的复杂性。“GPT-4 更加可靠、有创造力，并且能够处理更加细致的指令，”OpenAI 表示。

在昨天通过 YouTube 直播的在线演示中，OpenAI 总裁 Greg Brockman 展示了该模型的一些能力。它在编码方面表现出色，可以从头开始构建一个完整的 Discord 机器人，甚至根据错误消息纠正代码。它可以接受手绘的简单笔记本草图，并根据它生成一个完全功能的网页。它还可以帮助个人计算他们的税收，通过将税法条款作为上下文输入。该模型的一个版本具有 32,000 个 Token 的上下文窗口，相当于约 100 页，这是对 GPT-3.5 的显著改进。更长的上下文窗口和能够向 GPT-4 发送一个网页链接并要求其与该页面的文本交互，有助于创建长篇内容和延续性对话。

GPT-4 的多模态意味着它现在可以接受图像作为参考进行交互。在一个示例中，它被输入了一个物理问题的图像，并被要求解决这个问题。另一个示例是输入了几种烘焙原料的图像，并询问可以用这些原料做什么。在在线演示中，Brockman 给 GPT-4 输入了 Discord 窗口的截图，并要求它描述截图，结果成功了。再次强调，图像输入功能目前仍在少数几家公司之外的用户进行安全测试中。

OpenAI 声称，与 GPT-3.5 相比，GPT-4 的使用安全性显著提高。在内部测试中，GPT-4 产生了比 GPT-3.5 多 40% 的事实性回答，并且对于不允许的内容请求的回应减少了 82%。然而，通过一些创造性的提示工程，它成功生成了一份通过扮演不对齐的 AI 来推翻人类的计划。

其防护措施似乎比 GPT-3.5 更灵活和更健壮。

OpenAI 声称，使用更多强化学习与人类反馈（RLHF）的训练有助于实现这些改进。还有一个红队，旨在尝试引诱产生不允许的内容的回应。

考试结果

为了了解 GPT-4 与其前身 GPT-3.5 的区别，OpenAI 在各种基准测试上进行了测试，包括最初为人类设计的模拟考试。他们使用了最新的公开可用测试或购买了 2022-2023 年的练习考试。对于这些考试，他们没有进行明确的培训。请参阅下面的结果。

限制

虽然该模型比其前身更强大和更有能力，但它并不是没有局限性的。像 GPT-3.5 一样，它仍然存在社会偏见、幻觉和敌对提示的问题。用 Greg Brockman 的话来说，“GPT-4 不是完美的，但你也不是”。

论文和缺乏架构细节

以下是论文对于 GPT-4 的一些收获。

模型是多模态的，如前所述，意味着它接受图像和文本。论文对安全挑战做了诚实的说明，并使用了内部和外部评估来评估安全性。模型在考试中表现良好。

关于模型或其架构的信息缺乏，“GPT-4 是一个 Transformer 风格的模型，预先训练以预测文档中的下一个 Token，使用了公开可用数据（例如互联网数据）和从第三方提供商许可的数据。”我们对于模型或数据集的大小一无所知。

我们得知模型是“使用 RLHF 进行微调的”，但不清楚使用的确切方法是什么，或者是否类似于 InstructGPT 或 ChatGPT 中使用的方法。

结论

GPT-4 显然有很多改进，但它还远未完美。OpenAI 意识到了这一点，并将继续在未来的模型上取得进展。谁知道 GPT-5 将会带来什么？

GPT-4 揭示：探索 OpenAI 的先进多模态语言模型

功能和演示

考试结果

限制

论文和缺乏架构细节

结论