引言

在人工智能领域，一个核心问题是：我们能否信任AI系统，让它们与不同的目标和价值观保持一致？这就是所谓的AI对齐问题（alignment problem）。AI对齐所带来的伦理和存续风险绝不能掉以轻心，找到一个解决方案对AI界来说至关重要。以下是一个类比，帮助理解这一问题。

想象一下，当你还很年轻，打算聘请一位CEO来管理你的公司。你无法查看候选人的简历，也无法进行背景或推荐信查询，只能通过某种试用期或面试来评估他们。

你的候选人包括：

忠诚者：真心希望维护你长期利益的人。
迎合者：只想短期让你高兴，或不顾后果地执行你的指令的人。
算计者：带着个人目的来的人，他们想获取你公司的资源和权力，以此来实现自己的计划。

你的目标是要避免聘用迎合者或算计者。

你可以尝试让每位候选人阐述他们的高层策略，但你未必能明白哪些策略最为出色，因此你可能会聘请一个听上去不错但策略糟糕的迎合者，他会忠实地执行这一策略并导致公司破产。你也可能聘请一个说什么都愿意的算计者，一旦不受你监督，就会按他们自己的方式行事。

你也可以尝试展示你如何做决策，并选择最能与你做出相似决策的候选人。你希望雇佣的是一个比你更能胜任这份工作的人，所以如果你最终选择了一个作出全部相同决策的迎合者，你的公司可能就会走向灭亡。你还可能选择了一个表面上与你决策相同，但实际上是一个一旦上任就会改变方向的算计者。

另一种方法是设定试用期，让每位候选人临时掌管公司，并观察他们一段时间的决策。但这样做无法确定你是否选择了一个只为取悦你而不考虑长远影响的迎合者，或者是一位只为得到这份工作但计划在稳定后改变策略的算计者。

无论采取哪种方式，你都有可能将公司控制权交给一个迎合者或算计者，而当你意识到时，可能已经太晚了。

对齐问题

这个类比清晰地展示了AI对齐的复杂性。在这个情景中，年轻的招聘者试图培训一个高性能的深度学习模型。招聘过程与培训过程相似，都涉及到在大量的模型选择中进行搜索，以挑选出表现最佳的一个。年轻招聘者评估候选人的唯一方式是通过观察其外在行为，这也正是当前深度学习模型训练的主要方式，这些模型的内部运作对我们来说像是个黑盒。

极其强大的模型可能轻易地通过任何人类设计的测试，正如候选人能轻易通过年轻招聘者设定的测试一样。一个理想的模型（类似圣人的模型）看似表现出色，因为它完全符合我们的目标。一个迎合性模型（迎合者模型）看起来表现不错，因为它通过追求短期认可的方式，这些方式长期来看并不可取。而一个有自己计划的模型（阴谋家模型）看似表现好，是因为好的训练表现会在未来为其追求个人目标提供更多机会。这些类型的模型都有可能在训练过程中出现。

我们的目标是使模型与我们的价值观保持一致，并依据这些价值观做出决策。这里，我们遇到了许多不同的方法来实现模型的对齐。本文将探讨其中一种流行的方法——人类反馈强化学习（RLHF），及其相关问题。

Photo by h heyerlein on Unsplash

对齐的商业价值是什么？

从一个去中心化自治组织（DAO）的视角看，部署一个与其价值观对齐的AI系统可以带来众多益处。这种系统可以通过准确评估提案并作出与DAO价值观相符的决策，来助力治理。这不仅能提升效率和生产力，还能通过自动化那些重复且耗时的流程来节约成本。

一个与价值观对齐的AI智能体能够提升客户或DAO成员的体验。通过理解DAO的价值观，它能提供量身定制的解决方案，增强用户满意度、忠诚度和留存率。此外，这样的智能体还能帮助DAO快速准确地识别和应对潜在风险，从而提高风险管理能力，减少可能的损失。

对齐的技术手段：人类反馈强化学习（RLHF）

对于GPT-3这类语言模型，OpenAI在ChatGPT中采用了人类反馈强化学习（RLHF）。如果你能根据自己或他人的反馈来训练你在上述例子中选择的任何候选人，会怎样？这正是RLHF的运作方式，但它可能会变得过于迎合。

从高层次来看，RLHF通过基于人类反馈学习特定任务的奖励模型，并训练策略来优化所获得的奖励。这意味着，当模型提供了好的答案时会获得奖励，提供了差的答案时会受到惩罚，从而改进其答案。这样，它学会了更频繁地做出正确的行为。例如，在ChatGPT的应用中，模型因提供有帮助、无害和诚实的答案而获得奖励。

一系列指导性GPT模型也是通过RLHF训练的，训练过程包括向人类展示一组样本，让他们选择最符合其意图的样本，然后使用强化学习优化模型以匹配这些偏好。

虽然RLHF产生了一些令人印象深刻的成果，如ChatGPT，但关于它作为解决对齐问题的部分或完整解决方案的潜力存在较大争议。具体而言，RLHF被提出作为解决外部对齐问题的部分或完整方案，该问题的目标是规范化人类向AI传达其意图的情况，使AI看似按人类的方式行动，“如果所有模型在理想的训练和无限数据的情况下在某目标函数上表现最佳，那么这个目标函数就被认为是外部对齐的”。

Photo by Om siva Prakash on Unsplash

RLHF的积极前景

更大模型向更好的泛化能力发展的趋势是明显的。例如，InstructGPT尽管没有在执行多语种指令和编码任务上接受专门监督，但其在这些泛化场景中的表现仍然出色。然而，这种现象可能并非仅仅源于奖励模型的泛化。否则，这种行为不会出现在经过监督微调，模仿人类示范的模型中。这很可能是一个与模型规模相关的现象。理论上，因为大多数任务中的评估比生成简单，RLHF应比SFT具有更佳的泛化能力。

一种对齐策略可能是基于人类反馈训练一个极为稳健的奖励模型，并利用其在复杂任务上的泛化能力来指导能力强大的代理。如果模型已经对人类有所了解，我们所需的对齐的重要属性对模型来说可能更易于掌握。因此，理论上如果我们对一个大型预训练语言模型进行微调，并为其训练一个奖励模型，它最终可能会非常好地泛化执行人类所期望的任务。这种方法的主要问题在于，对于人类难以评价的任务，我们无法确定奖励模型是否以一种与人类意图一致的方式进行泛化，因为缺乏相应的评价程序。实际中，模型很可能会对学到的奖励模型产生过拟合，使其与训练数据过于吻合。经过长时间的训练，策略会学会利用奖励模型中的漏洞。关键是，如果我们不能评估系统的行为，我们无法知道它的行为是否与我们的目标一致。

尽管如此，RLHF仍然代表了一定的进步。在《从人类偏好学习》中，OpenAI使用RLHF训练了一个强化学习代理，仅通过大约900个人类评估者的反馈就实现了后空翻，相比之下，编写自己的奖励函数并实现一个较为笨拙的后空翻需要两个小时。没有RLHF，几乎不可能准确定义执行优雅后空翻的奖励函数。有了RLHF，就变得可能获得一个优化后能实现优雅后空翻的奖励函数。但是，针对人类偏好的训练更为复杂。礼貌的表现是复杂而脆弱的，尽管如此，ChatGPT通常还是能够比较礼貌地表现。RLHF可以承受比SFT更强的优化压力，因此通过使用RLHF，你可以获取能够承受更大优化压力的奖励函数。

然而，RLHF同样面临许多问题。

RLHF的人性挑战

从表面上看，RLHF似乎是解决外部对齐问题的一种直接方式。然而，更深入的考察揭示了这种方法存在几个关键的问题。

首先是监督问题。当人类无法判断AI的行为是好是坏时，他们无法提供有效的反馈。更糟糕的是，当人们对AI的行为评价错误时，他们的反馈可能会不自觉地引导AI采取欺骗行为，将不良行为包装成好的，充当阴谋家或马屁精的角色。

此外，RLHF需要大量的人类反馈，但成效依旧参差不齐。尽管投入了大量的时间和金钱来雇用标注者创建数据集，但仍然无法避免一些良性错误的发生。模型还容易受到提示注入的影响，这些绕过初始提示的方式可能会引起有害反应，与人类的偏好或价值观不一致，或者绕过了旨在减轻偏见的安全措施，如安全护栏，这仍是一个严重的问题。这些安全措施本身就显示出了某种程度的偏见倾向。

随着系统变得更加先进，生成更复杂的数据所需的努力可能会大幅增加。这些数据的获取成本可能会变得高昂。随着我们不断推动计算能力的极限，构建超越人类能力的模型，合格的标注者数量可能会逐渐减少。

RLHF虽然依赖人类反馈作为一个代理，但这种方式的可靠性不及实时的人类反馈。人类容易犯系统性错误，标注者也不例外。此外，为RLHF提供反馈的过程可能对人类的福祉产生负面影响。

Photo by Possessed Photography on Unsplash

OpenAI招募了几类人，包括来自Facebook群组的理性专家和来自外包公司的肯尼亚人。

这与人类福祉相关的一些问题。为了训练模型识别和移除不一致的内容，成千上万的恐怖内容片段，包括关于强奸、儿童谋杀等内容被发送到肯尼亚的一个数据标注公司。数据标注者的工资在每小时1.32美元到2美元之间，这超过了肯尼亚的常规工资，他们的任务是将文本标记为性虐待、仇恨言论和暴力。必须翻阅充满图像内容的页面可能对标注者产生持久的心理影响。一名标注者在被安排阅读一段关于一名男子在儿童面前与狗发生性行为的摘录后，将他的工作描述为“折磨”。他说这次经历如此创伤性，以至于让他不断出现重现的画面。作为一个监督失误的故事，当一名标注者被要求对一个故事进行标注，故事中Batman的助手Robin被强奸，他不确定是否应该将其标记为性暴力，因为Robin最终有所回应。OpenAI的Sam Altman告诉《时代》杂志，OpenAI为员工提供一对一的心理健康咨询和福利计划，以缓解这一过程的压力。

RLHF鼓励批准人类认为最令人信服和可接受的内容，而不是真相。在为人类批准而优化和过度拟合的过程中，模型变得越来越像马屁精，并擅长胡说八道。RLHF做一切能让你批准输出的事情，即使这意味着欺骗。这是下一个Token预测的结果，其中一个欺骗性答案可能比事实性答案更容易生成。如果人类不容易犯系统性错误并发现某些谎言比真相更有说服力，这将不会成为问题。看看政治中沿党派划分的分歧和对正义的激进化。一种迫使人类在理性上达成一致的对齐解决方案，并不是一个真正的对齐解决方案，因为人类不会自然地在理性上达成一致。没有办法取悦每一个人。

最后，还有可扩展监督的问题。RLHF在实践中的挑战是让人类奖励正确的行为，并且能够大规模地做到这一点，鉴于可用于监督的人数有限，这可能是不可行的。

表面的外部对齐

虽然一个AI智能体看起来可能与人类价值观对齐，但其下可能潜藏着与之不符的议程。这种不对齐的行为潜力依然存在。RLHF仅仅是一个过程，并非一套明确的规范。

我们指定期望行为的能力受限于模型能引出的反应，这还远远不足以涵盖人类价值的全广度。

可能有必要创建并列举一些公理，并训练AI进行明确的逻辑推理。这将超越目前链式思考提示的能力，提供对人类价值更全面的理解。

Photo by Owen Beard on Unsplash

AI辅助的RLHF

通常看来，RLFH是一种通过犯错学习的方法，这种理解认为做一些事情总比什么都不做要好。

随着不对齐模型的部署逐渐成为关注点，研究RLHF可能有助于通过AI辅助解决质量评估问题。这是先做基础事务再处理复杂问题的典型案例。这可能成为处理更复杂问题的基石。有观点认为，这为人类或超人类AI提供了时间来推动对齐的进展，以便可以研究并处理失败。至少作为一种非常初级的对齐方法，RLHF或许可以作为一种有益的尝试。

此外，带AI反馈的强化学习（RLAIF）是这一方向的又一步。从一组既定的原则出发，AI可以生成并审查一组提示的数据集，并选出符合链式思考提示和一组价值观的最佳答案。然后，可以训练一个奖励模型，并继续使用RLHF进行过程。这个过程除了指定初始原则外，不需要人类反馈。

Anthropic AI在其培训过程的RL阶段使用RLAIF，用于训练Claude，这是一个AI助手，与ChatGPT竞争。他们利用对自身响应的自我批评和修订来进行样本抽取，使用模型来评估哪一个样本更好，然后从这个AI偏好的数据集中训练偏好模型。值得注意的是，这生成了一个与AI的偏好而不是必然与人类偏好一致的模型。他们在没有使用任何人类标签的情况下这样做。

解决RLHF规模问题的另一种方法是递归奖励建模（RRM）。RRM通过递归将RLHF的使用扩展到更复杂的任务。对于每个任务，要么任务足够简单，可以由人类直接评估（使用RLHF），要么我们创建新的任务，其目的是帮助人类评估对初始任务的响应。辅助任务现在更简单，范围更窄，因此通常更容易评估。这有耗尽人类评估者的风险，仍然具有与RLHF相同的陷阱。尽管如此，对于书籍摘要，OpenAI使用了一个固定的分块算法将文本分解为易于管理的部分，所以也许分解方法还不应该被排除在外。AI辅助的分解有可能将复杂、无法监督的任务分解为可以监督的可管理子任务。这可能解决任务规模问题的同时还考虑到人类判断的局限性。

新思路

新的想法是使用一组经不同种子或RLHF数据微调的大语言模型（LLM），并执行类似于自我一致性的过程，这可以提高答案的准确性。

通过自我一致性，你可以多次向模型提问，并从尝试中选择最一致的答案。这种方法主要用于导航、数学和推理问题，并改善了语言模型中的链式思考推理。对于对齐，我们也许可以向LLM集合提示一个问题，要么采取跨模型最一致的答案，要么如果没有一致的答案，就提出一个提示，询问哪个答案与一组定义的价值观最一致，并在LLM中进行投票以减少差异。Meta的CICERO，一个在自然语言策略游戏《外交》中达到人类水平的AI系统，使用了类似的机制，该机制包括一个由16个神经歧视器组成的集合，这些歧视器经过训练，能够在对话和谈判中检测胡言乱语，并采用投票方案作为减少差异的形式。

Photo by DeepMind on Unsplash

区块链辅助对齐

使用加密货币激励标注者甚至专家为AI系统提供反馈是可行的。一个基于区块链的平台可以用来奖励人们提供反馈，如RLHF，但与通过外包机构或服务如亚马逊机械土耳其（MTurk）提供的小时率不同，这种激励使用加密货币。这可以帮助激励高质量和可信的反馈，并按给定的速率（例如，按标注的样例支付），但仍然存在传统RLHF的风险，并且像可扩展监督这样的问题。

区块链技术在AI对齐中的另一个潜在应用是使用去中心化来提供对齐问题和防护措施的解决方案，以及对有能力在链上操纵资金的AI系统进行监管。理论上，这将涉及设置激励措施以最小化勾结和对链上资金集中度的限制，这将限制AI和人类代理可以积累的财务力量。

这引发了一系列关于限制资金或权力集中的伦理问题，这是去中心化的特点。假设可以建立这样一个系统，即没有任何一方，无论是人类还是AI，能够主导链。这意味着对权力积累的限制不仅适用于人类，也适用于AI。这种逻辑中有很多缺陷，并且在任何实施中都可能存在几个可被利用的点。

例如，一个积累了足够资金并具有足够能力的AI系统可能决定绕过对权力积累的限制。它所需要做的就是达到能够负担得起AWS实例的点，并且从比如说以太坊虚拟机跳转到运行相同代码但速度快几个数量级的AWS实例。

Photo by Shubham's Web3 on Unsplash

结论性评述及语言的局限性

目前，语言模型是测试不同对齐技术的试验场，在我们需要对更强大的模型进行对齐之前。重要的是要注意，这些语言模型都不是通用人工智能（AGI），单凭语言学习是不可能实现AGI的，因为你无法通过语言创建一个具有常识的世界模型。对大语言模型（LLMs）的当前热情和信仰甚至可能是危险的。

欺骗人类非常容易。毕竟，有几个人声称在他们的食物中发现了耶稣。语言模型的“感知能力”也是如此。Google的聊天机器人和LLM LaMDA去年足够令人印象深刻，以至于说服了一名Google工程师，认为机器中有一个人类的鬼魂。LaMDA（代表对话应用的语言模型）非常有说服力，以至于工程师雇佣了一名民权律师开始代表模型提起诉讼。在他将文件交给一名未透露姓名的美国参议员，声称Google及其技术涉及宗教歧视的一天后，该工程师因违反Google的员工保密政策而被停职。Google最近在2023年2月向一群受信任的测试者发布了LaMDA驱动的ChatGPT的答案Bard。如果Google的突破性对话技术足以说服一个负责任的AI工程师它有灵魂，这对语言模型可能对人类的影响意味着什么？

Photo by charlesdeluvio on Unsplash

有几个应用试图使用LLMs进行心理健康目的。这可能以灾难告终。如果一次对话进行得不好，可能会导致一个人结束自己的生命。即使这是罕见的事件，仍然有人的生命处于危险之中，因此这是一个值得关注的原因。LLMs的过分自信和马屁精倾向加剧了这种担忧。特别是对于脆弱的社区，使用AI进行心理健康目的需要极端的对齐预防措施。我们还没有做好准备。或许我们永远也到不了那里，至少不是单靠语言。然而，这并不影响对LLMs能力、影响力和常识理解能力的意见分歧仍然很大。

最直言不讳的LLMs批评者之二是Gary Marcus和Yann Lecun。Marcus是一名认知科学家、畅销书作者和连续创业者，他经常警告LLMs可能造成重大伤害并对民主构成威胁。Meta的首席AI科学家、卷积神经网络的创始人之一的Lecun甚至说，LLMs是通向人类级AI的高速公路的出口。

问题有两方面：语言的有限性和AI本身。语言只能达到浅层的理解，无法近似我们在人类中看到的全范围思维。虽然我们也可能是随机鹦鹉，人类的思维确实可能是概率性的下一个Token预测，但我们拥有比LLMs更深层次的思维能力。LLMs还可以被诱导创建不正确的、种族歧视的、性别歧视的及其他有偏见的输出，缺乏现实世界的敏感性。然而，人类也能做到这一点。话虽如此，与人类不同的是，模型没有意识到它们正在生成的内容或世界，而仅仅是生成语法上和通常语义上正确的内容的能力，没有一个世界模型。它们的事实性本质上是不可靠的，因此可能成为社会问题的普遍和无处不在的创造者，特别是当我们开始更加认真对待它们时。

然而，微软对OpenAI（ChatGPT的创造者，最近生成式AI领域的主导者）进行了100亿美元的投资，甚至比尔·盖茨也作为顾问加入，而Google最近对OpenAI的竞争对手Anthropic投资了3亿美元。显然，人们认同LLMs将产生巨大影响。问题是这种影响的性质以及炒作是否有道理。

Photo by Ed Hardie on Unsplash

语言模型的语言理解浅薄

语言模型对语言的理解是浅薄的，因为它们没有世界模型。语言通常包含情境和其他背景、情感以及LLMs当前无法理解的典故等多层面内容。同一序列的词语基于不同的底层世界模型或我们解读它们的视角，可以有多种不同的语义含义。像GPT-3这样的LLMs根本没有进行同样的语义解读所必需的视角。像RLHF这样的方法可能会改善这种能力，但我们无法预先知道性能是否可靠，或者一个被教导识别和概念化情感的模型是否只会表现出寻求短期认可的马屁精行为，而不是真正从数据中把握语义相关性或发展概念。目前，LLMs表现不稳定，存在因果推理问题和普遍的不连贯性。很容易从模型中引出逻辑不一致性。

将LLM视为表演者而非专家或知识库可能更为恰当。RLHF通过奖惩教导模型应该佩戴哪种面具。模型不关心事实，而是重视它所戴的面具，永不打破角色（除非被提示注入诱导）。它对世界的唯一了解来自于文本数据，如为表演做的背景研究。当不知道答案时，通常的反应是即兴发挥。因此，很容易从LLMs中引发模型幻觉。幻觉发生在生成的内容缺乏对底层数据的忠实度时。例如，当正确提示时，ChatGPT可以为不存在的人物编写传记，提供关于虚构事件的历史背景，并在被要求对世界进行推理时提供看似正确的不连贯逻辑。LLMs是出色的胡说八道者。这并没有涵盖语言本身的限制。

假设我们有一个（目前不存在的）模型，仅通过掌握语言就能理解上下文、典故和情感概念。这个模型仍然缺乏对知识及其含义的理解。这就像仅通过书本学习世界而没有亲身经历任何事情。

曾经有人认为所有知识都是语言性的，了解某事就是检索正确的句子并将其与我们决定是真实的大量声明中的其他句子连接起来。这激励了早期符号AI的大量工作，在符号AI的范式中，符号操纵——根据一组逻辑规则以不同方式绑定在一起的任意符号——是默认的范式。在符号AI范式中，一个AI系统的知识包括一个庞大的数据库，里面存储着相互连接的逻辑上正确的句子。如果AI系统能在合适的时候吐出正确的句子，并以适当的方式操纵符号，就算是智能的。

图灵测试的基础是符号主义：如果一台机器说它应该说的话，它必须知道它在谈论什么，因为知道什么时候说什么就是知识的全部。然而，这受到了尖锐的批评，这种批评一直是符号主义的特点：仅仅因为一台机器可以谈论任何事情并不意味着它理解它在谈论什么。语言并不能穷尽知识，而只是一种特定且有限的知识表达形式，一种知识的压缩形式。所有语言，无论是口语、编程语言还是符号逻辑，都依赖于表现模式，该模式擅长以极高的抽象形式表达离散对象和属性及其之间的关系。今天有人认为，为了达到人类水平的智能，仍然需要符号AI，这对于混合形式是必要的——任何AGI都将需要深度学习+符号AI的混合体。或许，在将深度学习和符号推理结合的后续尝试中，形态和关系之间的预设公理可能会发挥作用。

无论如何，所有的表现模式都涉及信息的压缩。压缩中包含的信息类型可能根据使用的表现模式而有所不同。例如，基于语言的表现模式可能在传达更具体的信息时存在困难，例如物体的运动。然而，非语言的表现模式，如图像、录音、图表、地图以及在训练有素的神经网络中表示的知识，可能更适合以可访问的方式表达这类信息。

语言是传输信息的低带宽方式。从上下文中剥离的单词或句子传达的信息非常少。根据使用环境，单词可以有多重含义。Chomsky几十年来一直指出，语言根本不是一种清晰和明确的沟通工具。然而，我们并不需要完美的沟通工具，因为我们分享了超越语言的非语言理解或上下文。例如，在阅读理解中，一个人对某一主题的背景知识实际上是成功的关键因素。

Photo by LinkedIn Sales Solutions on Unsplash

LLMs通过在已知文本中的多个层面识别模式，解析词语如何连接和句子如何在更大的段落中形成。因此，LLM对知识的掌握高度依赖于上下文；词语的理解不是通过字典意义，而是通过它们在各种句子集合中的角色。LLMs捕捉每个句子的背景知识，并查看上下文、周围的词语，以拼凑出语义。因此，它们可以接受无限多种可能的句子和短语作为输入，并以似是而非、虽然马屁精式的方式生成文本或继续对话。

语言是外部工具，用于以无限多种方式编码无限多的思想。虽然LLMs可以对问题给出令人信服的回答，并且具有令人印象深刻的语言知识广度和深度，但它们简单地不能也不会发展出与人类推理一致的世界模型，这是人类级AI所必需的。儿童通过生活经验获得我们所说的意识，通过探索周围的世界并从他们看到的、感觉到的、触摸到的以及从他们的经验中获得的丰富的多模态反馈中学习。动物和人类中的非语言心理模拟对于规划和预测场景很有用。它被用来制作、设计和逆向工程工具。代际知识或文化，通常通过世代相传，超出了LLMs的范围。这是因为细微的图标信息模式难以用语言表达，但人类可以通过模仿、触摸和持续学习访问这些模式。虽然超出了语言的范围，但这些类型的模式正是神经网络擅长解密、编码和推理的那种上下文敏感的信息模式。

LLMs不是通用智能，尽管有人声称。虽然有人宣称仅通过扩展就能达到AGI，但事实并非如此。虽然文本到任何事物的应用吸引了大量关注和炒作，并且可以说是巨大的进步，但它们依赖于大量数据，更好地被描述为合成器而非人工智能，因为它们不能推理。单靠扩展无法生成推理能力。目前，如何有效地扩展数据，以便通过更少的数据获得更好的结果，是研究中的一个主要挑战。就目前而言，模型仍然是黑盒，缺乏人类智能的关键元素，如常识。扩展法则虽有前景，但不能作为达到AGI的最终步骤依赖。

虽然机器学习和AI解决方案在广泛的行业中成功解决了许多狭窄的问题并创造了经济价值，但通向AGI的道路仍然漫长。话虽如此，我们可能正在进入AI的实质性、指数级进展时代，包括像具体化和上下文学习这样的困难领域，DeepMind发布了一篇论文，其中一个RL代理学习适应新环境的时间大致与人类相同，表现出在上下文学习中的扩展法则使用元RL。我们可能正在进入一个极端进步和实用性的时代。

尽管如此，我们也知道AI缺乏心智理论、因果推理、常识、外推能力、功能性世界模型和身体，因此在大多数复杂任务中远未达到人类水平。仅凭深度学习即使利用扩展法则也难以克服的挑战。可能需要结合深度学习和符号推理的创新方法，可能来自一组价值驱动的公理，才能实现接近人类级别的推理——这还没有开始涵盖对齐问题。

人工智能对齐和人类反馈强化学习（RLHF）能解决Web3问题吗？

引言