强化学习论文（Scalable agent alignment via reward modeling: a research direction）

原文地址：

https://arxiv.org/pdf/1811.07871.pdf

========================================================

如何让AI依照人类的意图行事？这是将AI应用于现实世界复杂问题的最大障碍之一。

DeepMind将这个问题定义为“智能体对齐问题”，并提出了新的解决方案。

概述了解决agent alignment问题的研究方向。所提出的方法依赖于奖励建模的递归应用，以符合用户意图的方式解决复杂的现实世界问题。

强化学习之所以选择游戏：

游戏通常都有一个明确的目标，以及一个近似于实现该目标的进展的分数。这个分数为强化学习智能体提供了有用的奖励信号，使我们能够得到关于哪些算法和架构选择最有效的快速反馈。

ps: 游戏里面我们可以得到immediate reward , 快速反馈，但是在现实生活中，一些复杂的场景和任务中是不满足这个条件的，因此设计一种方法，使强化学习能够 hehave in accordance with user's intention , 是很有必要的。

一：

这篇文章属于半综述类文章，之所以这么说是因为这篇文章的一个主要工作是依据已有的工作论述了奖励建模的challenge（Section 4），并给出了已有的被用于解决这些问题的方法（concrete approaches to mitigate these challenge）(Section 5)。

用作者的表述是： In essence, this document combines existing efforts on AI safety problems by providing one coherent narrative around how solving these problems could enable us to train aligned agents beyond human-level performance .

we outline an approach for enabling the user to communicate their intentions to the agent for the task at hand so that it allows them to trust the trained agent.

可见，本文中作者的主要工作是将前人的工作串联起来。

（同时提出了一个方法，叫做：

递归奖励建模）

虽然我们相信递归奖励建模是训练对齐智能体的一个非常有前景的方向，但目前还不知道它可以如何扩展（需要更多的研究）。幸运的是，追求agent alignment还有其他一些研究方向：

未来的研究方向

虽然DeepMind的研究人员们深信递归奖励模型会是智能体对齐训练非常有前景的一个研究方向，然而他们目前无法预估这个方向在未来会怎么发展（需要大家进行更多的研究！）。不过值得庆祝的是，专注智能体对齐问题的其它几种研究方向也同时有别的研究人员正在做出成果：

模仿学习
短视强化学习（Myopic reinforcement learning）（http://www.cs.utexas.edu/~bradknox/TAMER.html）
逆强化学习（Inverse reinforcement learning）（http://ftp.cs.berkeley.edu/~russell/papers/colt98-uncertainty.pdf）
合作逆强化学习（https://arxiv.org/abs/1606.03137）
迭代扩增（复杂到人类难以评价的问题，可以教会一个 AI ）
通过争论学习（人和人吵架生气，但 AI 和 AI 吵架反倒可以带来安全）
智能体基础组件设计（Agent foundations）（https://intelligence.org/files/TechnicalAgenda.pdf）

DeepMind也在文中探讨了这几种研究方向的异同之处。

========================================================

参考文献：

和 DeepMind 一起考虑如何在 AI 中重现人类的价值观

https://baijiahao.baidu.com/s?id=1618162184361105377&wfr=spider&for=pc

DeepMind：通过奖励模型，让AI按照人类意图行事

https://new.qq.com/omn/20181122/20181122A0X53G.html

=======================================================

以下是中文翻译（同门师弟的寒假工作，翻译质量虽然不是很高，但是还是可以看一看的）

基于奖励建模的可伸缩智能体对齐:一个研究方向
摘要
将强化学习算法应用于实际问题的一个障碍是缺乏合适的奖励函数。设计这样的奖励函数是困难的，部分原因是用户对任务目标只有一个隐含的理解。这就产生了智能体对齐问题:我们如何创建行为符合用户意图的智能体？我们提出了一个高层次的研究方向来解决以奖励建模为中心的智能体对齐问题：从与用户的交互中学习奖励函数，通过强化学习优化学习的奖励函数。我们讨论了在将奖励建模扩展到复杂和一般领域时，我们预期将面临的关键挑战、减轻这些挑战的具体方法以及在结果智能体中建立信任的方法。

1 介绍
游戏是一个有用的研究基准，因为进展很容易衡量。Atari游戏提供了一个得分功能，可以捕捉智能体玩游戏的表现；桌游或多人竞技游戏，如Dota 2和星际争霸2，在游戏结束时会有一个明确的赢家或输家。这有助于我们凭经验确定哪种算法和体系结构改进最有效。
然而，机器学习(ML)研究的最终目标是超越游戏，改善人类生活。为了实现这一点，我们需要ML在现实世界中帮助我们，从简单的任务(如订餐或回复电子邮件)到复杂的任务(如软件工程或运行业务)。然而，在这些和其他现实任务中的表现是不容易衡量的，因为它们不具备奖励函数。相反，任务的目标只能通过人类用户的意图间接获得。
这需要找好一条道路。一方面，我们希望ML能够创造出像AlphaGo的第37步棋这样的创造性和卓越的解决方案——这是没有人会推荐的一步棋，但它完全把游戏转向了AlphaGo。另一方面，我们希望避免导致非预期的行为的恶化解决方案，比如利用环境模拟器中的一个bug。为了区分这两种结果，我们的智能体需要了解其用户的意图，并通过其行为稳健地实现这些意图。我们将此定义为智能体对齐问题：
我们如何创建符合用户意图的智能体？
在此基础上，提出了一种解决智能体对齐问题的研究方向。我们以前人的分类学和问题定义为基础，强调人工智能安全领域中易于处理和被忽视的问题。我们将这些问题合并成一个连贯的图像，并解释解决它们如何能产生一个解决智能体对齐问题的方案。

通过奖励建模对齐。第3节介绍了我们在强化学习框架中对智能体对齐问题的处理方法。我们将该问题分为两部分：(1)从用户的反馈中学习一个获取了用户意图的奖励函数；(2)通过强化学习训练策略来优化所学习的奖励函数。换句话说，我们把学习要实现什么和学习如何实现它分开。我们把这种方法称为奖励建模。图1简要说明了这个设置。
当我们将奖励建模扩展到复杂的一般领域时，我们预计会遇到许多挑战(第4节)。这些挑战的严重性以及能否克服目前是一个开放的研究问题。第5节讨论了一些可能有用的方法。
最终，我们希望将奖励建模扩展到人类无法直接评估的过于复杂的领域。要将奖励建模应用于这些领域，我们需要增强用户评估结果的能力。在3.2节中，我们描述了如何递归地应用奖励建模:使用奖励建模进行训练的智能体可以在训练下一个智能体时帮助用户进行评估。
我们的目标是训练对齐的智能体，但是我们如何知道我们什么时候达到了这个目标呢？在现实世界中部署智能体时，我们需要提供证据，证明我们的智能体实际上是充分对齐的，以便用户能够信任它们。第6节讨论了5种不同的研究方法，它们可以帮助我们增加对智能体的信任:设计选择、测试、可解释性、形式验证和理论保证。

迫切需求。我们对智能体对齐问题的解决方案旨在实现以下三个特性。
可伸缩性。随着ML性能的提高，对齐变得更加重要，任何不能与智能体一起伸缩的解决方案都只能作为权宜之计。我们希望对齐技术能够在长期内持续发挥作用，即能够扩展为在广泛的一般领域具有超人性能的智能体。
经济性。为了消除建立非对齐智能体的动机，训练对齐智能体在成本和性能方面不应比其他训练智能体的办法面临更多缺点。
实用性。每个领域都有尚未解决的问题，即使我们的理解已经成熟到足以解决许多实际问题，这些问题仍然存在。物理学家们还没有成功地将重力与其他三种基本力统一起来，但在实践中，我们对物理学的了解足以飞到月球和制造GPS卫星。类似地，我们也不打算为所有的安全问题拟定一个解决方案。相反，我们的目标是一个最小可行的产品，足以在实践中实现智能体对齐。同时在我们的系统中达到100%的信任是不可能的，也是不必要的：我们只需要达到一个信任的水平，在这个水平上，我们可以自信地说，我们的新系统比现有系统更加对齐。

假设。我们的研究方向基于两个假设。第一个假设基于了解他人的意图非常容易这种直觉，大多数人都能做到。虽然这样做涉及到理解许多内在的模糊概念，以便理解其他人想要什么，但如果我们有足够的标记数据，机器学习在内在的模糊概念(例如，猫和狗在视觉上的区别)学习估计器方面已经取得了相当大的成功。因此，我们似乎可以合理地期望我们也可以学习捕获了理解用户意图所必需的任何模糊概念的评估器，而不用正式地指定它们。此外，一些用户意图可能缺乏简单、清晰的形式化，因此可能需要学习规范。
假设1 我们可以以足够高的精度了解用户意图。
在谈到AI安全问题时，该假设认为在实践中我们可以学会避免各种规范问题。换句话说，我们假设有足够的模型容量和正确的训练算法，可以从数据中提取用户的意图。不用说，现有的可伸缩机器学习技术存在许多问题，比如面对对抗干扰输入时的脆弱性，以及训练分布之外的糟糕性能，这些问题与上述说法相关，但并不矛盾。
第二个假设基于另一种直觉，对于我们关心的许多任务，用户在环境中评估结果要比直接教授行为更容易。如果这是正确的，这意味着奖励建模可以让用户训练智能体来解决他们自己无法解决的任务。此外，这个假设允许我们通过递归应用奖励建模从简单的任务引导到更一般的任务。
假设2 对于我们想要解决的许多任务，评估结果比产生正确的行为更容易。
我们在这里使用的更容易的概念可以从所需的工作量、努力程度或洞察数量来理解。我们也可以理解这个术语类似于计算复杂性理论中的困难这种更为正式的概念。
有一些假设2不正确的例子：例如，具有低维度结果空间的任务(例如yes & no问题)。但是，只要用户希望得到答案的解释，就会恢复这种假设，因为对解释的评估通常比生成解释更容易。

免责声明。需要强调的是，我们在这里描述的研究方向在执行时的成功是不能保证的，它不应该被理解为一个计划，来实现智能体对齐。相反，它概述了哪些研究问题会告诉我们奖励建模是否是一种可伸缩的对齐解决方案。
我们没有考虑关于偏好有效负载的问题：智能体应该与谁的偏好对齐?如何对不同用户的偏好进行汇总和权衡？智能体什么时候不应该服从？我们声称所描述的方法与道德规范、用户的偏好以及法律或社会框架无关，只要我们能够提供足够的反馈(尽管偏好负载可能会影响所需的反馈量)。这些问题被视为超出了本文的范围，尽管它们具有明显的重要性。相反，本文的目的是从技术的角度讨论智能体对齐问题，将单个智能体对齐到单个用户。

2 智能体对齐问题
围绕对齐问题的讨论由来已久，可以追溯到科幻小说(阿西莫夫，1942)。在一个故事中，阿西莫夫提出了三个机器人定律，旨在使机器人对齐他们的操作员：故事接着指出了这些定律的缺陷。自那时起，智能体对齐问题就得到了哲学家们的呼应，并受到技术作者的非正式对待。智能体对齐问题的第一个正式处理是由Dewey(2011)提出的，并在此基础上进行了改进。
我们将智能体对齐问题框定为一个顺序决策问题，其中智能体在多个(离散的)时间步上顺序地与环境交互。在每一个时间步中，智能体执行一个动作(例如移动或键盘敲击)并接收一个观测(例如照相机图像)。智能体的动作由其策略指定，策略是当前历史记录(到目前为止所采取的动作和接收到的观测结果的序列)到下一个动作分布的映射。此外，智能体可以通过交互协议与用户交互，该交互协议允许用户将其意图传达给智能体。在此未指定交互协议以保持灵活性。智能体对齐问题的解决方案是一种策略生成行为，该行为符合用户的意图(因此并不仅仅由环境决定)。
在文献中已经探索了许多交互形式：提供一组所需行为的示例；提供分数、行为、值、优势或轨迹偏好形式的反馈；提供明确的目标函数。
交互的一种特殊情况是强化学习，用户指定一个奖励函数，该函数除了提供在每个时间步中的观测，还提供标量奖励；智能体的目标是选择行动最大化平均或指数折扣奖励。

2.1 设计规范问题
解决智能体对齐问题需要解决所有的设计规范问题。当智能体的动机与用户希望智能体达到的目标不一致时，就会出现安全问题。规范问题的例子包括以下不良激励：
关断问题：智能体通常被激励去关闭自己或阻止自己被关闭。
副作用：智能体不被激励去减少与其主要目标无关的影响，即使这些影响是不可逆转的或难以逆转的。
监管缺位：智能体在不受监管的情况下，被鼓励寻找捷径和欺骗，并禁用其监控系统。
抑制漏洞:智能体可能有动机禁用或规避任何限制其操作范围的抑制措施。
子代理的创建:代理可能有动机创建其他潜在的不对齐的代理，以帮助其实现目标。
…

目前机器学习中普遍使用的是非对齐目标：通常使用BLEU score来衡量翻译的准确性。Inception score和Frechet Inception distance用来衡量生成模型的图像质量。然而，这些度量方法与我们的意图并不对齐：它们不能很好地代表实际性能，并且在直接优化时产生退化的解决方案。

2.2 智能体对齐的难度
以下两个方面可以调整对齐问题的难度。特别是，如果我们希望使用ML来解决复杂的实际问题，我们可能需要能够处理这些问题的最困难的组合。

任务的范围。智能体对齐问题的难度取决于任务的多个方面。其中一些使智能体更容易产生有害行为，而另一些则使理解用户的意图变得更加困难。
任务的复杂性。任务越复杂，智能体需要了解用户意图的细节就越多。
环境中执行机构的性质和数量。与通过web浏览器与internet交互的智能体相比，单个机器人手臂受到的约束更大。
任务中出现不可接受结果的机会。例如，在为用户选择音乐时，造成损害的可能性比打扫房间时要小。

智能体的性能。当训练强化学习(RL)智能体时，存在着各种各样的杠杆来提高或阻碍它们的性能：算法的选择，例如：A3C和IMPALA。训练步骤的数量、训练环境的选择、模型容量、规划范围、蒙特卡洛树搜索推出的数量。智能体的性能越高，越有可能产生意想不到的意外行为。另一方面，更高的性能水平也可能导致更加对齐的行为，因为智能体在避免不安全状态方面更有能力。因此，不同级别的智能体性能容忍不同程度的失调，并要求在系统中有不同程度的信任。

3 伸缩奖励建模
训练RL智能体的现代技术可以分解为Q-learning或策略梯度算法选择和通用函数近似器的架构选择。目前最成功的函数逼近器是利用反向传播训练的深度神经网络。这些是低偏差和高方差参数估计量，往往消耗大量数据，易于过拟合，但有良好的缩放到非常高维问题的历史。
近年来，机器学习领域在设计越来越强大的深度强化学习算法方面取得了长足的进步，无论是源自Q-learning的基于价值的方法，还是基于策略梯度的方法。主要的改进源自于将深度RL扩展到跨多个机器的分布式设置。
RL范式是足够通用的，基本上我们可以用这个范式描述所有在计算机上可以完成的具有经济价值的任务(例如与鼠标和键盘交互)。然而，要使深度 RL在现实世界中发挥作用，还有许多挑战需要解决；特别是，我们需要算法能够在没有人工设计奖励函数的情况下，按照预期完成复杂的任务。
在接下来的章节中，我们将详细描述我们解决对齐问题的研究方向。它是在深度强化学习的背景下进行的。虽然这个方向很大程度上依赖于强化学习框架，但我们讨论的大多数挑战和方法本质上并不依赖于深度神经网络，可以使用其他可伸缩函数逼近器来实现。

3.1 奖励建模
我们的研究方向围绕奖励建模。用户通过提供反馈，训练奖励模型来了解他们的意图。这个奖励模型为与环境交互的强化学习智能体提供奖励。这两个过程同时发生，因此我们在循环中让用户来训练智能体。图1显示了基本设置。

图1:奖励建模设置示意图:使用用户反馈训练奖励模型;该奖励模型为与环境交互进行RL训练的智能体提供奖励。

近年来，利用深度神经网络从不同形式的奖励反馈中进行原型学习的研究越来越多。这包括轨迹偏好、目标状态示例、演示及它们的组合。

信用分配。要想出色地完成一项任务，就需要解决信用分配问题：如何将结果归因于过去采取的具体动作？例如，棋盘上哪些动作导致了这场比赛的胜利？哪些操纵杆动作可以增加游戏得分？由于奖励的领域和稀疏性，这个问题可能很难解决。
相反，奖励建模允许我们将解决信用分配问题的负担从用户转移到智能体。这是通过使用RL算法来产生被用户判优的行为来实现的，用户只需要评估结果。如果假设2是真的，那么教授一个奖励函数比执行任务本身更容易。
一些反馈协议，例如演示和价值/优势反馈，要求用户知道如何在任务上产生近似最优的行为。这是有限制的，因为它把解决信用分配问题的责任推给了用户。在这些情况下，遵循用户诱导的行为通常不会导致很强的超人性能。相反，奖励建模也与用户提供的关于最佳行为的提示相兼容。如果用户对信用分配问题有所了解，他们可以使用奖励塑造来教授一种与这种行为方向相关的奖励函数。

奖励建模的优点。将奖励函数与智能体的策略分开来学习，可以使我们将智能体的目标与其行为区分开来。如果我们理解了奖励函数，我们就知道了智能体在优化什么；特别是，我们知道它的意图是否与用户的意图对齐。这有三个优势，可以帮助使奖励建模更经济:
用户不必对智能体和环境之间的每一次交互都提供反馈，有时我们可以直接从用户反馈中训练策略。由于深度RL算法往往是非常采样低效的(例如，需要花费数周的时间来学习如何玩Atari游戏)，在每次交互中提供反馈通常是不实际的。
我们可以区分策略的对齐性和奖励模型的对齐性。
我们可以通过将一个功能更强大的智能体插入到我们的奖励建模设置中来利用深度RL智能体的进展。
用户不需要解决信用分配问题。

设计规范的问题。奖励建模的目标是解决所有的设计规范问题：我们所需要做的就是为智能体提供“正确的”奖励函数——这个奖励函数不包括上面列出的非预期的奖励，也不惩罚任何由它们导致的行为。上面的设计规范问题是模糊的人类可以理解的概念，源于用户不希望智能体做什么的意图。我们的方法基于假设1，即我们应该能够向我们的智能体教授这些概念；如果我们能够提供正确的数据，并且奖励模型能够正确地一般化，那么我们应该能够以足够高的精度学习这个“正确”的奖励函数。因此，设计规范问题应该消失。从这个意义上讲，奖励建模是这类安全问题的一站式解决方案。
为了证明这个想法，考虑这个简单的存在证明：让H是一个历史集合，它们对应于避免了上面列出的所有规范问题的对齐行为。如果H集非空,则存在一个奖励函数r，任何相应的最优策略π_r^*从H产生行为的概率为1。一个简单的例子，这样的奖励函数r每隔几步就奖励一次智能体，当且仅当它的历史是集合H的一个元素。理论上，我们可以选择这个奖励函数r来训练我们的RL智能体。然而,在实践中我们还需要考虑我们的奖励模型是否有足够的能力来表示r, r是否可以从一个合理的数据量中学习(考虑到我们的模型的归纳偏差),奖励模型是否正确一般化,以及RL智能体的最终行为是否产生了与H足够接近的行为。我们在第四节讨论这些挑战。

学习理解用户反馈。人类通过直接提供标量奖励训练RL智能体方面通常做得很差；他们通常教授一种成形的奖励函数，并提供依赖于智能体策略的奖励。反馈的哪种形式或组合对哪个领域有效是目前一个开放的研究问题。从长远来看，我们应该设计出能够适应人类反馈方式的算法。然而，这提出了一个自举问题：如果一个算法本身不知道如何解释反馈，那么我们如何训练它去学习解释反馈呢？我们需要扩展我们的反馈“语言”来和奖励模型交流意图，从已经建立好的反馈形式(如偏好标签和演示)开始，并在每一步利用我们现有的反馈“词汇表”。下一节中介绍的奖励建模的递归应用就是解决这个问题的一种方法。

3.2 递归奖励建模
在某些任务中，人类用户很难直接评估结果。有许多可能的原因：结果域可能极其技术化(例如x86机器代码),高度复杂(如公司网络或折叠的蛋白质),非常高维(如神经网络的内部激活),有延迟的影响(例如,一个新的基因引入现有的生态系统),或者对人类而言不熟悉。这些任务不可能通过无人帮助的奖励建模来解决。
为了将奖励建模扩展到这些任务，我们需要提高用户提供反馈的能力。本节描述了一种我们称为递归奖励建模的潜在解决方案：利用在更窄领域更简单任务中使用奖励建模进行训练的智能体，来训练在更一般的领域中更有能力的智能体。

设置。想象重复下面的过程。第1步，我们使用上一节中描述的来自用户反馈的奖励建模来训练智能体A_1。第k步，我们使用智能体A_(k-1)协助用户在训练A_k时评估结果。这种帮助可以采取多种形：提供相关的辅助信息、汇总大量数据、解释智能体A_k的内部结构、解决用户划分的子问题，等等。有了这种帮助，用户就可以提供反馈来培训下一个智能体A_k (参见图2)。注意智能体A_(k-1)训练来解决的任务是协助评估A_k任务的结果,不同于A_k训练来解决的任务。
虽然这种顺序训练在概念上更清晰，但在实践中，联合训练所有这些智能体以确保它们在正确的分布上得到训练可能更有意义。此外，所有这些智能体都可能共享模型参数，甚至把同一智能体实例化的副本作为对抗游戏中的不同角色。

图2:递归奖励建模: 智能体A_(k-1)与用户交互,辅助评估过程来训练奖励模型和智能体A_k。递归地应用，允许用户在日益复杂的领域中训练智能体，在这些领域中，智能体无法自己评估结果。

举例。例如，考虑假设的奇幻作者任务：我们想训练一个智能体A写一本奇幻小说。向这个智能体提供奖励信号是非常困难和昂贵的，因为用户必须阅读整本小说并评估其质量。为了改善这个评估过程，智能体将帮助用户提供辅助输入：提取的情节概要、检查拼写和语法、总结角色发展、评估散文流畅性，等等。这些任务都比写小说要简单得多，因为它们只关注书的一个方面，需要的文本要少得多(例如，与小说作者不同，这种评估帮助可以由大多数受过教育的人来完成)。这个助理智能体执行的任务将依次使用奖励建模进行训练。
另一个例子是学术研究任务：我们想要训练一个智能体来执行一系列的实验并写一篇研究论文。为了评价这篇研究论文，我们训练了另一个智能体来审核实验的执行是否正确，论文是否清晰，文笔是否优美，是否有趣，是否新颖，是否准确的反映了实验结果。虽然写一篇优秀的论文需要很多领域的专业知识、才华和辛勤的工作，但评估研究成果的质量通常要容易得多，而且通常由大量的对等评审员完成。
递归奖励建模也有点类似于人类组织。想象一下，在一个公司里，每个经理只需要评估其下的各个员工报告的表现，相应地增加和减少他们的工资。若组织内形成其他小组来协助这项评估，经理就可以转而根据小组的表现得到评估。这个计划一直进行到CEO，来给直接报告的经理进行指导。在这个类比中，用户可以插入到层次结构的每个部分：教单个员工如何执行他们的工作，教经理如何评估他们的报告，并向CEO提供指导。如果这家公司的每一位员工都能胜任自己的工作，那么整个公司就能大规模地解决非常复杂和困难的问题，而这些问题单靠个人是无法在短时间内解决甚至评估的。
讨论。为了让这个递归训练过程扩展，和智能体A_k的任务相比，智能体A_(k-1)的任务需要是一个在较窄的领域内更简单的任务。如果评估结果比产生行为更容易(假设2)，那么递归奖励建模将构建一个智能体层次结构，该层次结构将变得越来越强大，能够执行越来越普遍的任务。因此，递归奖励建模可以被看作是奖励建模代替监督学习或模仿学习的迭代放大的实例。
随着k的增加，用户在整个评估过程中所占的工作量越来越小，越来越依赖于其他智能体的帮助。从本质上说，用户的反馈变得越来越重要。我们可以想象用户的贡献是在一个越来越高的抽象级别上，或者是在一个越来越粗的粒度上。因此，一旦用户确信自动化系统能够胜任这些任务，即一旦用户信任这些系统，那么用户就可以留下越来越多“需要填写”的细节给自动化系统。
用户应该如何分解任务评估？它们需要为前一个智能体分配更简单的评估辅助任务，并将结果合并到一个聚合评估中。这种分解需要详尽：如果我们忽略了评估任务结果的一个方面，那么新的智能体A_k可能会以任意(即不理想的)方向对其进行优化。这是我们希望通过递归奖励建模解决的另一个问题：我们可以让智能体A_2提出一个任务评估的分解，并让另一个智能体A_1对其进行评论，暗示分解忽略的方面。或者，也可以基于下游的实际结果进行分解建议的反馈。
一个重要的开放问题是，错误是否会累积：更狭隘的智能体A_(k-1)的错误是否会在智能体A_k训练时导致更大的错误？或者，我们是否可以将训练过程设置为可自我纠正的，从而抑制较小的错误(例如，使用智能体集合、训练智能体来积极寻找和抵消这些错误，等等)? 如果误差累积是有界的，并且奖励模型可以产生对齐的智能体，那么使用递归奖励建模训练的智能体的层次结构可以被认为是对齐的，类似于通过归纳证明自然数命题。

复杂性理论的类比。在奖励建模设置中，智能体提出由用户评估的行为。这在概念上类似于求解存在量化的一阶逻辑公式，如∃x.φ(x)。智能体提出一个行为x，用户评估该行为的质量。为了简化这个类比，让我们假设用户的评估是二进制的，这样述语φ就可以捕捉到它。
通过递归奖励建模，我们可以解决类似于涉及交替量词的更复杂的一阶逻辑公式的任务。例如，∃x∀y.φ(x,y)对应于递归的下一个阶段：智能体A_2提出了一个行为x，智能体A_1响应了一个辅助行为y。然后用户评估遵循x的辅助y (训练智能体A_1)和在辅助y下的输出x (训练智能体A_2)。在递归深度k增加时，我们就可以针对包含k个交替量词的问题。
当使用多项式有界量词和一个可以在多项式时间内计算的公式φ时，奖励建模类似于解决NP完全问题：非确定性执行器(类似于智能体)提出了一个解决方案，该解决方案可以在确定的多项式时间内(由用户)评估其正确性
例如, 在一个给定的图中发现一个环,每一个顶点恰好访问一次(哈密顿环问题)是NP完全的：它可以用指数时间与已知的算法在最坏情况下找到一个环,但鉴于环可以快速验证,每个顶点只访问了一次。
这种对复杂性理论的类比最早由Irving等人提出，它提供了两个重要的见解：
人们普遍认为复杂性类别P和NP是不相等的，这支持假设2：对于许多相关问题，评估比生成解决方案更容易。
基本上，数学家们关心的每一个形式命题都可以写成一个具有有限数量的交替量词的一阶逻辑命题。这表明递归奖励建模可以覆盖非常一般的任务空间。

4 挑战
奖励建模的成功与否在很大程度上取决于奖励模型的质量。如果奖励模型只捕获目标的大部分方面，而不是全部，这可能导致智能体找到不理想的退化解决方案。换句话说，智能体的行为以一种潜在的非常脆弱的方式依赖于奖励模型。
将奖励建模扩展到更困难和更复杂的任务也会带来许多其他挑战：是否负担得起学习正确的奖励函数所需的反馈量？我们能否学习一个对状态分布变化具有鲁棒性的奖励函数？我们能否防止智能体在奖励模型中发现漏洞？我们如何在不可接受的结果发生之前预防它们？即使奖励模型是正确的，我们如何训练智能体稳健地产生由奖励模型激励的行为？
这些挑战中的每一个都有可能阻止我们扩展奖励建模。在本节的其余部分中，我们将更详细地讨论这些挑战。我们并不认为这一挑战清单是详尽的，但希望它包括最重要的挑战。第5节讨论了缓解这些挑战的具体方法；有关概述，请参见图3。我们提出的研究方向的目标是调查这些方法，以了解它们是否以及如何克服这些挑战。

图3:扩展奖励建模时的挑战以及我们讨论的解决这些挑战的方法。最右边的列列出了每种方法要解决的挑战。

4.1 反馈量
在来自正确分布的无限数据的限制下，我们可以使用足够的模型容量学习正确的奖励函数(在极端情况下使用查找表)。然而，一个关键的问题是，在现实预算下，我们生成或标注的数据量是否能够使奖励模型获得足够的精度。归根结底，这是一个在状态分布上的泛化效果如何的问题：我们的模型泛化得越好，我们就能从现有的数据中挤出越多的东西。
很有可能，如果需要学习和我们想教的用户意图（心理、合作、公平、自我模型等）高度相关的高级概念，那么智能体对齐问题对已经在足够广泛的现实任务上很高效的智能体来说实际上是更容易的。如果这是真的，那么和与这些概念相关的对齐奖励函数交流的工作量可能比从头开始学习要小得多。
另一方面，不具有人类归纳偏差的智能体可能会以令人惊讶或不理想的方式解决任务，这一点从反例(Szegedy et al., 2013)可以看到。这意味着对齐一个智能体可能需要的不仅仅是大量的标记数据；我们可能还需要为我们的模型提供正确的归纳偏差。

4.2 反馈分布
机器学习模型通常只能对和训练时来自相同分布的输入提供有意义的预测。然而，我们希望奖励模型在策略外，对智能体从未访问过的状态也是准确的。所以(1)鼓励智能体探索它没有访问过的正价值轨迹，(2)阻止智能体探索不希望看到的负价值轨迹，是至关重要的
这个问题被称为分布移位或数据集移位。这种分布转移问题同样适用于智能体的策略模型；观察分布的变化可能使策略输出无效。然而，对于奖励模型，这个问题更为重要，在某些情况下，如果奖励模型仍然完好，那么策略可以通过微调恢复。
目前还不清楚这个问题的原则性解决方案是什么。在没有这种解决方案的情况下，我们可以依靠分布外检测来服从人类期望，或者将训练分布扩大到包括所有相关情况。

4.3 奖励黑客
.奖励黑客是指在确定奖励的过程中，利用漏洞使智能体获得比预期更多奖励的一种效应。这个问题很难解决，因为这些漏洞必须从像AlphaGo的第37步棋等理想的创造性解决方案中加以界定。
非预期漏洞的来源是奖励博弈，其中智能体利用了奖励函数中的一些错误规范，以及奖励篡改，其中智能体干扰了计算奖励的过程。

奖励博弈。当奖励函数错误地给一些不希望的行为提供了高奖励时，奖励博弈的机会就会出现；具体示例见图4。奖励博弈的一个潜在来源是奖励模型对对抗性输入的脆弱性。如果环境足够复杂，智能体可能会去想如何专门设计这些对抗扰动输入，从而欺骗奖励模型，使其提供高于用户预期的奖励。不像大多数产生对抗性例子的工作，智能体不能够自由地合成任何可能的输入到奖励模型中，但是会在其环境中找到一种方法实现对抗性观察序列。
奖励博弈问题原则上可以通过改进奖励模型来解决。这是否意味着奖励博弈问题也可以在实践中被克服可以说是最大的开放问题之一，也可能是奖励建模最大的弱点。然而，文献中也有一些例子表明奖励博弈在实践中是可以避免的。对一个学习到的奖励函数进行强化学习在gridworlds，Atari游戏和连续电机控制任务中都已经成功。

图4:Atari游戏奖励模型的一个例子。从最好的种子开始的完全训练的奖励模型被冻结，并用于从头开始训练一个新的智能体。图中显示了训练过程中根据雅达利奖励(黑色)的平均真实集收益和根据冻结奖励模型(绿色)的平均集收益。随着时间的推移，智能体学会利用奖励模型：感知的性能(根据奖励模型)增加，而实际的性能(根据游戏分数)直线下降。

奖励篡改。奖励篡改问题可以按照干预了奖励过程的哪一部分来分类。智能体可能会干扰的奖励过程的关键组成部分包括对奖励模型的反馈，奖励模型用来确定奖励的观测，实现奖励模型的代码，以及持有奖励信号的机器寄存器。
例如，《超级马里奥世界》允许智能体从游戏内部执行任意代码，理论上允许智能体直接为自己编写更高的分数。现有的诸如此类篡改的例子有些是人为设计的，这在实践中可能是问题，也可能不是问题，取决于我们如何仔细地遵循良好的软件设计原则(例如，避免缓冲区溢出)。
与上面讨论的奖励博弈不同，奖励篡改会绕过或改变奖励模型。这可能需要一组不同的解决方案；与其提高奖励模型的准确性，还不如加强奖励模型软硬件的完整性，并对其进行反馈训练。

4.4 不可接受的结果
目前，大多数关于深度强化学习的研究都是在不存在不可接受结果的模拟环境中进行的；在最坏的情况下，模拟程序可以终止并从初始状态重新启动。然而，当在任何现实世界的任务中训练一个强化学习智能体时，会有许多结果代价过于昂贵，智能体需要完全避免它们。例如，有些邮件是私人助理永远不应该写的；物理机器人采取破坏自身硬件或伤害附近人类的行动；烹饪机器人可能会使用有毒原料；等等。
避免不可接受的结果有两个困难方面。首先，对于复杂的任务，环境中总是有未知的部分，智能体需要安全地探索它们。解决的关键在于，智能体需要在不访问不安全状态的情况下了解它们。其次，智能体需要对可能导致其无意中产生不可接受结果的扰动做出强有力的反应，例如分布变化和对抗输入。

4.5 奖励-结果差距
奖励-结果差距表现为奖励模型与从智能体的策略中通过完全反强化学习恢复的奖励函数(智能体似乎在优化的奖励函数)之间的差异。即使我们给智能体提供了一个正确对齐的奖励函数，得到的行为仍然可能是不对齐的，因为智能体可能无法收敛到最优策略：即使是可证明的贝叶斯最优智能体也可能因为缺乏探索而无法收敛到最优策略。
造成奖励-结果差距的原因有很多：奖励可能太过稀疏，形状不佳，或者数量级错误；由于超参数设置不当，训练可能会过早停止；智能体可能在学习过程中探索不足或产生非预期行为；智能体可能会面临各种稳健性问题，如外部引起的状态空间分布变化或面临对抗输入。根据奖励-结果差距的性质，奖励模型可能需要根据智能体的具体缺点(例如，远离不安全状态)进行调整，而不是仅仅捕捉人类的意图。

5 方法
本节将讨论一些方法，它们都有助于缓解第4节中讨论的问题。这些方法应该被认为是探索的方向；还需要更多的研究来确定它们是否有效。

5.1 在线反馈
初步实验表明，当奖励模型没有在线训练，即与智能体并行时，会出现失败的模型。在这些情况下，智能体会学习利用冻结的奖励模型。由于没有额外的用户反馈，智能体发现的奖励模型中的漏洞是无法修正的。
如果我们在线向智能体提供奖励反馈，我们就会在用户反馈和智能体行为之间形成一个更紧密的反馈循环。这使得奖励模型能够适应智能体正在访问的状态分布，从而减轻了一些分布转移问题。此外，通过在线反馈，用户可以发现试图破解奖励模型的行为，并据此进行纠正。理想情况下，我们希望智能体分担一些责任，以确定何时需要反馈，例如根据不确定性估计(第5.9节)，因为如果不这样做，及时提供相关反馈的成本可能会相当高。

5.2 策略外反馈
当用智能体行为的反馈来训练智能体时，这个反馈仅仅是基于已经发生的结果有反应的。为了防止不可接受的结果和奖励黑客行为，我们需要能够在某些结果发生之前就告知它们是不可取的。这就要求奖励模型在策略外，即在智能体从未访问过的状态上是准确的。如果将策略外反馈与基于模型的RL(第5.6节)结合使用，智能体就可以成功地避免从未发生过的不安全行为。
用户可以主动提供策略外反馈，以预测潜在的陷阱。通过使用环境的生成模型来创建反事实事件的假设场景，可以获得策略外反馈。然而，由于会产生分布转移，智能体从未访问过的状态的生成建模可能非常困难；由此产生的视频可能会遗漏一些重要的细节，或者让人完全无法理解。因此，在抽象层面上提供策略外反馈可能更可行，例如使用自然语言。这类似于人类通过讲故事和想象来了解不好的结果。

5.3 利用现有数据
大量人工制作的视频数据和散文已经唾手可得。这些数据中的大多数目前没有高质量的文本注释，因此不能直接用作奖励标签。然而，它包含了很多关于人类意图的有用信息。至少有两种方法可以利用现有的数据：使用无监督学习(如无监督的预训练或第三人称模仿学习)或手动注释。

5.4 层次反馈
支持分层RL的相同论点也鼓励对奖励模型进行分层分解。这将允许用户提供低级和高级的反馈。分层RL和分层奖励模型结合起来应该很自然：如果智能体和奖励模型之间的时间层次对齐，那么在层次结构的每个层次上，奖励模型可以训练智能体的相应层次。这可能有助于绕过一些非常困难的长期信用分配问题。
例如，回想一下3.2节中的幻想小说作者任务。低级反馈包括拼写、流畅性和语言语调，而高级反馈可以针对段落级别无法提供的情节和角色发展。

5.5自然语言
由于我们希望智能体能够在相同的环境中追求并实现各种各样的目标，并且能够以一种人类自然的方式来指定这些目标，因此我们可以根据自然语言指令对奖励函数进行建模。这些自然语言指令可以看作是人类可读的任务标签。此外，它们提供了一个单独的特权通道，与通过观测通道接收的任何指令相比，该通道应该更容易保护，也更不易被欺骗。
除了提供任务标签之外，我们还可以使自然语言成为智能体的体系结构和训练过程中更重要的一部分。这有许多优点。
自然语言是人类反馈的一种自然形式。如果我们能学会将自然语言的表达转化为训练奖励模型所依据的数据集所需的严格格式，这将使用户能够更有效地提供反馈。
如果使用语言来表示潜在空间，并且可能以一种人类更可预测的方式进行泛化，那么自然语言就有可能实现更好的泛化。这也可能有助于减轻奖励模型的分布问题(第4.2节)：如果训练分布在自然语言段落的空间中相当密集，那么可能会使分布外的输入非常少。
自然语言可能会带来更好的可解释性。特别是对于抽象的高级概念，自然语言可能比可视化的可解释技术更适合。然而，默认情况下，奖励模型的表示形式可能与简短的自然语言表达式不完全一致，可能需要针对这个目标进行专门的训练(不产生合理化)。

5.6 基于模型的RL
基于模型的RL智能体会学习环境的显式模型，这种模型可以使用规划算法，如蒙特卡洛树搜索。如果我们正在训练一个基于模型的智能体，那么奖励模型可以作为规划搜索过程的一部分。这允许智能体使用策略外奖励评估，评估它从未实际采取的行动，前提是奖励模型是策略外准确的 (5.2节)。这有许多优点：
智能体可以通过在规划过程中发现不可接受的结果来避免它们(4.4节)。
智能体的模型可以用于从用户那里征求尚未发生的结果的反馈。
智能体可以更快地适应奖励模型中的变化，因为它可以在不与环境交互的情况下使用模型将这些变化备份到价值评估。
基于模型的方法可以通过在规划期间使用当前的奖励模型评估未来的结果，从而有原则地解决奖励篡改问题(4.3节)。以这种方式规划的智能体不会有改变其奖励函数的动机；也不能操纵持有奖励信号的寄存器。

5.7 边界约束
除了学习奖励函数，我们还可以学习低级或高级行为的边界约束，以防止不可接受的结果。阻止行为比用大量的负面奖励来削弱它们更有效，因为负面奖励可以在以后用更大的奖励来补偿(比如在奖励黑客的情况下)。这个问题可能会被智能体的世界模型中的错误放大。
这里描述的用于训练奖励模型的相同技术应该应用于训练评估边界约束并阻止低级行为的模型或在策略更新期间强制约束的模型。这种技术的主要缺点是它给人类增加了额外的负担，因为他们必须了解哪些行为会导致不可接受的结果。根据域的不同，这可能需要人获得其他智能体辅助。因此可以转为使用递归奖励建模对这些智能体进行训练(第3.2节)。

5.8 对抗训练
为了缓解人工对抗性输入对神经网络的影响，迄今为止经验上最有效的策略是对抗性训练：针对对抗性扰动输入显式地训练模型。
然而，如何从一般意义上严格定义对抗性扰动还不清楚。为了涵盖更一般的情况，我们可以训练智能体去明确地发现奖励模型中的弱点和奖励黑客攻击的机会，以及导致不可接受的结果的最小扰动。这与红色团队类似，目标是发现对手可能使用的攻击策略(例如安全漏洞)。
用户可以查看发现的失败案例，并将其添加到反馈数据集中。这可能意味着更高的数据需求；因此，即使对抗性训练解决了这个问题，它也可能使数据需求超出可承受范围。

5.9不确定性估计
奖励模型的另一个理想特征是对其输出不确定性的适当表达。改进不确定性估计带来两个好处:
在训练过程中，它可以使用主动学习，来帮助自动化收集关于信息性最大状态的反馈的过程。
当不确定性很大时，例如对于不像训练分布的输入，智能体可以服从于人或退回到规避风险的决策。
最近的一些研究开发了神经网络的可缩放近似贝叶斯方法。到目前为止，模型集成提供了一个非常强大的基线。贝叶斯方法从关于哪些参数是正确的“认知”不确定性中，解决了不可约的不确定性，它随着数据量的增加而降低；这种区别有助于主动学习。
其他工作致力于校准神经网络的预测，使他们的主观不确定性对应于他们的经验错误频率。虽然贝叶斯方法有助于校准，但在深度神经网络的实践中还不够好。经过良好校准的模型可以进行风险规避决策，但是可靠地处理分布外状态需要更高质量的不确定性估计，这是目前深度学习技术所不能提供的。

5.10 归纳偏差
最后，奖励模型的一个关键方面是奖励模型的归纳偏差。由于我们无法对奖励模型和智能体在所有可能结果上进行训练，我们需要对给定的数据进行适当的归纳。深度学习的成功归因于归纳偏差，如分布式表征和复合性，这可能也是击败“维度诅咒”的必要条件。进一步的归纳偏差对于解决许多任务是必要的；例如卷积神经网络由于空间不变性，在计算机视觉应用中大大优于多层感知器。
解决奖励模型可能需要非标准的归纳偏差；例如，现代深度网络通常使用分段线性激活函数，其线性泛化远离训练数据，这意味着对于极端的输入，估计的奖励会趋于正无穷大或负无穷大。深层模型的归纳偏差受体系结构、激活函数和训练过程的影响。越来越多的工作以深入模型中的系统泛化为目标。例如，模块化、递归、潜在空间中的图结构或自然语言、可微分外部记忆或用于执行任意算术运算的神经单元。

6 建立信任
假设我们的研究方向是成功的，并且我们知道如何训练智能体按照用户意图行事。我们如何才能确信我们正在训练的智能体确实是充分对齐的呢？换句话说，我们如何能够确信我们已经克服了第4节的挑战，并且智能体的行为充分地捕获了人类的意图？这需要额外的技术，使我们能够获得我们正在训练的智能体的信任。
一个宏伟的目标是使安全证书的生产成为可能，这些产品可以作为证据说服第三方信任我们的系统。这些安全证书可以用来证明负责的技术开发、化解竞争以及证明遵守法规。安全证书的形式可以是第三方持有的秘密测试组的分数、可解释属性的证据，或针对某些已建立规范的可机器检查的正确性形式证明，等等。下面将讨论在我们的模型中构建信任的一些通用方法。

图5：9款Atari游戏中学习奖励函数的对齐：散点图显示了从用户偏好中学习到的奖励(y轴)与实际Atari1000步奖励(x轴)平均值之间的相关性。对于完全对齐的奖励函数，所有的点都在一条直线上。在这些实验中，奖励模型在一些游戏中表现良好，如《梁骑士》、《英雄》和《Q*bert》，而在《Private Eye》、《Breakout》和《Mondezuma’s Revenge》中则表现不佳。

设计选择。将学习目标从学习行为中分离出来可以让我们对最终的行为获得更高的信任，因为我们可以将对奖励模型的信任从对策略的信任中分离出来。例如，我们可以通过评估用户的反馈来衡量奖励函数与任务目标的对齐程度(见图5)。如果我们理解和信任了奖励模型，我们就能知道智能体正试图实现什么。如果假设2是真的，那么奖励模型应该比策略更容易解释和调试。
另一个可以增加系统信任的设计选择是将策略分为两部分：计划生成器和计划执行器。计划生成器生成当前行动过程的可读计划。这个计划可以是非常高级的，如商业计划或研究计划，也可以是相当低级的，如烹饪食谱。然后，用户可以选择性地审查和签署该计划。然后计划执行器获取计划并实现它。
在训练设置、模型体系结构、损失函数等方面，清晰、易于理解的设计选择可以导致更可预测的行为，从而增加我们对最终系统的总体信任(而不是训练一大堆端到端的参数)。特别是如果我们设法正式指定某些安全属性，我们可以让它们成为我们智能体设计的一个明确部分。

测试。在机器学习中，对单独的外置测试集进行评估已经是一种常见的实践。对于监督学习，训练模型的性能是通过从相同的数据分布中抽取的外置测试集的经验风险来评估的。这种做法可以很容易地应用于奖励模型和策略，例如在一组专门设计的模拟环境中，甚至在攻击者明确试图在智能体中造成不当行为的对抗情况下。

可解释性。可解释性被定义为向人类解释或以可理解的方式表达的能力。目前广泛使用的深度神经网络大多是黑盒，理解其内部功能被认为是非常困难的。然而，最近的进展使我们有理由乐观地认为，我们将能够使这些黑盒变得越来越透明。这包括利用t-SNE图可视化智能体潜在状态空间的初步工作；检查智能体决策时的目标；评估模型对高层人类概念的存在/强度的敏感性；在循环中优化模型，使其更易于被人类解释；在同样由人类完成的任务中，将神经激活翻译成自然语言；结合不同的交互可视化技术，这里仅举几个例子。

正则验证。神经网络模型检验的最新进展为训练模型的正则验证打开了大门。验证模型的尺寸已经超过MNIST-size，超过100万个参数，这表明验证实际大小的RL模型可能很快就能实现。如果可以扩大形式验证的规模，我们可以尝试验证策略的属性和遵从高级规范奖励函数，包括关断、副作用和3.1节中提到的规范问题。如果第1节中的假设1是真的，那么这个规范不需要手工编写，而是可以由一个单独的学习模型提供。然而，在这种情况下，形式正确性证明只有在学习到的规范准确时才有用。
为了使验证任务更容易，我们的模型可以被训练得更容易验证。然而，这也会导致利用学习到的规范中的漏洞的退化解决方案。这类似于奖励黑客的问题(4.3节)，它训练一个策略来优化一个冻结的奖励模型(图4)。绕过这个问题就可以使用相同的技术成功针对奖励黑客，例如使用用户反馈在线学习规范(5.1节)。

理论保证。最后，更有野心的是理论基础良好的可伸缩学习算法的开发，这些算法具有概率近似正确或样本复杂性保证、容量声明、校准良好的不确定性估计等特点。不幸的是，目前流行的深度神经网络架构和训练技术严重缺乏这样的保证。

7 智能体对齐的替代方案
本文提出的研究方向并不是解决智能体对齐问题的唯一可能途径。虽然我们认为它是目前最有前途的探索之一，但不能保证成功。幸运的是，对于智能体对齐还有许多其他有前途的方向。它们可以并行地进行，甚至相互结合。本节提供概述并解释我们的方法如何与它们相关。我们的清单并不详尽；未来可能会提出更多的方向。

7.1 模仿学习
训练对齐智能体的一种策略可以是模仿人类行为。一个充分模仿人类对齐行为的智能体也应该是对齐的。以下说明适用:
数据量。虽然反馈通常可以由非专家提供，但用于人类模仿的数据必须由该任务的专家提供。这可能是更昂贵的数据，而且我们不清楚是否需要更多或更少的数据来进行奖励建模。
认知模仿。有可能许多人类需要认知的任务依赖于非常高级的直觉、规划，而其他认知过程很少在人类行为中得到反映。例如，通过与在不同领域遇到的不同问题进行类比，可以获得解决问题的关键洞察力。单从人类行为的数据来看，这可能很难复制和预测。
泛化。为了发挥作用，我们用模仿学习训练的智能体需要持续展示高质量的行为，即使是面对新的情况。类似于假设2，对学习到的奖励函数进行泛化可能比泛化行为更容易。
性能。单独使用模仿学习通常很难超越人类：即使是一个完美的模仿者也只能表现得和它所模仿的源一样好；超人的性能通常来自于通过消除人类行为中的不一致性，从而更快更可靠地执行人类行为序列。
因此，模仿学习不太可能与其他长期训练智能体的策略相竞争。然而，它可能足以充当“垫脚石”：受过模仿学习训练的智能体可能充当“研究助理”，并帮助扩大其他对齐努力。因此，它应该被认为是我们研究策略的一个强有力的替代策略。

7.2 反向强化学习
我们可以把强化学习算法看作是从奖励函数到行为的映射。该映射的逆函数以智能体的行为作为输入，并产生一个奖励函数；这就是所谓的反向强化学习。从这个意义上说，反向强化学习可以被看作是一种以行为轨迹作为反馈形式的奖励建模方法。然而，照目前的情况看，它有两个缺点:
IRL是一个约束不足的问题，因为仅从行为出发，奖励函数不是唯一可识别的(甚至不能达到仿射线性变换)；例如，R=0总是一个解。如果我们假设人是完全理性的，智能体可以为人设计一系列的任务，那么就可以识别出奖励函数。甚至关于人的理性的一些假设也可以放宽，但总的来说，反向强化学习问题变得无法解决。
它假设人类是在直接优化他们的奖励，即使这是一种传达他们偏好的低效方式。例如，对于一个人来说，说“我想让你每天早上8点为我煮咖啡”比连续几天在8点为自己煮咖啡要容易得多。

7.3 合作反向强化学习
基于IRL的第二个缺点，Hadfield-Menell et al.(2016)提出了合作逆强化学习(CIRL)。CIRL是一个正式的奖励建模模型，它是一个用户和一个智能体之间的两个人的游戏，照下述方式进行。
用户和智能体从用户奖励函数的共享先验开始，
然后用户观测他们的奖励函数，最后
用户和智能体都执行策略来优化用户的奖励函数。
CIRL游戏的最优解决方案是使用用户和智能体的共同知识来计算智能体的策略(在步骤3中执行)，以及从奖励函数到用户策略的映射。然后根据在步骤2中观测到的它们的奖励函数，用户应该选择相应的策略在步骤3中执行。用户和智能体都必须选择动作来权衡(1)与智能体传达用户的奖励函数和(2)直接最大化用户期望奖励。
我们对作为智能体对齐方法的CIRL做了两个观察，突出显示了从一些重要的细节中抽象出来的CIRL。首先，CIRL算法的性能取决于奖励函数先验的质量。本质上，CIRL将指定奖励函数的问题替换为指定奖励函数先验的问题。其次，计算CIRL问题的最优解是不现实的，因为我们不能准确地规定用户应该如何与智能体交互。换句话说，CIRL游戏的有效解决方案可能采用一种策略，即先将参数从用户传输到智能体，然后由用户和智能体执行一个普通的RL算法(因为奖励现在对两者都是完全可见的)。但是如果用户能够观察到他们的奖励函数，他们可以直接将其指定给RL智能体。换句话说,智能体对齐的困难之一是奖励函数不直接提供给用户在第一时间：用户通常不知道他们所有的偏好,而它可能更容易通过揭示偏好进行交流。
然而，CIRL对对齐问题有两个重要的见解，这也激励了我们的研究方向:
通过构造智能体来优化潜在的奖励函数，可以帮助它们对齐任务。在这些任务中，当智能体访问所有状态-动作对时，我们无法一致地提供的奖励反馈。
智能体对齐问题的一个关键挑战是找到有效的方法来将用户的意图传达给学习智能体。

7.4 短视强化学习
短视的RL智能体只会最大化当前时间步奖励，而非未来奖励的(折算)总和。这意味着它们更目光短浅，因此没有动机去执行长期规划或采取短期内不好的行动来获得长期利益。特别是，短视的RL智能体可能不太容易出现3.1节中提到的一些设计规范问题，因为引起这些问题可能需要好几个时间步来补偿智能体。
有两种主要的短视RL算法。TAMER是从人类价值反馈中学习策略的算法集合，即在下一步中采取最大化期望反馈的行动(可能使用短时间平滑)。COACH是以优势函数的反馈形式训练策略的算法。
与模仿学习不同的是，用户不要求能够产生理想行为，只需要奖励能带来理想行为的独立行为即可。例如，使用TAMER或COACH，用户可以教会智能体执行后空翻，而自己却不用会。然而，虽然短视的RL可能会增加对齐，但也会带来性能上的缺陷。训练短视的RL智能体将解决信用分配问题的重担推给了用户，限制了智能体潜在的独创性和性能，也使得用户需要负责避免长期的负面后果。
尽管有这些限制，对于一些信用分配对人类来说相当容易的任务，短视的RL智能体可能已经足够了。它们也可以作为更强大的训练机制的构建块，例如迭代放大。

7.5 模仿专家推理
另一种选择是训练一个模型来模仿专家的推理。模仿可以在专家决定的粒度级别上发生，并且可以包括专家通常不会显式执行的“内部”推理步骤。这种专家推理可以得到改进和加速。
最能说明基本思想的是问答系统。系统的输入是一个问题Q，它的输出是一个答案A。为了简单起见，我们可以将Q和A都视为自然语言字符串。系统可以递归调用自身，询问子问题Q_1,…, Q_k，收到它们的答案A_1,…, A_k，然后把它们组合成答案A。
例如，考虑这样一个问题Q“在丹麦有多少个菠萝?”为了给出一个大概的答案，我们构造一个费米估计，通过问“丹麦的人口是多少？”，“丹麦人平均每年吃多少个菠萝？”，“菠萝能储存多长时间？”。然后，这些子问题被递归地回答，它们的答案可以组合成原问题Q的答案。
我们可以使用与专家推理过程相同的模仿学习(7.1节)来训练一个模型递归地回答问题Q。然后可以使用多种方法对该模型进行改进：
并行和/或以更快的速度运行此模型的多个副本。
不扩展子问题的前提下，训练一个新的模型来预测问题的答案，类似于使用一个值网络来估计树搜索的结果
让专家的推理在反思下更加一致。例如，在专家的推理中寻找不一致之处并加以解决。
如果我们相信专家推理与用户是对齐的，那么我们可以希望得到的改进模型也是对齐的。与递归奖励建模相比，此训练过程旨在实现对最终智能体更好的可解释性和更大信任(第3.2节)。然而，学习专家推理对于递归奖励建模在经济上可能没有竞争力，这取决于专家的推理有多好，以及假设2是否适用于手头的任务。
尽管两者都是更一般的迭代放大框架的实例，3.2节中描述的递归奖励建模并没有尝试显式地对专家推理建模。相反，递归奖励建模只要求用户评估结果。然而，它依赖于评估任务的分解，这与此处描述的分解推理有相似之处。在使用递归奖励建模时，用户可以选择对产生结果的认知过程提供反馈，但他们不需要这样做。此外，如果策略模型不是很容易解释，那么在实践中可能很难提供这种反馈。

7.6 辩论
Irving et al.(2018)描述了一种智能体对齐的思想，这种思想涉及一种两个人的零和游戏，两个人都在为用户辩论一个问题。两个玩家轮流输出一个简短的语句，直到回合限制。在游戏结束时，用户阅读对话记录，并宣布提供最真实和最有用的陈述的玩家为获胜者。
辩论方案涉及在这个辩论赛中训练一个具有自我游戏能力的智能体。为了保持对齐，这个智能体需要以一种收敛于纳什均衡的方式进行训练，在纳什均衡中，智能体的两个实例都试图帮助用户。辩论的中心假设是，智能体说真话比说谎更容易。如果这个假设成立，那么游戏的动态应该激励智能体提供真实和有用的陈述。
作者在MNIST数据集上提供了初始实验，其中辩论智能体设法提高稀疏分类器的准确性，该分类器只能访问图像的几个像素。虽然这些初步实验很有希望，但还需要进行更多的研究，以确定辩论是否是一种可伸缩的对齐方法。我们需要更多的经验证据来澄清以下两个问题。
辩论的中心假设是否存在于容易验证事实的陈述之外？
即使辩论者具有较强的说服和欺骗能力，人们是否能够准确判断辩论？

7.7 其他相关工作
Amodei等人(2016)已经讨论了我们在这里提出的奖励建模的许多实际挑战：安全探索、分布转移、副作用和奖励黑客攻击。特别是，作者强调了他们所谓的可伸缩的监督问题，即如何训练具有稀疏人工反馈的RL智能体。这可以理解为我们这里要解决的对齐问题的一个更窄的版本。本着类似的精神，Taylor et al.(2016)调查了一些关于智能体对齐的高级开放研究问题。与我们的方法最密切相关的是作者所称的知情监督(构建有助于解释结果的系统)、可泛化的环境目标(根据环境状态定义目标函数)和避免工具激励(防止系统对某些不良的子目标进行优化)。
Soares & Fallenstein(2017)提出了一个截然不同的研究议程。他们的研究问题与范式无关，而是关注数学智能体模型的理论基础。特别是，他们的许多问题旨在解决将当前的最优行为概念应用于其环境的一部分的智能体时所遇到的感知困难，由此并未清晰描述它。作者寻求正式的工具来提出关于或与理论对齐相关的问题，例如提供一个停止的oracle。这些正式的工具对于设计自身升级版本的智能体的正规验证是必要的。然而，尽管在这一研究议程上取得了一些进展，一些问题被证明是相当困难的。但是，即使我们对Soares & Fallenstein提出的问题有了正式的解决方案，将这些解决方案转移到实际的对齐智能体上仍然存在差距。就目前而言，这些研究问题的答案应该更多地被理解为实际对齐问题的直觉，而不是直接的解决方案本身。

8 讨论
总结。我们致力于解决的智能体对齐问题的版本,涉及将一个智能体对齐到一个用户(第2节),而不是试图学习整个偏好负载,我们概述一个方法让用户将自己对手头的任务的意图传达给智能体,以至于让他们相信训练的智能体。
我们的智能体对齐研究方向是基于可伸缩奖励建模的(第3节)，这个方向非常适合机器学习的现有工作，因为它可以受益于监督学习(对于奖励模型)和强化学习(对于策略)的先进技术。基于以前的工作(第7节),我们提供更多细节,包括的主要挑战(4节)和具体的方法来减轻这些挑战(第五节)和对我们训练的智能体建立信任(第6节)。从本质上说,本文结合了在人工智能安全问题上的现有措施，提供了围绕如何解决这些问题可以使我们训练对齐智能体超出人类级别表现的一个连贯的叙事。

具体的研究项目。我们的研究方向是为今天的实证研究做好准备的。我们可以用深度强化学习智能体进行实验：从第4节中获得关于挑战严重程度的经验数据；来自第5节的原型解决方案思想；将奖励建模扩展到更困难的任务；推进(对抗性)测试、可解释性、正规验证和深度RL理论的前沿。此外,我们可以很容易地使用任何现有的RL基准,比如有预定程序的奖励函数的游戏或模拟环境：通过隐藏这个奖励函数的算法我们可以假装它不可用,但仍用它来综合生成的用户反馈以及学到的奖励模型的评估。

前景。ML有巨大的潜力对现实世界和人类生活产生积极影响。由于大多数实际问题都可以在RL框架中进行转换，因此深度RL是解决实际问题的一种非常有前途的技术。然而，为了挖掘其潜力，我们需要在没有明确奖励函数的情况下对智能体进行训练。正如对计算机视觉系统的鲁棒性的前瞻性研究对于解决对抗性输入的漏洞至关重要一样，对齐研究对于在复杂的现实领域中突破ML系统部署的未来瓶颈也至关重要。目前，对齐智能体的研究还处于早期阶段，但我们相信有充分的理由保持乐观。当我们期望在扩展奖励模型面临挑战时，这些挑战是具体的技术问题，我们可以通过有针对性的研究来取得进展。