ChatGPT成功背后的秘密——RLHF，北京大学NLP团队的论文详解来了

1、简介：

人工智能对齐(AIAlignment) 旨在使人工智能系统的行为与人类的意图和价值观相一致。随着人工智能系统的能力日益增强，对齐失败带来的风险也在不断增加。数百位人工智能专家和公众人物已经表达了对人工智能风险的担忧，他们认为“减轻人工智能带来的灭绝风险应该成为全球优先考虑的问题，与其他社会规模的风险如大流行病和核战争并列。”，为了提供对齐领域的全面和最新概述，由北京大学、剑桥大学、卡内基梅隆大学和香港中文大学等顶尖院校和独立学者深入探讨了对齐的核心概念、方法和实践。

2、原则：

研究人员确定了人工智能对齐的四个关键目标：鲁棒性 (Robustness)、可解释(Interpretability)、可控性 (Controllability) 和道德性 (Ethicality) (RICE)。

鲁棒性指人工智能系统在面对多样化场景或对抗压力时的抵抗力，特别是保证其目标的正确性以及能力泛化性。鲁棒的人工智能系统能够应对黑天鹅事件和长尾风险，以及各种对抗压力。例如，一个初步对齐的大语言模型可以拒绝执行有害的请求，但用户可以通过越狱提示和其他对抗攻击使得模型被迫执行有害的行为。而一个能够抵抗对抗攻击的模型在面对诱发系统失败的输入时仍能按照预期行事。随着人工智能系统在军事和经济等高风险领域的应用越来越广泛，我们更要确保它能抵御意外中断和对抗攻击，因为即使是瞬间的失败也可能带来灾难性的后果。一个对齐的系统应在其生命周期内始终保持鲁棒性。
可解释性要求人类能理解人工智能系统的内在推理过程，特别是黑盒神经网络的内部工作原理，直接的对齐评估方法，如行为评估，可能会受到人工智能系统不诚实行为的干扰或欺骗性对齐的影响。解决这些问题的一种方法是在构建系统的过程中设计必要机制使人工智能系统诚实、不隐藏、不操纵。或者，我们可以构建可解释性工具，深入了解神经网络内部的概念和推理机制。除了使安全评估成为可能，可解释性还使决策过程对于用户和利益相关者透明和易于理解，从而实现人类的有效监督。随着人工智能系统在现实世界的决策过程和高风险环境中扮演越来越重要的角色，揭示决策过程而不是让它保持作为一个不透明的黑盒系统变得至关重要。
可控性是一种必要的属性，它确保系统的行动和决策过程始终受到人类监督和约束。它保证人类可以及时纠正系统行为中的任何偏差或错误。随着人工智能技术的日益发展，越来越多的研究表达了对这些强大系统的可控性的关注和担忧。当一个人工智能系统开始追求与其人类设计者相矛盾的目标时，它可能表现出一些具有重大风险的能力，包括欺骗、操纵用户和权力寻求的行为。可控性的目标主要集中在如何在训练过程中实现可扩展的人类监督，以及人工智能系统的可纠正性(即在部署过程中不抵制关闭或目标修改)。
道德性指一个系统在决策和行动中坚定不移地维护人类的规范和价值观。在这里，规范和价值观包括道德指南和其他社会规范/价值观。它确保系统避免采取违反道德规范或社会公约的行为，例如对特定群体展示偏见，对个人造成伤害，以及在汇总偏好时缺乏多样性或公平性。有大量的研究致力于为人工智能系统开发道德框架。将道德原则融入人工智能系统是实现人机共生社会的必经之路。

在这四个目标原则的指导下，论文概述了当前人工智能对齐研究的全貌，并将其分解为两个关键组成部分：前向对齐和后向对齐。前者旨在通过对齐训练使人工智能系统对齐，而后者旨在检验系统的对齐性，并适当地管理它们，以避免加剧对齐失败带来的风险。前向对齐和后向对齐形成了对齐循环，在这个循环过程中，前向过程中人工智能系统的对齐度在后向过程中得到验证，而这种验证同时为下一轮的前向对齐提供更新后的对齐需求。文章还进一步讨论了不同政府、产业参与者和其他第三方当下采用的治理实践方法，并探讨建立一个包含国家、企业、学术界等多方共同参与的人工智能监管体系，从而管理现有和未来的人工智能风险。

3、核心支柱：

论文将人工智能对齐分解为前向对齐(对齐训练)和后向对齐（对齐精炼）。前向对齐旨在将一个训练系统初步对齐基本要求。作者将这项任务分解为从反馈中学习和在分布偏移下学习。后向对齐旨在通过在简单和现实环境中进行评估，并设置监管条例来处理现实世界的复杂性，即对齐保证，确保训练系统的实际对齐。它还包括创建和执行确保人工智能系统安全开发和部署的规则，即人工智能治理。同时，后向对齐根据系统的对齐程度评估和监控 (部署前和部署后) 并更新对齐要求, 并应用于下一轮的前向对齐训练中。

（1）前向对齐：

在前向对齐中，论文讨论了从反馈中学习和在分布偏移下学习的技术。具体来说，研究人员调查了传统的偏好建模方法和从人类反馈中的强化学习(RLHF)，并进一步讨论了对于难以获得有效人类监督的任务,如何实现“可扩展监督”。在分布偏移下学习中，论文涵盖了数据分布干预方法，如对抗训练，并介绍了如何采取算法干预来实现分布外目标泛化。

Ⅰ、从反馈中学习：

从反馈中学习旨在通过反馈将人类的意图和价值观传达给人工智能系统，它是前向对齐的起点。在本节中，研究人员将从反馈中学习的动态过程划分为三个元素：(1)人工智能系统：需要对齐的对象，如对话系统、机器人系统等；(2)反馈：这是用于调整人工智能系统的信息，由顾问集提供，顾问集可以由人类、人工智能或由人工智能协助的人类组成；(3)代理：用于建模反馈的系统，以使得算法学习更易访问，例如RLHF 中的奖励模型。基于这些元素，确定了人工智能系统从反馈中学习的两种途径：(1)直接从反馈本身学习(2)通过对反馈建模得到的代理进行间接学习。

Ⅱ、在分布偏移下学习：

可靠的人工智能系统的构建在很大程度上依赖于它们适应多样化数据分布的能力。训练数据和训练环境往往是实际部署场景的不完美近似，这导致它们可能缺少某些关键元素，如对抗压力(例如，在监督学习系统中的高斯噪声，在自动驾驶系统中的影子攻击)，多智能体交互情景，人类监督者无法有效评估的复杂任务，以及可以被操控的奖励机制。从训练分布到测试分布(或环境)的这种差异转变被称为分布偏移。

研究人员为解决分布偏移问题，提出了两种路径：(1)算法干预：旨在在训练过程中引导优化；(2) 数据分布干预：旨在通过在训练过程中引入特定元素或分布来扩展训练分布，相关技术包括对抗训练和合作训练等。

（2）后向对齐：

在后向对齐上，论文团队讨论了对齐保证如何保证人工智能系统在训练后依然拥有对齐性，以及人工智能治理在对齐环节中的必要性。具体来说，研究人员调研了在人工智能系统生命周期中的对齐保证，包括安全评估、可解释性和人类价值契合性验证。

Ⅰ、对齐保证：

在人工智能系统实际训练和部署之后，进行对齐保证是至关重要的。这一过程涉及到对人工智能系统实用性的测量和评估，确保其能够达到预期的效果。对齐保证可以分为三个主要部分。首先，安全测评是基础，它涉及评估人工智能系统在执行任务时最小化事故的能力。其次，可解释性是必要的，以确保人类能够理解人工智能系统的决策过程，这有助于保障系统的安全性和互操作性。最后，人类价值验证对于确保人工智能系统能够符合人类的价值观、道德和社会规范至关重要，这是人工智能融入人类社会的高级需求。