A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述—

3、微调（上一部分内容）

4、LLMs的对齐

大型语言模型（LLMs）中的对齐涉及引导模型输出以符合人类预期和偏好，特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式：

带有反馈的人工智能强化学习（Reinforcement Learning with Human Feedback, §4.1）：使用人类标记的数据作为奖励信号。
带有AI反馈的强化学习（Reinforcement Learning with AI Feedback, §4.2）：利用AI生成的反馈来解决可扩展性问题。
直接偏好优化（Direct Preference Optimization, §4.3）：直接从成对的人类偏好数据中学习，不需要明确的奖励模型。

每种范式在其追求强健对齐的过程中提供了独特的优点、挑战和权衡。表2简要对比了这些方法及相关技术。

表2: 大型语言模型对齐方法的比较概述（2022-2024）

此表评估了突出的对齐技术在八个指标上的表现：

RM1（显式或隐式奖励模型）
RM2（点奖励或偏好概率模型）
RM3（响应级或令牌级奖励）
RM4（正向或负向奖励模型）
F（反馈类型：人类或AI）
RL1（参考模型或无参考模型的RL）
RL2（在线策略或离线策略RL）
O（在线/迭代或离线/非迭代优化）

通过对这些指标的评估，可以帮助研究人员和实践者根据特定需求选择最适合的对齐方法。这些方法各自具有不同的特点，可以根据应用场景的不同要求进行调整和应用。

4.1 带有人类反馈的强化学习

监督微调（SFT）[45]一直是引导大型语言模型（LLMs）遵循人类指令的基础技术。然而，在纯监督场景中，注释数据的多样性和质量可能是不均衡的，而且监督模型捕捉更细微或适应性更强的人类偏好的能力往往有限。因此，提出了基于强化学习（RL）的微调来解决这些不足。在RL方法中，基于人类反馈的强化学习（RLHF）[104]是最早且最具影响力的基于RL的训练后对齐方法之一。

如图8所示，RLHF首先以偏好标签或奖励信号的形式收集人类反馈，然后使用这些信息训练一个奖励模型。在这个奖励模型的指导下，策略被迭代地调整以更好地匹配人类偏好。与SFT相比，RLHF包含连续的、由偏好驱动的更新，从而带来更强的对齐结果。值得注意的是，现代LLM如GPT-4 [9]、Claude [27]和Gemini [76]都从这些机制中受益，展示了在指令跟随、事实一致性以及用户相关性方面的改进。下面，我们将讨论RLHF的主要组成部分，包括反馈机制、奖励建模和策略学习策略。

这张图展示了基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）的工作流程，旨在通过训练过程使大型语言模型（LLMs）与人类偏好对齐。图中分为两个主要阶段：奖励训练（Reward Training）和策略训练（Policy Training）。以下是详细解释：

图8: 基于人类反馈的强化学习（RLHF）工作流程

a) 奖励训练 (Reward Training)

输入数据:
- 输入数据包括上下文（Contexts）和续篇（Continuations），这些数据被提供给策略模型（Policy Model）。
策略模型 (Policy Model):
- 策略模型根据输入的上下文生成续篇。
- 生成的续篇被传递给人类标注者（Human Labeler）进行评估。
人类标注者 (Human Labeler):
- 人类标注者对策略模型生成的续篇进行评估，并给出标签（Labels）。
奖励模型 (Reward Model):
- 奖励模型接收上下文和续篇，并根据人类标注者的标签计算奖励（Reward）。
- 奖励模型通过调整权重来优化其预测，以更好地匹配人类偏好。
损失函数 (Loss Function):
- 损失函数用于衡量奖励模型的预测与人类标注者提供的标签之间的差异。
更新权重 (Update Weights):
- 根据损失函数的值，奖励模型的权重被更新，以减少损失并提高预测准确性。

b) 策略训练 (Policy Training)

输入数据:
- 输入数据包括上下文（Contexts）和续篇（Continuations），这些数据被提供给策略模型（Policy Model）。
策略模型 (Policy Model):
- 策略模型根据输入的上下文生成续篇。
- 生成的续篇被传递给奖励模型进行评估。
奖励模型 (Reward Model):
- 奖励模型接收上下文和续篇，并根据之前训练得到的权重计算奖励（Reward）。
损失函数 (Loss Function):
- 损失函数用于衡量策略模型生成的续篇与奖励模型预测的奖励之间的差异。
更新权重 (Update Weights):
- 根据损失函数的值，策略模型的权重被更新，以减少损失并提高生成续篇的质量。

总结

奖励训练 (Reward Training):
- 通过人类标注者的反馈训练奖励模型，使其能够准确地预测人类偏好。
- 奖励模型的权重通过反向传播算法进行更新，以最小化损失函数。
策略训练 (Policy Training):
- 使用训练好的奖励模型来评估策略模型生成的续篇。
- 策略模型的权重通过反向传播算法进行更新，以最小化损失函数，从而生成更符合人类偏好的续篇。

通过这两个阶段的迭代训练，最终的策略模型能够生成更高质量、更符合人类偏好的续篇。

4.1.1 RLHF中的反馈机制

人类反馈是RLHF的核心，它向奖励模型提供关于用户偏好的信息，并指导策略更新。本小节采用文献[124]中的分类法来对常见的人类反馈形式进行分类。表3展示了这些反馈类型在粒度、参与水平和明确性等方面的差异。每种反馈模式对模型优化的不同方面有所贡献，提供了不同层次的可解释性、可扩展性和噪声容忍度。

表3: 人类反馈类型概览

该表可能根据不同的维度对反馈类型进行了分类，例如：

粒度：反馈可以针对整个输出（粗粒度），也可以针对特定部分或步骤（细粒度）。
参与水平：这指的是人类参与者在提供反馈时的深度，从简单的二元判断到详细的解释说明。
明确性：指反馈提供的信息是否直接明确，还是需要模型通过推理或其他方式去理解。

通过这种分类，研究人员和工程师可以根据具体的应用需求选择最适合的反馈模式，以优化模型的表现并提高其与人类偏好的一致性。这种方法使得基于人类反馈的强化学习成为一种强大的工具，用于提升LLMs在各种任务中的表现。

主要反馈（Primary Feedback）

这一类别包括最直接塑造RLHF中奖励模型的反馈类型。例如，Critique [125] 侧重于对代理行为的人类明确评估，通常通过二进制或多标签注释来细化以减少噪声。Comparisons [126] 允许评估者比较多个输出或轨迹；虽然更大的选择集可以提供更丰富的信号，但它们也可能导致因果混淆。Inter-Temporal Feedback [127] 通过在不同时间步骤提供判断来细化轨迹评估，而Proxy Rewards [128] 包含指导模型朝用户定义目标前进的近似奖励函数。Social Behavior [129] 利用隐式线索（如面部表情）使代理目标与用户情感一致。Improvements [130] 强调实时人类干预以进行策略的增量细化。最后，Natural Language Feedback [131] 利用文本信息传达偏好和改进建议。

补充反馈（Supplementary Feedback）

除了主要反馈之外，还有两类进一步加强奖励建模过程。紧急停止（E-stops）[132]允许人类通过停止代理的轨迹而不建议替代方案来进行干预。这种反馈的特点是隐式参与，并且专注于防止不期望的行为。相比之下，重要性标签[133]指出特定观察对于实现目标的重要性，提供了不会直接改变行为的明确反馈。这种反馈因上下文而异，作为补充输入，强化了奖励模型的整体学习过程。

特定表示反馈（Representation-Specific Feedback）

某些类型的反馈主要是增强表示学习而不是直接塑造奖励函数。Feature Traces [134] 提示人类操作员演示给定特征中的单调变化，从而实现特征集的动态扩展。Similarity Queries [135] 比较三元组轨迹，通过轨迹空间中的成对距离引导表示学习。通过利用这些特定表示的反馈形式，RLHF可以在新任务和上下文中实现更强大的泛化能力。

4.1.2 强化学习与人类反馈（RLHF）的奖励模型

距离函数：最近的研究集中在考虑潜在转换（如潜在塑形）的奖励评估距离函数上。例如，EPIC [140] 测量不同转换下的奖励函数等价性，而DARD [141] 改进了规范处理以确保评估基于可行转换。类似EPIC的距离[142]通过允许规范处理、规范化和度量函数的变化来推广EPIC的方法论，STARC [143] 在保持EPIC理论特性的同时提供了额外的灵活性。
视觉和人工检查：其他方法依赖于可解释性和精心策划的数据集来衡量所学奖励函数的有效性。PRFI [144] 使用预处理步骤简化奖励函数同时保留等效性，从而增强其透明度。同时，CONVEXDA 和 REWARDFUSION [145] 提出的数据集旨在测试奖励模型如何一致地响应提示中的语义变化。这些技术共同促进了奖励函数更可靠的评估，强化了大型语言模型与人类偏好的一致性。

4.1.3 RLHF的策略学习

如图9所示，RLHF的策略学习包括通过人类反馈在在线和离线环境中优化策略。

在线学习：在在线RLHF中，系统收集关于新生成模型轨迹的人类实时偏好。像DPS [146]这样的算法使用贝叶斯更新来管理竞争过程，而PPS和PEPS [147]将动态规划和多臂老虎机的想法结合起来以细化策略行为。在LPbRL [148]中，特征嵌入捕捉不断演变的奖励结构，PbOP [149] 集成最小二乘估计用于过渡动态和偏好信号。最近，PARL [150] 通过将反馈获取视为策略优化不可或缺的一部分来提高数据收集效率。