【AI论文】直接对齐算法之间的差异模糊不清

摘要：直接对齐算法（DAAs）通过在对齐人类反馈的强化学习（RLHF）中用直接策略优化替代强化学习（RL）和奖励建模（RM），简化了语言模型对齐过程。DAAs可以根据其排序损失（成对损失与逐点损失）、这些损失中使用的奖励（例如，策略与参考策略的似然比或赔率比），或者是否需要监督微调（SFT）阶段（两阶段与一阶段）来进行分类。我们首先证明，一阶段方法的表现逊于两阶段方法。为了解决这一问题，我们在单阶段的ORPO和ASFT中加入了明确的SFT阶段，并引入了beta参数来控制偏好优化的强度。这些修改使它们在Alpaca Eval 2中的表现分别提升了+3.46（ORPO）和+8.27（ASFT），与DPO等两阶段方法相媲美。进一步的分析揭示，关键因素在于方法使用的是成对目标还是逐点目标，而非特定的隐式奖励或损失函数。这些结果强调了仔细评估的重要性，以避免在对齐算法中过早地宣称性能提升或整体优越性。Huggingface链接：Paper page，论文链接：2502.01237

一、引言

随着大型语言模型（LLMs）的迅速发展，如何有效地将这些模型与人类价值观和偏好对齐成为了一个亟待解决的问题。传统的对齐方法通常依赖于监督微调（SFT）、奖励建模（RM）和强化学习（RL）的组合，但这些方法往往存在计算成本高、训练过程复杂等问题。直接对齐算法（Direct Alignment Algorithms, DAAs）作为一种新兴的方法，通过直接优化策略来对齐语言模型与人类反馈，从而简化了对齐过程。本文将对直接对齐算法领域的研究进行深入总结，涵盖基本概念、主要方法、性能比较、研究热点与争议以及未来发展方向等方面。

二、直接对齐算法的基本概念与分类

1. 基本概念

直接对齐算法旨在通过直接优化策略将语言模型与人类偏好对齐，而无需显式地进行奖励建模或强化学习。在DAAs中，模型通过比较候选输出与人类偏好的符合程度来调整其参数，从而实现与人类价值观的对齐。

2. 分类

DAAs可以根据不同的标准进行分类，主要包括以下几个方面：

排序损失：根据损失函数是否考虑候选输出之间的相对顺序，可以将DAAs分为成对损失（pairwise loss）和逐点损失（pointwise loss）。成对损失函数考虑一对候选输出之间的相对顺序，而逐点损失函数则仅考虑单个候选输出与人类偏好的符合程度。
奖励形式：根据损失函数中使用的奖励形式，可以将DAAs分为基于对数似然比的奖励和基于胜率比的奖励。前者使用策略与参考策略的对数似然比作为隐式奖励，后者则使用胜率比作为隐式奖励。
训练阶段：根据是否需要监督微调阶段，可以将DAAs分为两阶段方法和一阶段方法。两阶段方法首先通过监督微调将模型预训练到符合人类指令的程度，然后通过直接对齐算法进行微调；一阶段方法则直接在对齐过程中优化模型参数。

三、主要直接对齐算法方法概述

1. DPO（Direct Preference Optimization）

DPO由Rafailov等人提出，是一种基于成对损失和对数似然比奖励的直接对齐算法。DPO通过比较候选输出与参考输出的对数似然比来优化模型参数，使模型更倾向于生成与人类偏好更一致的输出。DPO的损失函数可以表示为：

其中，yw和yl分别表示优选和劣选的候选输出，rrefθ(y,x)表示策略与参考策略的对数似然比，β是控制偏好优化强度的参数。

2. IPO（Identity Preference Optimization）

IPO由Azar等人提出，同样是一种基于成对损失和对数似然比奖励的直接对齐算法。与DPO不同的是，IPO在损失函数中引入了额外的正则化项，以更好地控制模型的偏好优化过程。IPO的损失函数可以表示为：

3. SimPO（Simple Preference Optimization）

SimPO由Meng等人提出，是一种简化的直接对齐算法。SimPO通过直接比较候选输出的对数似然来优化模型参数，而无需显式地进行奖励建模。SimPO的损失函数可以表示为：

其中，γ是一个额外的正则化参数。

4. ORPO（Odds Ratio Preference Optimization）和ASFT（Aligned Supervised Fine-Tuning）

ORPO和ASFT由Hong等人和Wang等人分别提出，这两种方法使用胜率比作为隐式奖励，并在一阶段训练框架中进行了探索。ORPO的损失函数可以表示为：

其中，表示胜率比。ASFT的损失函数与ORPO类似，但它在训练过程中引入了显式的监督微调阶段。

四、直接对齐算法的性能比较

1. 一阶段与两阶段方法的性能对比

研究表明，一阶段DAAs方法在性能上往往不如两阶段方法。然而，通过引入显式的监督微调阶段和β参数（控制偏好优化的强度），一阶段方法（如ORPO和ASFT）的性能得到了显著提升。例如，在AlpacaEval 2基准测试上，引入监督微调阶段后的ORPO方法相比原始的一阶段方法取得了+3.46%的改进，而ASFT方法则取得了+8.27%的改进。

2. 成对与逐点排序方法的性能对比

研究还发现，成对排序损失通常比逐点排序损失表现更好，尤其是在模型容量较大的情况下。成对排序方法能够产生更直接、更准确的排序信号，因此在实践中表现更好。例如，在Llama 3.18B模型上进行的实验中，成对排序方法（如ORPO和DPO）在AlpacaEval 2和ArenaHard基准测试上均取得了优于逐点排序方法（如ASFT和SimPO）的结果。

3. 超参数对性能的影响

DAAs中涉及多个超参数，如学习率、β参数等，这些超参数的选择对模型性能有重要影响。通过全面的网格搜索和实验分析，研究人员找到了不同DAAs方法在不同实验设置下的最优超参数配置。例如，在Llama 3.23B模型上进行的实验中，ORPO方法的最优学习率为3.0×10-6，β参数为0.2。

五、研究热点与争议

1. 研究热点

损失函数的设计：如何设计更有效的损失函数以更好地捕捉人类偏好是当前DAAs研究的一个热点。研究人员正在探索结合成对排序和逐点排序优点的混合损失函数，以及引入其他类型的奖励信号（如语义相似性、逻辑连贯性等）来更全面地评估候选输出的质量。
模型容量的影响：模型容量对DAAs性能的影响也是一个重要的研究热点。随着模型容量的增加，成对排序方法的优势逐渐显现。研究人员正在探索如何在保持模型性能的同时减少模型参数数量，以实现更轻量级的DAAs模型。
超参数的自动调优：当前DAAs中涉及多个超参数的选择主要依赖于人工调参，这不仅耗时费力而且难以保证最优解。研究人员正在探索超参数的自动调优方法，如基于贝叶斯优化的方法、元学习方法等，以实现更高效、更准确的超参数选择。

2. 争议

一阶段与两阶段方法的优劣：尽管一阶段DAAs方法通过引入显式监督微调阶段和β参数取得了显著的性能提升，但仍有人质疑其是否能够完全替代两阶段方法。一些人认为，两阶段方法由于其更明确的训练阶段划分和更稳定的训练过程，可能更容易实现模型与人类价值观的对齐。
成对与逐点排序方法的比较：成对排序方法通常被认为能够产生更直接、更准确的排序信号，因此在实践中表现更好。然而，逐点排序方法由于其实现更简单、计算更高效，也受到了部分研究者的青睐。关于哪种方法更优，目前仍存在争议。

六、未来发展方向

1. 损失函数的进一步优化

未来研究可以探索更多形式的损失函数，以更好地捕捉人类偏好并提高模型性能。例如，可以结合成对排序和逐点排序的优点设计混合损失函数；或者引入其他类型的奖励信号（如语义相似性、逻辑连贯性等）来更全面地评估候选输出的质量。此外，还可以探索如何将深度学习中的其他技术（如注意力机制、Transformer架构等）应用于损失函数的设计中。

2. 模型容量的提升与训练效率的优化

随着模型容量的不断提升，DAAs将面临更大的计算挑战。未来研究可以探索更高效的训练算法和硬件加速技术（如GPU并行计算、分布式训练等）以提高训练效率并降低计算成本。同时，还可以研究如何在保持模型性能的同时减少模型参数数量（如通过剪枝、量化等方法）以实现更轻量级的DAAs模型。

3. 多模态对齐的探索

当前DAAs主要集中在文本生成领域的对齐问题上。未来研究可以探索如何将DAAs扩展到多模态领域（如图像、语音等）以实现更全面的模型与人类价值观对齐。这将需要解决多模态数据表示、跨模态偏好建模等挑战性问题。例如，可以研究如何将图像和文本信息结合起来设计损失函数以更好地捕捉人类对多模态内容的偏好。

4. 理论基础的完善

尽管DAAs在实践中取得了显著成效，但其理论基础仍有待完善。未来研究可以探索DAAs与强化学习、概率图模型等理论之间的联系和区别以更深入地理解DAAs的工作机制和优化过程。此外，还可以研究DAAs的收敛性、稳定性等理论性质以确保其在实践中的可靠性和稳定性。

七、结论

直接对齐算法作为一种新兴的语言模型对齐方法，在简化对齐过程和提高模型性能方面展现出了巨大潜力。本文通过对当前DAAs领域的研究进行深入总结和分析，揭示了DAAs的基本概念、主要方法、性能比较、研究热点与争议以及未来发展方向等方面的内容。希望本文能够为DAAs的进一步研究提供有益的参考和启示。随着技术的不断进步和研究的深入探索，相信DAAs将在未来实现更加高效、准确和全面的语言模型与人类价值观对齐。