LLM概念梳理（一）：训练流程之PT、SFT和PO

news2025/4/16 18:40:48

一个LLM的成功问世，一般分为：预训练 PT+监督微调 SFT+偏好优化 PO。

预训练（Pre-Training）是为了让模型学习通用知识，而监督微调（Supervised Fine-Tuning）是为了优化模型在特定任务上的表现。为了进一步地提升 LLMs 的对话能力、以及对于人类价值观的对齐程度，偏好优化（Preference Optimization）被引入到了模型微调过程中。

一、预训练 PT

在 PT 阶段，LLM首先在大量的无标签数据上进行训练（无监督学习），目的是让模型学习到语言的统计规律和一般知识，得到的预训练模型被称为基座模型。在这个过程中模型能够学习到词语的语义、句子的语法结构、以及文本的一般知识和上下文信息。

二、监督微调 SFT

传统微调最适合的场景是：我们希望“模型的回答逐个 token 都模仿提供的数据”，也就是逐字模仿。就像写作文，对范文进行模仿，措辞方式、语气词、标点符号的使用风格、排版风格等等都要去模仿。

这个学习过程导致了一些问题：

它对于预料的 token 级质量要求比较高。（无法让模型的学习过程知道“光学习它的语气就行了，排版格式不用学”）
需要足够多样性的数据，来确保模型学到的是我们期望它学到的相关性。（选择题学习到比率、或者问题题学习到长度）

通过传统微调训练的模型，在能力上实现阶跃。但模型缺少泛化能力，输出模式比较固定，遇到新的问题不能很好解决。并且，需要高质量的微调数据集。

应用：当我们把行业数据构建成数据集，通过微调训练，就可以训练出一个行业大模型。它既补充了基础模型，对行业知识的缺乏，又让模型在回答问题时，更偏向于回复此行业的知识。（微调改变了模型的权重）

三、偏好优化 PO

在 SFT 阶段，模型被训练以识别“想要的答案”，但未明确告知“不想要的答案”。为解决这一问题，可以通过收集用户反馈和日志数据，在对齐阶段告诉模型哪些答案是不可接受的。对齐阶段目的是进一步优化模型，使其更符合实际应用需求。基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）便是这类算法最早期的代表。

基于人类反馈的强化学习 RLHF

OpenAI使用RLHF最早就是为了解决以下问题：

高质量的微调数据集制作成本高到无法接受，即使都让专家来人工撰写也做不到足够好。
人并不擅长生成长文本，相对来说比较两个回答的成本更低，对标注人员的能力的要求也更低。
当模型的平均能力超过标注人员的平均能力时，如何进行有效地标注。

标注问题从“产生一个完整的回答”变成了“比较一些回答的好坏”。

RLHF的过程是：输出几个结果，模型比较一下优劣，然后自己一步步调整，得到一个好结果。在这个过程中，模型对齐人类的认知，具有一定的区分能力，当遇到新的问题时，可以知道好的方向。

训练一个奖励模型，让这个奖励模型学习人类的偏好，让这个模型的回答，遵循“HHH”原则（helpfule、honest、harmless）
使用训练好的奖励模型，让大模型进行强化学习，即用奖励模型对大模型的生成结果进行评分。不断迭代，从而提升模型的整体效果。
其中，实现上述优化过程的最常用算法被称为近端策略优化（Proximal Policy Optimization，PPO）。

案例：
LLaMA 2 训练：先进行finetune，然后进行RLHF，以提高泛化性。

RLHF使用更贴合真实生成任务的目标函数，成为了获得强大LLMs的关键步骤，然后其存在以下问题：

数据构造：为了得到 RM，针对每条指令采集多条（≥2）回复数据，再让人类依据自己的偏好进行质量排序；
计算资源：为了模拟真实的生成场景，训练过程中需要实时地让LLMs生成回复，并用RM打分。同时，由于RLHF和PT、SFT之间存在较大的目标函数差异，需要一个冻结的参考模型与策略模型计算KL散度作为约束，抑制模型的参数偏移。需要3-4个LLMs同时存储在GPU中参与运算。

直接偏好优化 DPO

如果不能降低 RLHF 的开销，LLMs 在更广泛场景中的应用将受到限制。于是，直接偏好优化（Direct Preference Optimization，DPO）应运而生。DPO 融合了打分模型和策略模型的训练过程（将奖励模型训练和强化学习融合在同个阶段进行），因此只需要标注过偏好的数据、参考模型和策略模型，就可以使 LLMs 直接对齐人类的偏好，极大地减轻了训练时对计算资源的消耗。DPO由于训练过程相对简单，已成为对齐阶段的主流算法，代替RLHF。

DPO与RLHF比较