DeepSeek-R1：将强化学习用于激励大型语言模型的推理能力

news2026/2/15 19:16:11

引言

一、DeepSeek-R1的贡献

二、DeepSeek-R1的方法

2.1、DeepSeek-R1-Zero：基础模型上的强化学习

2.2、DeepSeek-R1：冷启动强化学习

2.3、蒸馏：赋予小模型推理能力

三、DeepSeek-R1实验结果

3.1、模型优点

3.2、模型缺点

四、讨论与未来工作

五、结论

引言

大型语言模型（LLMs）在近年来取得了长足的进步，在各种应用中展示出令人印象深刻的性能。然而，LLMs在复杂推理任务上仍面临挑战。为了进一步提升LLMs的推理能力，DeepSeek团队提出了DeepSeek-R1，这是一个通过强化学习（RL）来增强LLMs推理能力的模型。

关于强化学习的作用博主在之前的早期博文中已经有所提及。

一、DeepSeek-R1的贡献

1. DeepSeek-R1-Zero：直接在基础模型上应用强化学习，不依赖任何监督微调（SFT）数据，证明了LLMs可以通过纯强化学习发展出强大的推理能力。

2. DeepSeek-R1：结合少量高质量冷启动数据和迭代RL训练，进一步提升了模型的推理性能，并产生更加清晰、连贯的思维链。

3. 蒸馏：将DeepSeek-R1的推理能力成功蒸馏到更小、更高效的密集模型中，如Qwen和Llama系列，极大地提升了这些小模型在推理任务上的表现。

二、DeepSeek-R1的方法

2.1、DeepSeek-R1-Zero：基础模型上的强化学习

DeepSeek-R1-Zero直接在DeepSeek-V3-Base上应用大规模强化学习，不使用任何SFT数据。训练过程采用群体相对策略优化（GRPO）算法，并设计了基于规则的奖励系统，主要包括准确性奖励和格式化奖励。

奖励格式

奖励是训练信号的来源，它决定了强化学习的优化方向。为了训练 DeepSeek-R1-Zero ，采用

了一种基于规则的奖励系统，主要包括两种类型的奖励：

准确性奖励：准确性奖励模型评估响应是否正确。例如，在具有确定性结果的数学问题中模型需要以指定格式（例如，在方框内）提供最终答案，从而实现基于规则的可靠正确性验证。同样，对于LeetCode问题，可以使用编译器根据预定义的测试用例生成反馈。
格式化奖励：除了准确性奖励模型外，我们还采用了一种格式化奖励模型，该模型强制模型将其思考过程放在‘<思考>’和‘</思考>’标签之间。

通过结构化输出约束，确保模型生成可解析、逻辑清晰的思维链，同时提升训练稳定性和任务适配性。

顿悟时刻

我们是怎么看出模型在这种非常“原始”的方法下，是真的学会了“思考”的呢？

论文记录了一个引人注目的案例：在处理一个涉及复杂数学表达式 √a - √(a + x) = x 的问题时，模型突然停下来说"Wait, wait. Wait. That's an aha moment I can flag here"（等等、等等、这是个值得标记的啊哈时刻），随后重新审视了整个解题过程。这种类似人类顿悟的行为完全是自发产生的，而不是预先设定的。

**“顿悟时刻”有力地提醒了强化学习在解锁人工智能系统新智能水平方面的潜力，为未来更加自主和自适应的模型铺平了道路。**

2.2、DeepSeek-R1：冷启动强化学习

在机器学习与模型训练中，冷启动（Cold Start） 指系统或模型在缺乏足够历史数据或预训练知识的情况下，通过引入少量高质量标注数据来初始化模型的过程。在DeepSeek-R1的上下文中，冷启动阶段是模型训练的起点，旨在为后续强化学习（RL）提供可靠的初始策略。

冷启动：收集数千条长链思维（CoT）数据来微调DeepSeek-V3-Base，作为初始强化学习演员。
面向推理的强化学习：采用与DeepSeek-R1-Zero相同的大规模RL训练过程，重点提升模型在推理密集型任务中的表现。
拒绝采样与监督微调：利用强化学习收敛后（就是再训练模型的效率很难提升）的检查点收集新的SFT数据，并重新训练DeepSeek-V3-Base模型，以增强模型在写作、角色扮演等通用任务中的能力。
全场景强化学习：进行次级强化学习阶段，结合奖励信号和多样化提示分布，进一步提高模型的有用性和无害性，同时精炼其推理能力。

2.3、蒸馏：赋予小模型推理能力

为了让更高效的小型模型具备类似DeepSeek-R1的推理能力，研究团队直接使用DeepSeek-R1整理的80万样本对Qwen和Llama系列模型进行了蒸馏。实验结果表明，将更强大的模型蒸馏为较小的模型能产生出色的结果，而依赖大规模RL的较小模型可能无法达到蒸馏的性能。

三、DeepSeek-R1实验结果

3.1、模型优点

DeepSeek-R1在各种推理相关的基准测试中取得了优异的成绩，包括：

- AIME 2024：79.8% 的 Pass@1 分数，略微超过了 OpenAI-o1-1217
- MATH-500：97.3% 的分数，与 OpenAI-o1-1217 表现相当
- Codeforces：2,029 的 Elo 评分，超过了 96.3% 的人类参赛者（这个是全球顶级算法比赛含金量非常高）
- MMLU：90.8% 的得分
- MMLU-Pro：84.0% 的得分
- GPQA Diamond：71.5% 的得分

-中国国家高中数学奥林匹克(CNMO 2024)：78.8%的得分

-美国数学邀请赛2024(AIME 2024)：79.8%的得分

此外，DeepSeek-R1在知识、创意写作、通用问答、编辑、摘要等任务中也表现出色。

蒸馏后的小型模型同样展现了优异的性能：

- DeepSeek-R1-7B全面超越非推理模型如GPT-4o-0513
- DeepSeek-R1-14B在所有评估指标上均超过了QwQ-32B-Preview
- DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超越了OpenAI-o1-mini

3.2、模型缺点

只擅长数学，代码，逻辑类的问题。对文学，长文本总结方面的能力不足。

尽管R1-Zero展现出了惊人的推理能力，但研究者们很快发现了一个严重的问题：它的思维过程往往难以被人类理解。

论文坦诚地指出，这个纯强化学习训练出来的模型存在"poor readability"（可读性差）和"language mixing"（语言混杂）的问题。

这个现象其实很好理解：R1-Zero完全通过奖惩信号来优化其行为，没有任何人类示范的"标准答案"作为参考。就像一个天才儿童自创了一套解题方法，虽然屡试不爽，但向别人解释时却语无伦次。它在解题过程中可能同时使用多种语言，或者发展出了某种特殊的表达方式，这些都让其推理过程难以被追踪和理解。

四、讨论与未来工作

AlphaGo（Silver等，2017b）和AlphaZero的蒙特卡洛树搜索（MCTS）算法是一种通过模拟与回溯动态构建搜索树的算法，其核心在于平衡探索与利用，逐步逼近最优决策路径。它在游戏 AI、复杂问题求解等领域展现了强大的能力，但需要大量模拟次数才能收敛到高质量策略，实时性受限。奖励函数的设计直接影响搜索方向，不合理的奖励可能导致次优解。

未来，DeepSeek团队计划在以下方向为DeepSeek-R1进行投资研究：