DeepSeek-R1-Zero：基于基础模型的强化学习

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】

文章目录

DeepSeek大模型技术系列四
- DeepSeek大模型技术系列四》DeepSeek-R1-Zero：基于基础模型的强化学习
- - 更多技术内容
总结

DeepSeek大模型技术系列四

DeepSeek大模型技术系列四》DeepSeek-R1-Zero：基于基础模型的强化学习

强化学习在推理任务中已显示出显著的有效性，我们之前的工作（Shao 等人，2024; Wang 等人，2023）已证明了这一点。然而，这些工作严重依赖监督数据，而收集监督数据非常耗时。在本节中，我们探索大语言模型在不依赖任何监督数据的情况下发展推理能力的潜力，重点关注它们如何通过纯强化学习过程实现自我进化。我们首先简要介绍我们的强化学习算法，然后展示一些令人兴奋的结果，希望能为研究社区提供有价值的见解。
2.2.1 强化学习算法：组相对策略优化

为节省强化学习的训练成本，我们采用组相对策略优化（GRPO）（Shao 等人，2024）。该方法摒弃了通常与策略模型大小相同的价值评估模型，而是从组得分中估计基线。具体来说，对于每个问题 q，GRPO 从旧策略中采样一组输出，然后通过最大化以下目标来优化策略模型：
在这里插入图片描述

其中和是超参数，是优势值，通过计算每组输出对应的一组奖励得到：

———————————————————————————————
用户与助手进行对话。用户提出问题，助手进行解答。助手先在脑海中思考推理过程，然后为用户提供答案。推理过程和答案分别包含在和标签内，即此处为推理过程此处为答案。用户：提示。助手：
———————————————————————————————
表 1 DeepSeek-R1-Zero 的模板。训练期间，提示将被具体的推理问题替换。
2.2.2 奖励建模

奖励是训练信号的来源，决定了强化学习的优化方向。为训练 DeepSeek-R1-Zero，我们采用基于规则的奖励系统，主要包含两种类型的奖励：
准确率奖励：准确率奖励模型用于评估回答是否正确。例如，对于有确定答案的数学问题，模型需要按照指定格式（如在框内）给出最终答案，以便基于规则可靠地验证正确性。同样，对于 LeetCode 问题，可以使用编译器根据预定义的测试用例生成反馈。
格式奖励：除了准确率奖励模型，我们还采用格式奖励模型，要求模型将其思考过程放在‘’和‘’标签之间。
在开发 DeepSeek-R1-Zero 时，我们没有应用结果或过程神经奖励模型，因为我们发现神经奖励模型在大规模强化学习过程中可能会出现奖励作弊问题，而且重新训练奖励模型需要额外的训练资源，会使整个训练流程变得复杂。
2.2.3 训练模板
为训练 DeepSeek-R1-Zero，我们首先设计了一个简单的模板，引导基础模型遵循我们指定的指令。如表 1 所示，该模板要求 DeepSeek-R1-Zero 首先生成推理过程，然后给出最终答案。我们有意将约束限制在这种结构格式上，避免任何特定内容的偏差，例如强制要求反思性推理或推广特定的问题解决策略，以确保我们能准确观察模型在强化学习过程中的自然发展。
2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻
DeepSeek-R1-Zero 的性能：图 2 展示了 DeepSeek-R1-Zero 在 2024 年 AIME 基准测试中，整个强化学习训练过程的性能变化轨迹。可以看出，随着强化学习训练的推进，DeepSeek-R1-Zero 的性能稳步提升。值得注意的是，2024 年 AIME 上的平均单次通过率（pass@1）显著提高，从最初的 15.6% 跃升至令人瞩目的 71.0%，达到了与 OpenAI-o1-0912 相当的性能水平。这一显著改进凸显了我们的强化学习算法在优化模型性能方面的有效性。
在这里插入图片描述

表 2 对 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各种推理相关基准测试中的表现进行了对比分析。结果显示，强化学习使 DeepSeek-R1-Zero 在无需任何监督微调数据的情况下，获得了强大的推理能力。这是一项值得关注的成就，它强调了该模型仅通过强化学习就能有效学习和泛化的能力。此外，通过多数投票，DeepSeek-R1-Zero 的性能还能进一步提升。例如，在 AIME 基准测试中采用多数投票时，其性能从 71.0% 提升到 86.7%，超过了 OpenAI-o1-0912 的性能。无论是否采用多数投票，DeepSeek-R1-Zero 都能取得具有竞争力的性能，这突出了其强大的基础能力以及在推理任务中进一步提升的潜力。
在这里插入图片描述

图 2 DeepSeek-R1-Zero 在训练期间 AIME 准确率。对于每个问题，我们采样 16 个回答并计算总体平均准确率，以确保评估稳定。

DeepSeek-R1-Zero 的自我进化过程：DeepSeek-R1-Zero 的自我进化过程充分展示了强化学习如何驱动模型自主提升推理能力。通过直接从基础模型启动强化学习，我们可以在不受监督微调阶段影响的情况下，密切监测模型的发展。这种方法清晰地呈现了模型随时间的演变，尤其是在处理复杂推理任务的能力方面。如图 3 所示，DeepSeek-R1-Zero 的思考时间在整个训练过程中持续改善。这种改善并非外部调整的结果，而是模型内部自然发展的体现。DeepSeek-R1-Zero 通过利用更长的测试时计算，自然而然地获得了解决日益复杂推理任务的能力。其计算过程能够生成数百到数千个推理标记，使模型能够更深入地探索和完善其思维过程。这种自我进化中最显著的特点之一，是随着测试时计算量的增加，复杂行为的出现。例如，模型会进行反思 —— 回顾并重新评估之前的步骤，还会自发地探索解决问题的替代方法。这些行为并非预先编程设定，而是模型与强化学习环境交互的结果。这种自发发展显著提升了 DeepSeek-R1-Zero 的推理能力，使其能够更高效、准确地处理更具挑战性的任务。
在这里插入图片描述

图 3 DeepSeek-R1-Zero 在强化学习过程中训练集上每个回复的平均长度。DeepSeek-R1-Zero 自然学会用更多思考时间来解决推理任务。
DeepSeek-R1-Zero 的顿悟时刻：在训练 DeepSeek-R1-Zero 期间，一个特别有趣的现象是 “顿悟时刻” 的出现。如表 3 所示，这个时刻出现在模型的一个中间版本中。在这个阶段，DeepSeek-R1-Zero 学会了通过重新评估初始方法，为一个问题分配更多思考时间。这种行为不仅证明了模型推理能力的不断提升，也是强化学习能够带来意外且复杂结果的生动例证。这个时刻对于模型和观察其行为的研究人员来说都是一个 “顿悟时刻”。它凸显了强化学习的力量与魅力：我们无需明确教导模型如何解决问题，只需给予正确的激励，模型就能自主开发出先进的问题解决策略。“顿悟时刻” 有力地提醒我们，强化学习具有在人工系统中解锁新智能水平的潜力，为未来开发更自主、更具适应性的模型铺平了道路。
在这里插入图片描述

表 3 | DeepSeek-R1-Zero 中间版本一个有趣的 “顿悟时刻”。该模型学会了以拟人化的语气进行反思。这对我们来说也是一个顿悟时刻，让我们见证了强化学习的力量与美妙之处。
DeepSeek-R1-Zero 的缺点：尽管 DeepSeek-R1-Zero 展现出强大的推理能力，并且自主发展出了意想不到的强大推理行为，但它也面临一些问题。例如，DeepSeek-R1-Zero 存在可读性差和语言混杂等挑战。为了使推理过程更易读并与开放社区分享，我们探索了 DeepSeek-R1，这是一种利用包含人类友好型冷启动数据的强化学习方法。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】
新书特色：本书从自然语言处理基础开始，逐步深入各种NLP热点前沿技术，使用了Java和Python两门语言精心编排了大量代码实例，契合公司实际工作场景技能，侧重实战。
全书共分为19章，详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型（Language Model）、分布式深度学习实战等内容，同时配套完整实战项目，例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践，深入浅出，知识点全面，通过阅读本书，读者不仅可以理解自然语言处理的知识，还能通过实战项目案例更好地将理论融入实际工作中。
《分布式机器学习实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】
新书特色：深入浅出，逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目。

【配套视频】

推荐系统/智能问答/人脸识别实战视频教程【陈敬雷】
视频特色：把目前互联网热门、前沿的项目实战汇聚一堂，通过真实的项目实战课程，让你快速成为算法总监、架构师、技术负责人！包含了推荐系统、智能问答、人脸识别等前沿的精品课程，下面分别介绍各个实战项目：
1、推荐算法系统实战
听完此课，可以实现一个完整的推荐系统！下面我们就从推荐系统的整体架构以及各个子系统的实现给大家深度解密来自一线大型互联网公司重量级的实战产品项目！
2、智能问答/对话机器人实战
由浅入深的给大家详细讲解对话机器人项目的原理以及代码实现、并在公司服务器上演示如何实际操作和部署的全过程！
3、人脸识别实战
从人脸识别原理、人脸识别应用场景、人脸检测与对齐、人脸识别比对、人脸年龄识别、人脸性别识别几个方向，从理论到源码实战、再到服务器操作给大家深度讲解！

自然语言处理NLP原理与实战视频教程【陈敬雷】
视频特色：《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理，以及源码级别的应用操作实战，直接讲解自然语言处理的核心精髓部分，自然语言处理从业者或者转行自然语言处理者必听视频！

人工智能《分布式机器学习实战》视频教程【陈敬雷】
视频特色：视频核心内容有互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战（推荐算法系统实战、人脸识别实战、对话机器人实战）。

上一篇：DeepSeek大模型技术系列三》DeepSeek-R1：通过强化学习激发大语言模型的推理能力
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄