DeepSeek-R1:将强化学习用于激励大型语言模型的推理能力

news2025/1/30 12:41:22

目录

引言

 一、DeepSeek-R1的贡献

二、DeepSeek-R1的方法

2.1、DeepSeek-R1-Zero:基础模型上的强化学习

2.2、DeepSeek-R1:冷启动强化学习

2.3、蒸馏:赋予小模型推理能力

三、DeepSeek-R1实验结果

3.1、模型优点

3.2、模型缺点

四、讨论与未来工作

五、结论


引言

大型语言模型(LLMs)在近年来取得了长足的进步,在各种应用中展示出令人印象深刻的性能。然而,LLMs在复杂推理任务上仍面临挑战。为了进一步提升LLMs的推理能力,DeepSeek团队提出了DeepSeek-R1,这是一个通过强化学习(RL)来增强LLMs推理能力的模型。

关于强化学习的作用博主在之前的早期博文中已经有所提及。

 一、DeepSeek-R1的贡献

1. DeepSeek-R1-Zero:直接在基础模型上应用强化学习,不依赖任何监督微调(SFT)数据,证明了LLMs可以通过纯强化学习发展出强大的推理能力

2. DeepSeek-R1:结合少量高质量冷启动数据和迭代RL训练,进一步提升了模型的推理性能,并产生更加清晰、连贯的思维链。

3. 蒸馏:将DeepSeek-R1的推理能力成功蒸馏到更小、更高效的密集模型中,如Qwen和Llama系列,极大地提升了这些小模型在推理任务上的表现。

二、DeepSeek-R1的方法

2.1、DeepSeek-R1-Zero:基础模型上的强化学习

DeepSeek-R1-Zero直接在DeepSeek-V3-Base上应用大规模强化学习,不使用任何SFT数据。训练过程采用群体相对策略优化(GRPO)算法,并设计了基于规则的奖励系统,主要包括准确性奖励和格式化奖励。

奖励格式

奖励是训练信号的来源,它决定了强化学习的优化方向。为了训练 DeepSeek-R1-Zero ,采用
了一种基于规则的奖励系统,主要包括两种类型的奖励:
  1. 准确性奖励:准确性奖励模型评估响应是否正确。例如,在具有确定性结果的数学问题中 模型需要以指定格式(例如,在方框内)提供最终答案,从而实现基于规则的可靠正确 性验证。同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
  2. 格式化奖励:除了准确性奖励模型外,我们还采用了一种格式化奖励模型,该模型强制模型将其思考过程放在‘<思考>’和‘</思考>’标签之间。
 通过结构化输出约束,确保模型生成可解析、逻辑清晰的思维链,同时提升训练稳定性和任务适配性。

顿悟时刻

我们是怎么看出模型在这种非常“原始”的方法下,是真的学会了“思考”的呢?

论文记录了一个引人注目的案例:在处理一个涉及复杂数学表达式 √a - √(a + x) = x 的问题时,模型突然停下来说"Wait, wait. Wait. That's an aha moment I can flag here"(等等、等等、这是个值得标记的啊哈时刻),随后重新审视了整个解题过程。这种类似人类顿悟的行为完全是自发产生的,而不是预先设定的。

“顿悟时刻”有力地提醒了强化学习在解锁人工智能系统新智能水平方面的潜力,为未来更加自主和自适应的模型铺平了道路。

2.2、DeepSeek-R1:冷启动强化学习

在机器学习与模型训练中,冷启动(Cold Start) 指系统或模型在缺乏足够历史数据或预训练知识的情况下,通过引入少量高质量标注数据来初始化模型的过程。在DeepSeek-R1的上下文中,冷启动阶段是模型训练的起点,旨在为后续强化学习(RL)提供可靠的初始策略。

  1. 冷启动:收集数千条长链思维(CoT)数据来微调DeepSeek-V3-Base,作为初始强化学习演员。
  2. 面向推理的强化学习:采用与DeepSeek-R1-Zero相同的大规模RL训练过程,重点提升模型在推理密集型任务中的表现。
  3. 拒绝采样与监督微调:利用强化学习收敛后(就是再训练模型的效率很难提升)的检查点收集新的SFT数据,并重新训练DeepSeek-V3-Base模型,以增强模型在写作、角色扮演等通用任务中的能力。
  4. 全场景强化学习:进行次级强化学习阶段,结合奖励信号和多样化提示分布,进一步提高模型的有用性和无害性,同时精炼其推理能力。

2.3、蒸馏:赋予小模型推理能力

为了让更高效的小型模型具备类似DeepSeek-R1的推理能力,研究团队直接使用DeepSeek-R1整理的80万样本对Qwen和Llama系列模型进行了蒸馏。实验结果表明,将更强大的模型蒸馏为较小的模型能产生出色的结果,而依赖大规模RL的较小模型可能无法达到蒸馏的性能。

三、DeepSeek-R1实验结果

3.1、模型优点

DeepSeek-R1在各种推理相关的基准测试中取得了优异的成绩,包括:

- AIME 2024:79.8% 的 Pass@1 分数,略微超过了 OpenAI-o1-1217
- MATH-500:97.3% 的分数,与 OpenAI-o1-1217 表现相当
- Codeforces:2,029 的 Elo 评分,超过了 96.3% 的人类参赛者(这个是全球顶级算法比赛含金量非常高)
- MMLU:90.8% 的得分
- MMLU-Pro:84.0% 的得分
- GPQA Diamond:71.5% 的得分

-中国国家高中数学奥林匹克(CNMO 2024):78.8%的得分

-美国数学邀请赛2024(AIME 2024):79.8%的得分 

此外,DeepSeek-R1在知识、创意写作、通用问答、编辑、摘要等任务中也表现出色。

蒸馏后的小型模型同样展现了优异的性能:

- DeepSeek-R1-7B全面超越非推理模型如GPT-4o-0513
- DeepSeek-R1-14B在所有评估指标上均超过了QwQ-32B-Preview
- DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超越了OpenAI-o1-mini

3.2、模型缺点

只擅长数学,代码,逻辑类的问题。对文学,长文本总结方面的能力不足。

DeepSeek-R1目前并不擅长长文本规律总结

尽管R1-Zero展现出了惊人的推理能力,但研究者们很快发现了一个严重的问题:它的思维过程往往难以被人类理解。

论文坦诚地指出,这个纯强化学习训练出来的模型存在"poor readability"(可读性差)和"language mixing"(语言混杂)的问题。

这个现象其实很好理解:R1-Zero完全通过奖惩信号来优化其行为,没有任何人类示范的"标准答案"作为参考。就像一个天才儿童自创了一套解题方法,虽然屡试不爽,但向别人解释时却语无伦次。它在解题过程中可能同时使用多种语言,或者发展出了某种特殊的表达方式,这些都让其推理过程难以被追踪和理解。

四、讨论与未来工作

AlphaGo(Silver等,2017b)和AlphaZero的蒙特卡洛树搜索(MCTS)算法是一种通过模拟与回溯动态构建搜索树的算法,其核心在于平衡探索与利用,逐步逼近最优决策路径。它在游戏 AI、复杂问题求解等领域展现了强大的能力,但需要大量模拟次数才能收敛到高质量策略,实时性受限。奖励函数的设计直接影响搜索方向,不合理的奖励可能导致次优解。

未来,DeepSeek团队计划在以下方向为DeepSeek-R1进行投资研究:

  1. 提升通用能力,如函数调用、多轮对话、复杂角色扮演和json输出等任务
  2. 解决语言混合问题,优化非英文、非中文查询的处理
  3. 改进提示工程,提高模型在少样本或零样本设置下的性能
  4. 提升在软件工程任务中的表现

五、结论

DeepSeek-R1通过大规模强化学习提升语言模型推理能力,无需监督数据。结合少量高质量冷启动数据后性能与OpenAI o1模型匹敌。将推理能力成功蒸馏至小模型,大幅跑赢同尺寸开源模型。擅长STEM推理任务,局限于可读性、语言混合等。未来将提升通用能力,改进提示工程和软件工程任务表现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2284687.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DPO、KTO、DiffusionDPO

DPO&#xff08;Direct Preference Optimization&#xff09; 原文来自于 https://arxiv.org/pdf/2305.18290&#xff0c; Bradley-Terry (BT)模型&#xff0c;假设人的喜欢遵循下面的公式&#xff0c;给定x&#xff0c;得到 y 1 y_1 y1​和 y 2 y_2 y2​分别遵循以下关系&am…

分享|instructionfine-tuning 指令微调是提高LLM性能和泛化能力的通用方法

《生成式AI导论》课程中&#xff0c;李宏毅老师提到一篇关于“ instruction fine-tuning” 指令微调的论文&#xff1a; 《Scaling Instruction-Finetuned Language Models》 摘要分享&#xff1a; 事实证明&#xff0c; 在一组以指令形式表达的数据集上微调语言模型可以提…

Mac Electron 应用签名(signature)和公证(notarization)

在MacOS 10.14.5之后&#xff0c;如果应用没有在苹果官方平台进行公证notarization(我们可以理解为安装包需要审核&#xff0c;来判断是否存在病毒)&#xff0c;那么就不能被安装。当然现在很多人的解决方案都是使用sudo spctl --master-disable&#xff0c;取消验证模式&#…

C++学习——认识和与C的区别

目录 前言 一、什么是C 二、C关键字 三、与C语言不同的地方 3.1头文件 四、命名空间 4.1命名空间的概念写法 4.2命名空间的访问 4.3命名空间的嵌套 4.4命名空间在实际中的几种写法 五、输入输出 5.1cout 5.2endl 5.3cin 总结 前言 开启新的篇章&#xff0c;这里…

基于Django的豆瓣影视剧推荐系统的设计与实现

【Django】基于Django的豆瓣影视剧推荐系统的设计与实现&#xff08;完整系统源码开发笔记详细部署教程&#xff09;✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 该系统采用了Python作为后端开发语言&#xff0c;采用Django作为后端架构&#xff0c;结…

Open FPV VTX开源之ardupilot双OSD配置摄像头

Open FPV VTX开源之ardupilot双OSD配置 1 源由2. 分析3. 配置4. 解决办法5. 参考资料 1 源由 鉴于笔者这台Mark4 Copter已经具备一定的历史&#xff0c;目前机载了两个FPV摄像头&#xff1a; 模拟摄像头数字摄像头(OpenIPC) 测试场景&#xff1a; 从稳定性的角度&#xff1…

【岛屿个数——BFS / DFS,“外海”】

题目 推荐阅读 AcWing 4959. 岛屿个数&#xff08;两种解法&#xff0c;通俗解释&#xff09; - AcWing 1.岛屿个数 - 蓝桥云课 (lanqiao.cn) 代码 #include <bits/stdc.h> using namespace std; #define x first #define y second int dx4[4] {-1, 0, 1, 0}, dy4[4] …

《STL基础之vector、list、deque》

【vector、list、deque导读】vector、list、deque这三种序列式的容器&#xff0c;算是比较的基础容器&#xff0c;也是大家在日常开发中常用到的容器&#xff0c;因为底层用到的数据结构比较简单&#xff0c;笔者就将他们三者放到一起做下对比分析&#xff0c;介绍下基本用法&a…

基于Flask的豆瓣电影可视化系统的设计与实现

【FLask】基于Flask的豆瓣电影可视化系统的设计与实现&#xff08;完整系统源码开发笔记详细部署教程&#xff09;✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 随着互联网技术的飞速发展&#xff0c;影视剧行业的数据量呈爆炸性增长&#xff0c;其中影…

LosslessScaling-学习版[steam价值30元的游戏无损放大/补帧工具]

LosslessScaling 链接&#xff1a;https://pan.xunlei.com/s/VOHc-yZBgwBOoqtdZAv114ZTA1?pwdxiih# 解压后运行"A-绿化-解压后运行我.cmd"

【JS|第28期】new Event():前端事件处理的利器

日期&#xff1a;2025年1月24日 作者&#xff1a;Commas 签名&#xff1a;(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释&#xff1a;如果您觉得有所帮助&#xff0c;帮忙点个赞&#xff0c;也可以关注我&#xff0c;我们一起成长&#xff1b;如果有不对的地方&#xf…

Blazor-Blazor Web App项目结构

让我们还是从创建项目开始&#xff0c;来一起了解下Blazor Web App的项目情况 创建项目 呈现方式 这里我们可以看到需要选择项目的呈现方式&#xff0c;有以上四种呈现方式 ● WebAssembly ● Server ● Auto(Server and WebAssembly) ● None 纯静态界面静态SSR呈现方式 WebAs…

观察者模式和订阅发布模式

有人把观察者模式等同于发布订阅模式&#xff0c;也有人认为这两种模式存在差异&#xff0c;本质上就是调度的方法不同。 相比较&#xff0c;发布订阅将发布者和观察者之间解耦。&#xff08;发布订阅有调度中心处理&#xff09;

16【中文编程10年内或将占领国内应用市场】

这同样是一篇较为犀利的文章&#xff0c;看过我分析辩论性文章的都知道&#xff0c;角度犀利&#xff0c;与大多数人观点不同&#xff0c;这是因为大多数人赞同的观点&#xff0c;我觉得我也没必要再去探讨了 回归正题&#xff0c;在大多数人眼中中文编程的代表就是易语言&…

Niagara学习笔记

橙色 发射器 , 绿色 粒子, 红色 渲染器 Emitter State 发射器状态 Life Cycle Mode&#xff08;生命周期模式&#xff09; 选择Self就是发射器自身管理生命周期 Loop Behavior 决定粒子发射次数 一次&#xff08;Once&#xff09;&#xff1a;发射器只播放一次多次&#…

Linux(NTP配置)

后面也会持续更新&#xff0c;学到新东西会在其中补充。 建议按顺序食用&#xff0c;欢迎批评或者交流&#xff01; 缺什么东西欢迎评论&#xff01;我都会及时修改的&#xff01; NTP环境搭建 服务端客户端192.168.111.10192.168.111.11Linux MySQL5.7 3.10.0-1160.el7.x86_…

具身智能体俯视全局的导航策略!TopV-Nav: 解锁多模态语言模型在零样本目标导航中的顶视空间推理潜力

作者&#xff1a;Linqing Zhong, Chen Gao, Zihan Ding, Yue Liao, Si Liu 单位&#xff1a;北京航空航天大学&#xff0c;新加坡国立大学&#xff0c;香港中文大学多模态实验室 论文标题&#xff1a;TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM …

可以称之为“yyds”的物联网开源框架有哪几个?

有了物联网的发展&#xff0c;我们的生活似乎也变得更加“鲜活”、有趣、便捷&#xff0c;包具有科技感的。在物联网&#xff08;IoT&#xff09;领域中&#xff0c;也有许多优秀的开源框架支持设备连接、数据处理、云服务等&#xff0c;成为被用户们广泛认可的存在。以下给大家…

智能调度体系与自动驾驶技术优化运输配送效率的研究——兼论开源AI智能名片2+1链动模式S2B2C商城小程序的应用潜力

摘要&#xff1a;随着全球化和数字化进程的加速&#xff0c;消费者需求日益呈现出碎片化和个性化的趋势&#xff0c;这对物流运输行业提出了前所未有的挑战。传统的物流调度体系与调度方式已难以满足当前复杂多变的物流需求&#xff0c;因此&#xff0c;物流企业必须积极引入大…

图漾相机-ROS2-SDK-Ubuntu版本编译(新版本)

官网编译文档链接&#xff1a; https://doc.percipio.xyz/cam/latest/getstarted/sdk-ros2-compile.html 国内gitee下载SDK链接&#xff1a; https://gitee.com/percipioxyz 国外github下载SDK链接&#xff1a; https://github.com/percipioxyz 1.Camport ROS2 SDK 介绍 1.1 …