DeepSeek-R1技术报告快速解读

news2025/2/10 14:01:02

相关论文链接如下:

  1. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
  2. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
    Reinforcement Learning

文章目录

  • 一、论文脑图
  • 二、论文解读
    • 2.1 研究背景
    • 2.2 研究方法
    • 2.3 实验设置
    • 2.4 实验结果
    • 2.5 结果讨论
    • 2.6 研究结论
  • 三、GRPO算法
  • 四、其他参考资料


一、论文脑图

  《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》于2024年12月26日由DeepSeek-AI发表,介绍了通过强化学习提升大语言模型推理能力的研究成果,包括DeepSeek-R1-Zero和DeepSeek-R1模型的开发、蒸馏实验以及模型的评估与分析。论文包含内容如下面脑图所示:
脑图

二、论文解读

2.1 研究背景

  大语言模型(LLMs)发展迅速,后训练成为提升模型能力的重要环节。OpenAI的o1系列模型通过增加思维链推理过程长度在推理任务上取得显著进展,但有效测试时缩放的挑战仍待解决。本文旨在探索通过纯强化学习(RL)提升语言模型推理能力的方法。

2.2 研究方法

  DeepSeek-R1-Zero:直接在基础模型上应用RL,不依赖监督微调(SFT)。采用组相对策略优化(GRPO)算法,以节省训练成本。使用基于规则的奖励系统,包括准确性奖励和格式奖励。设计训练模板,引导模型先产生推理过程再给出答案。训练过程中,模型性能稳步提升,在AIME 2024基准测试中,pass@1分数从15.6%提升到71.0%,通过多数投票可进一步提升至86.7%,与OpenAI-o1-0912相当。还展现出自我验证、反思和生成长思维链等能力,训练中出现“aha moment”,但存在可读性差和语言混合等问题。
  DeepSeek-R1:为解决DeepSeek-R1-Zero的问题并进一步提升性能,构建并收集少量长思维链(CoT)数据对基础模型进行微调作为RL的起始点。采用与DeepSeek-R1-Zero相同的大规模RL训练过程,并引入语言一致性奖励以减轻语言混合问题。在推理导向的RL收敛后,通过拒绝采样收集SFT数据,包括推理数据和非推理数据,对模型进行两轮微调。最后进行全场景的RL训练,结合奖励信号和多样化提示分布,使模型在推理的同时更符合人类偏好。
  蒸馏:使用DeepSeek-R1生成的800k样本对Qwen和Llama等开源模型进行直接微调,使小模型具备推理能力。在蒸馏过程中仅应用SFT,不进行RL训练,以展示蒸馏技术的有效性。

2.3 实验设置

  评估基准:使用多个基准测试评估模型,包括知识类的MMLU、MMLU-Pro、GPQA Diamond等,编码相关的LiveCodeBench、Codeforces等,以及数学类的AIME 2024、MATH-500等。还在开放式生成任务中使用LLMs作为评判进行评估。
  评估提示:不同基准测试采用不同的提示设置,如MMLU等使用simpleevals框架的提示,MMLU-Redux采用Zero-Eval提示格式,部分基准测试根据情况对提示进行修改以适应零样本设置。
  基线模型:与DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini、OpenAI-o1-1217等强基线模型进行比较,对于蒸馏模型还与QwQ-32B-Preview进行对比。
  评估设置:设置模型的最大生成长度为32,768 tokens,采用pass@𝑘评估方法,使用特定的采样温度和top-P值生成多个响应,计算pass@1来评估模型性能。对于AIME 2024,还报告consensus(多数投票)结果。

2.4 实验结果

  DeepSeek-R1评估:在教育知识基准测试中,DeepSeek-R1比DeepSeek-V3表现更优,在处理STEM相关问题上准确性更高。在FRAMES长上下文依赖问答任务、IF-Eval格式指令遵循任务、AlpacaEval2.0和ArenaHard写作与开放域问答任务中表现出色。在数学任务上与OpenAI-o1-1217相当,在编码算法任务中表现优异,但在工程导向的编码任务上还有提升空间。在中文SimpleQA基准测试中,由于安全RL的影响表现不如DeepSeek-V3。
  蒸馏模型评估:蒸馏后的小模型表现出色,DeepSeek-R1-Distill-Qwen-7B在AIME 2024上超过QwQ-32B-Preview,DeepSeek-R1-14B在所有评估指标上超越QwQ-32B-Preview,DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超过o1-mini。

2.5 结果讨论

  蒸馏与强化学习对比:实验表明,将强大模型的推理模式蒸馏到小模型中效果显著,小模型通过本文的大规模RL训练难以达到蒸馏模型的性能。虽然蒸馏策略经济有效,但要进一步提升模型智能仍需更强大的基础模型和大规模RL训练。
  失败尝试分析:尝试过程中发现过程奖励模型(PRM)存在难以定义推理步骤、难以判断中间步骤正确性以及易出现奖励破解等问题;蒙特卡罗树搜索(MCTS)在训练扩展时面临搜索空间大、模型易陷入局部最优以及价值模型训练困难等挑战。

2.6 研究结论

   DeepSeek-R1-Zero通过纯RL在多种任务中取得了不错的性能,DeepSeek-R1借助冷启动数据和迭代RL微调表现更强大,在一系列任务上与OpenAI-o1-1217性能相当。通过蒸馏,小模型也能获得强大的推理能力。未来研究方向包括提升模型的通用能力、解决语言混合问题、优化提示工程以及增强在软件工程任务上的表现。

三、GRPO算法

GRPO算法图

四、其他参考资料

  1. B站ZOMI老师DeepSeek技术解读
  2. 张俊林:探讨DeepSeek R1和Kimi K1.5技术路线,以及与MCST的关联

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2295840.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SpringBoot+Vue实现航空票务管理系统

作者简介:Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验,被多个学校常年聘为校外企业导师,指导学生毕业设计并参与学生毕业答辩指导,…

让文物“活”起来,以3D数字化技术传承文物历史文化!

文物,作为不可再生的宝贵资源,其任何毁损都是无法逆转的损失。然而,当前文物保护与修复领域仍大量依赖传统技术,同时,文物管理机构和专业团队的力量相对薄弱,亟需引入数字化管理手段以应对挑战。 积木易搭…

java项目之美妆产品进销存管理系统的设计与开发源码(ssm+mysql)

项目简介 美妆产品进销存管理系统的设计与开发实现了以下功能: 美妆产品进销存管理系统的设计与开发的主要使用者分为管理员登录后修改个人的密码。产品分类管理中,对公司内的所有产品分类进行录入,也可以对产品分类进行修改和删除。产品管…

保姆级教程Docker部署Zookeeper模式的Kafka镜像

目录 一、安装Docker及可视化工具 二、Docker部署Zookeeper 三、单节点部署 1、创建挂载目录 2、运行Kafka容器 3、Compose运行Kafka容器 4、查看Kafka运行状态 5、验证生产消费 四、部署可视化工具 1、创建挂载目录 2、Compose运行Kafka-eagle容器 3、查看Kafka-e…

idea插件开发dom4j报错:SAXParser cannot be cast to class org.xml.sax.XMLReader

手打不易,如果转摘,请注明出处! 注明原文:https://blog.csdn.net/q258523454/article/details/145512328 dom4j报错 idea插件使用到了dom4j依赖,但是报错: I will print the stack trace then carry on…

【Go语言圣经】第八节:Goroutines和Channels

DeepSeek 说 Goroutines 和 Channels 最近非常流行询问DeepSeek某些相关概念或热点的解释,因此在开始系统性地学习《Go语言圣经》之前,我首先向DeepSeek进行了提问。具体的Prompt如下: 有关Golang当中的Goroutines和Channels,我现…

第3章 使用 Vue 脚手架

第3章 使用 Vue 脚手架 3.1 初始化脚手架3.1.1 说明3.1.2. 具体步骤3.1.3 分析脚手架结构1 总结2 细节分析1 配置文件2 src文件1 文件结构分析2 例子 3 public文件4 最终效果 3.2 ref属性3.3 props配置项3.4 mixin混入3.5 插件3.6 scoped样式3.7 Todo-list 案例3.7.1 组件化编码…

XILINX硬件设计-(1)LVDS接口总结

1.LVDS差分信号电路原理 LVDS指的是低压差分信号,是一种电平标准。 差分信号在串行通信中有着非常广泛的应用,典型应用有PCIE中的gen1,gen2,gen3,gen4,gen5,SATA接口,USB接口等。 …

单张照片可生成写实3D头部模型!Adobe提出FaceLift,从单一的人脸图像中重建出360度的头部模型。

FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表…

【AI】DeepSeek知识类任务和推理能力均表现优秀

2024 年 12 月 26 日,杭州深度求索(DeepSeek AI)发布 DeepSeek-V3 并同步开源,据介绍,DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT…

编程领域的IO模型(BIO,NIO,AIO)

目前对于市面上绝大多数的应用来说,不能实现的业务功能太少了。更多的是对底层细节,性能优化的追求。其中IO就是性能优化中很重要的一环。Redis快,mysql缓冲区存在的意义。都跟IO有着密切关系。IO其实我们都在用,输入输出流这块。…

DeepSeek为何能爆火

摘要:近年来,DeepSeek作为一款新兴的社交媒体应用,迅速在年轻人群体中走红,引发了广泛关注。本文旨在探讨DeepSeek为何能在短时间内爆火,从而为我国社交媒体的发展提供参考。首先,通过文献分析,…

【AIGC】语言模型的发展历程:从统计方法到大规模预训练模型的演化

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: AIGC | ChatGPT 文章目录 💯前言💯语言模型的发展历程:从统计方法到大规模预训练模型的演化1 统计语言模型(Statistical Language Model, SLM):统…

【04】Java+若依+vue.js技术栈实现钱包积分管理系统项目-若依框架二次开发准备工作-以及建立初步后端目录菜单列-优雅草卓伊凡商业项目实战

【04】Java若依vue.js技术栈实现钱包积分管理系统项目-若依框架二次开发准备工作-以及建立初步后端目录菜单列-优雅草卓伊凡商业项目实战 项目背景 本项目经费43000元,需求文档如下,工期25天,目前已经过了8天,时间不多了&#x…

机器学习:朴素贝叶斯分类器

贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。 贝叶斯定理是贝叶斯决策论的基础,描述了如何根据新的证据更新先验概率,贝叶斯定理&…

DeepSeek 大模型每个版本的特点以及运用场景对比

deepseek 网页地址:DeepSeek | 深度求索 1. DeepSeek-V1 发布时间:2024年1月 参数规模:预训练数据量2TB,具体参数未明确公开,推测为数十亿级别 功能特点: 编码能力:支持多种编程语言(如Python、Java、C++),可生成高质量代码框架。 长上下文处理:支持128K上下文窗口,…

【Langchain学习笔记(一)】Langchain介绍

Langchain介绍 Langchain介绍前言1、Langchain 是什么2、为什么要用 Langchain3、Langchain 的核心4、Langchain 的底层原理5、Langchain 的应用场景 Langchain介绍 前言 想象一下,如果你能让聊天机器人不仅仅回答通用问题,还能从你自己的数据库或文件…

VSCode中出现“#include错误,请更新includePath“问题,解决方法

1、出现的问题 在编写C程序时,想引用头文件但是出现如下提示: (1)首先检查要引用的头文件是否存在,位于哪里。 (2)如果头文件存在,在编译时提醒VSCode终端中"#include错误&am…

【HeadFirst系列之HeadFirstJava】第2天之类与对象-拜访对象村

前言 从今日起,陆续分享《HeadFirstJava》的读书笔记,希望能够帮助大家更好的理解Java,提高自己的基础编码能力。 Java是一门面向对象的高级编程语言,常年霸占编程语言排行榜前三。 Java是目前国内的主流开发语言,基本…

MoMask:可将文本描述作为输入并生成相应的高质量人体运动动作

该图展示了 MoMask (一种最先进的人体运动生成模型)生成的运动示例。MoMask 使用文本到运动范式进行操作,其中它将文本描述作为输入并生成相应的高质量人体运动。这种方法确保生成的动作准确反映给定的文本条件,展示了 MoMask 生成…