【推理llm论文精度】DeepSeek-R1:强化学习驱动LLM推理能力飞跃

news2025/2/20 6:53:01

最近deepseek R1模型大火,正好复习一下他家的技惊四座的论文https://arxiv.org/pdf/2501.12948
在这里插入图片描述

近年来,大型语言模型(LLM)在推理能力上取得了显著进展,但如何进一步有效提升仍然是研究热点。DeepSeek-AI发布了 DeepSeek-R1 论文,探索了**强化学习(RL)**在激发LLM推理潜力方面的新方法,并开源了模型和相关资源。

一、背景:后训练与推理能力提升(提出问题:如何超越openai的o1模型)

后训练已成为提升LLM推理能力的关键环节。OpenAI的o1系列模型通过推理时缩放思维链(CoT),在推理任务上取得突破。然而,如何有效进行推理时缩放仍是开放问题。

此前研究探索了奖励模型、强化学习、搜索算法等方法,但通用推理性能仍有提升空间。DeepSeek-R1的目标是探索纯强化学习提升LLM推理能力的可能性,关注LLM在无监督数据下的自我进化

二、DeepSeek-R1-Zero:从零开始的纯RL探索(利器1: RL引导V3模型出现自我进化)

DeepSeek-R1-Zero是DeepSeek-AI的首个纯RL推理模型,完全不依赖监督微调(SFT),直接在 DeepSeek-V3-Base 上应用RL。

RL算法:GRPO

DeepSeek-R1-Zero采用Group Relative Policy Optimization (GRPO)算法,节省RL训练成本。GRPO避免了传统的评论员模型,通过组得分估计基线,目标函数如下:

J_GRPO(θ) = E[q ~ P(Q), {o_i}_{i=1}^G ~ π_{θold}(O|q)] [ (1/G) * ∑_{i=1}^G (min(clip(π_θ(o_i|q) / π_{θold}(o_i|q)), 1-ε, 1+ε) * A_i - β * D_{KL}(π_θ || π_{ref})) ]

奖励模型:规则驱动

奖励模型采用规则驱动方式,包含:

  • 准确率奖励:评估答案正确性,规则驱动验证。
  • 格式奖励:强制模型思考过程置于<think></think>标签内。

训练模版:引导思考

训练模版引导模型先输出思考过程,再给出答案,结构如下:

A conversation between User and Assistant... <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

性能与自我进化

DeepSeek-R1-Zero展现了自我进化能力,推理能力随RL训练稳步提升。在AIME 2024测试中,pass@1分数从15.6%跃升至71.0%,媲美OpenAI-01-0912。训练中还出现**“顿悟时刻”**,模型学会分配更多思考时间,提升解题能力。

局限性

DeepSeek-R1-Zero存在可读性差语言混合问题。

三、DeepSeek-R1:冷启动与多阶段RL(利器2:多阶段训练,推理能力起飞,瞬间兼顾通用能力)

DeepSeek-R1在Zero基础上,引入冷启动数据多阶段训练,旨在提升性能并解决Zero的局限性。

  1. 冷启动

DeepSeek-R1收集少量高质量长CoT数据进行微调,作为RL初始actor,提升训练稳定性。冷启动数据强调可读性,采用格式 | special_token | <reasoning_process> | special_token | <summary>

  1. 推理导向RL

在冷启动微调后,进行与Zero相同的RL训练,重点增强推理能力。引入语言一致性奖励,缓解语言混合问题,最终奖励结合准确率和语言一致性。

  1. 拒绝采样与SFT

RL收敛后,使用checkpoint收集SFT数据,扩展到写作、角色扮演等通用任务,提升模型泛化能力。SFT数据包括:

  • 推理数据:拒绝采样生成,包含生成奖励模型辅助判断的数据,过滤低质量CoT。
  • 非推理数据:复用DeepSeek-V3 pipeline和SFT数据,少量CoT用于复杂任务。

使用约80万SFT数据微调DeepSeek-V3-Base。

  1. 面向所有场景的RL

二次RL阶段,提升模型的helpfulnessharmlessness。结合规则驱动(推理数据)和奖励模型(通用数据),训练目标兼顾推理能力和安全对齐。

四、蒸馏:赋予小型模型推理能力(不止拉升自己模型推理能力,顺便提拉一下同行)

为使小型模型具备推理能力,DeepSeek-AI采用蒸馏技术,使用DeepSeek-R1数据微调Qwen和Llama系列。实验表明,蒸馏显著提升小型模型推理能力,例如DeepSeek-R1-Distill-Qwen-7B超越QwQ-32B-Preview。DeepSeek-AI开源了蒸馏模型,仅SFT,未包含RL阶段,旨在展示蒸馏有效性。

实验评估

DeepSeek-R1在知识型、代码型和数学型基准上进行全面评估,并与主流模型对比。

DeepSeek-R1评估结果

  • 知识型基准:优于DeepSeek-V3,STEM问题提升显著。
  • 长文本QA (FRAMES):表现出色,文档分析能力强。
  • 事实性QA (SimpleQA):优于DeepSeek-V3。
  • 指令遵循 (IF-Eval):表现出色,归功于SFT和RL阶段的指令数据。
  • 开放域问答 (AlpacaEval & ArenaHard):卓越性能,写作能力强,大规模RL提升泛化能力。
  • 数学 & 代码任务:媲美OpenAI-01-1217,大幅超越其他模型。

蒸馏模型评估

DeepSeek-R1-Distill-Qwen-7B超越GPT-40-0513,DeepSeek-R1-14B超越QwQ-32B-PreviewDeepSeek-R1-32B/70B显著超越o1-mini,证明蒸馏潜力巨大。
在这里插入图片描述

讨论:蒸馏 vs. 强化学习

实验对比了蒸馏模型和RL训练模型。结果表明,蒸馏模型DeepSeek-R1-Distill-Qwen-32B优于RL训练模型DeepSeek-R1-Zero-Qwen-32B,即使后者经过大规模RL训练。

结论:

  1. 蒸馏更强大模型到小型模型效果显著,纯RL小型模型计算成本高,性能可能不及蒸馏。
  2. 蒸馏经济有效,但突破智能边界可能仍需更强基础模型和更大规模RL

结论与创新贡献

DeepSeek-R1研究探索了RL提升LLM推理能力,DeepSeek-R1-Zero验证了纯RL潜力,DeepSeek-R1通过冷启动和多阶段训练进一步提升性能,并通过蒸馏赋予小型模型推理能力。

文章创新点和贡献:

  1. 公开纯RL如何提升LLM推理能力:首次公开验证纯RL无需SFT即可激励LLM推理能力,解开o1模型面纱。
  2. 更强的模型,更低的成本,还是开源的:多多少少有点针对openai,不不不,是close ai
  3. 核心点
  • DeepSeek-R1多阶段训练流程:有效提升推理能力、可读性和通用性。(DeepSeek来告诉世界,推理能力要怎么训出来)
  • 证明蒸馏技术传递推理能力:蒸馏可高效赋予小型模型高性能推理能力。(普遍使用,老少兼宜)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2299631.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从零搭建SpringBoot3+Vue3前后端分离项目基座,中小项目可用

文章目录 1. 后端项目搭建 1.1 环境准备1.2 数据表准备1.3 SpringBoot3项目创建1.4 MySql环境整合&#xff0c;使用druid连接池1.5 整合mybatis-plus 1.5.1 引入mybatis-plus1.5.2 配置代码生成器1.5.3 配置分页插件 1.6 整合swagger3&#xff08;knife4j&#xff09; 1.6.1 整…

学习数据结构(9)栈和队列上

1.栈的概念 栈是一种特殊的线性表&#xff0c;只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作 的一端称为栈顶&#xff0c;另一端称为栈底。栈中的数据元素遵守后进先出&#xff08;先进先出&#xff09;的原则 栈的插入操作叫做进栈/压栈/入栈&#xff…

【ESP32】ESP-IDF开发 | WiFi开发 | HTTP服务器

1. 简介 1.1 HTTP HTTP&#xff08;Hyper Text Transfer Protocol&#xff09;&#xff0c;全称超文本传输协议&#xff0c;用于从网络服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效&#xff0c;使网络传输减少。它不仅保证计算机正确快速地传输超文本文档…

滚动弹幕案例

滚动弹幕案例 一、需求 1.页面上漂浮字体大小不一、颜色不一&#xff0c;从左向右滚动的弹幕&#xff1b; 2.底部中间有一个发送功能&#xff0c;可以发送新的弹幕&#xff1b; 3.底部的发送部分可以向下收起和弹出。 二、html <div class"container"><…

腿足机器人之五- 粒子滤波

腿足机器人之五粒子滤波 直方图滤波粒子滤波 上一篇博客使用的是高斯分布结合贝叶斯准则来估计机器人状态&#xff0c;本篇是基于直方图和粒子滤波器这两种无参滤波器估计机器人状态。 直方图方法将状态空间分解成有限多个区域&#xff0c;并用直方图表示后验概率。直方图为每个…

AI 编程工具—Cursor 进阶篇 数据分析

AI 编程工具—Cursor 进阶篇 数据分析 上一节课我们使用Cursor 生成了北京房产的销售数据,这一节我们使用Cursor对这些数据进行分析,也是我们尝试使用Cursor 去帮我们做数据分析,从而进一步发挥Cursor的能力,来帮助我们完成更多的事情 案例一 房产销售数据分析 @北京202…

搭建Deepseek推理服务

概述&#xff1a; 本文介绍用Open webui ollama搭建一套Deepseek推理服务&#xff0c;可以在web页面上直接进行对话。作为体验搭建的是Deepseek 7b参数版本 首先选择一个云厂商创建一台ubuntu系统的虚拟机&#xff0c;带公网IP&#xff0c;通过shell登录虚拟机完成以下操作&…

STM32的HAL库开发---ADC

一、ADC简介 1、ADC&#xff0c;全称&#xff1a;Analog-to-Digital Converter&#xff0c;指模拟/数字转换器 把一些传感器的物理量转换成电压&#xff0c;使用ADC采集电压&#xff0c;然后转换成数字量&#xff0c;经过单片机处理&#xff0c;进行控制和显示。 2、常见的AD…

6.编写正排索引切分字符串|倒排索引原理|引入jieba到项目(C++)

编写正排索引 继续编写incde.hpp #pragma once#include <iostream> #include <string> #include <vector> #include <fstream> #include <unordered_map> #include "util.hpp"namespace ns_index{struct DocInfo{std::string title;…

在Windows系统上测试safari浏览器的兼容性

文章目录 前言手机端的safari浏览器能替代PC端吗在Windows上测试safari浏览器的兼容性的方法利用云服务使用虚拟机在Windows上下载虚拟机遇到的问题以及解决思路总结 前言 在测试网站的兼容性时需要用到safari浏览器&#xff0c;在没有Mac的情况下&#xff0c;又不想麻烦同事&…

【设计模式】【结构型模式】桥接模式(Bridge)

&#x1f44b;hi&#xff0c;我不是一名外包公司的员工&#xff0c;也不会偷吃茶水间的零食&#xff0c;我的梦想是能写高端CRUD &#x1f525; 2025本人正在沉淀中… 博客更新速度 &#x1f44d; 欢迎点赞、收藏、关注&#xff0c;跟上我的更新节奏 &#x1f3b5; 当你的天空突…

惠普HP Color LaserJet CP1215/1210彩色打印机打印校准方法

执行校准 &#xff08;用随机光盘安装驱动&#xff09;完整安装打印机驱动程序。安装驱动程序的操作方法请参考以下文章&#xff1a; 惠普HP Color laserjet cp1215激光打印机在windows 7下使用随机光盘安装驱动程序&#xff0c;安装完成后&#xff1b; 依次点击“开始”→“所…

【雅思博客02】Virus!

Elementary ‐ Virus! (C0007) A: Oh great! This stupid computer froze again! That’s the third time today! Hey Samuel, can you come take a look at my PC? It’s acting up again. It must have a virus or something. B: Just give me a second; I’ll be right …

模型GPU->NPU(Ascend)迁移训练简述

目录 一、迁移训练流程图解 二、详细流程步骤 1. 模型训练与日志记录 2. 跨平台精度对齐对比 3. 问题定位与修复 4. 迭代验证 三、关键技术点 四、常见问题与解决方案 一、迁移训练流程图解 通过华为云的modelart进行运行环境选型 北京四使用GPU进行模型训练&#xff…

sql语言语法的学习

sql通用语法 sql分类 DDL(操作数据库和表) 操作数据库 操作表_查询 操作表_创建 举例&#xff1a; 操作表_删除 操作表_修改 DML(增删改表中数据) DML添加数据 DML删除数据

3.buuctf [BSidesCF 2019]Kookie

进入题目页面如下 尝试弱口令密码登录&#xff0c;无果 显示无效密码 用题中给出的用户名和密码登录虽然成功但没得到flag 用burp suite抓包试试 看到username处显示cookie 题目说用admin登录 将username的值改为admin 拿到flag 最后拿到flag

springboot245-springboot项目评审系统(源码+论文+PPT+部署讲解等)

&#x1f495;&#x1f495;作者&#xff1a; 爱笑学姐 &#x1f495;&#x1f495;个人简介&#xff1a;十年Java&#xff0c;Python美女程序员一枚&#xff0c;精通计算机专业前后端各类框架。 &#x1f495;&#x1f495;各类成品Java毕设 。javaweb&#xff0c;ssm&#xf…

Dify+Ollama+DeepSeek部署本地大模型+知识库搭建

前言 上一篇文章《OllamaDeepSeek部署本地大模型》我们已经知道如何在本地搭建自己的大模型了&#xff0c;不过想要让大模型能够根据我们个人或者企业的数据情况做出精准的回答&#xff0c;我们还需要将自己的数据投喂给大模型才可以。本篇文章我们将会使用一个开源项目dify集…

每日一题——不同路径的数目与矩阵最小路径和

机器人路径问题与矩阵最小路径和 1. 机器人路径问题题目描述示例示例 1示例 2 解题思路动态规划 代码实现复杂度分析 2. 矩阵的最小路径和题目描述示例示例 1示例 2 解题思路动态规划 代码实现复杂度分析 总结 1. 机器人路径问题 题目描述 一个机器人在 (m \times n) 大小的地…

143,【3】 buuctf web [GYCTF2020]EasyThinking

进入靶场 一开始那个题目名字就想到了框架 扫描目录 访问后自动下载了 找源码 <?php namespace app\home\controller;use think\exception\ValidateException; use think\facade\Db; use think\facade\View; use app\common\model\User; use think\facade\Request; use …