【论文学习】DeepSeek-R1 总结

news2025/2/27 1:53:34

文章目录

  • Abstract
  • 1. Introduction
  • 2. Approach
    • 2.1. Overview
    • 2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model
    • 2.3. DeepSeek-R1: Reinforcement Learning with Cold Start
    • 2.4. Distillation: Empower Small Models with Reasoning Capability
  • 3. Experiment
    • 3.1. DeepSeek-R1 Evaluation
    • 3.2. Distilled Model Evaluation
  • 4. Discussion
    • 4.1. Distillation v.s. Reinforcement Learning
    • 4.2. Unsuccessful Attempts
  • 5. Conclusion, Limitation, and Future Work

DeepSeek-R1 论文

Abstract

本文介绍了 DeepSeek-R1 系列推理模型,包括 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,未经过监督微调(SFT)作为初步步骤,展现出卓越的推理能力。通过 RL,DeepSeek-R1-Zero 自然地发展出多种强大且有趣的推理行为。然而,它在可读性和语言混合方面面临挑战。为解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,该模型在 RL 之前引入了少量冷启动数据和多阶段训练流程。DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及从 DeepSeek-R1 蒸馏出的六个密集模型(1.5B、7B、8B、14B、32B、70B),基于 Qwen 和 Llama。

1. Introduction

近年来,大型语言模型(LLMs)迅速发展,逐渐接近通用人工智能(AGI)。后训练已成为完整训练流程的重要组成部分,能够提升模型在推理任务上的准确性、与社会价值观的对齐以及对用户偏好的适应性。OpenAI 的 o1 系列模型通过增加推理过程的长度,首次引入了推理时间扩展,显著提升了数学、编程和科学推理等任务的性能。然而,有效的测试时扩展仍然是研究社区的一个开放性问题。本文首次尝试通过纯强化学习(RL)提升语言模型的推理能力,探索 LLMs 在没有任何监督数据的情况下发展推理能力的潜力,重点关注通过纯 RL 过程的自我进化。

2. Approach

2.1. Overview

本文展示了通过大规模强化学习(RL)提升模型推理能力的可能性,即使不依赖监督微调(SFT)作为冷启动。我们介绍了:(1)DeepSeek-R1-Zero,直接在基础模型上应用 RL,不依赖任何 SFT 数据;(2)DeepSeek-R1,从经过少量长推理链(CoT)示例微调的基础模型开始应用 RL;(3)将 DeepSeek-R1 的推理能力蒸馏到较小的密集模型中。

2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

DeepSeek-R1-Zero 通过纯强化学习(RL)直接从基础模型开始训练,不依赖任何监督微调(SFT)数据。该模型在推理任务上表现出色,例如在 AIME 2024 上的 pass@1 分数从 15.6% 提升到 71.0%,通过多数投票进一步提升到 86.7%,与 OpenAI-o1-0912 相当。然而,DeepSeek-R1-Zero 在可读性和语言混合方面存在问题。为解决这些问题,我们引入了 DeepSeek-R1。

2.3. DeepSeek-R1: Reinforcement Learning with Cold Start

DeepSeek-R1 在 RL 之前引入了少量冷启动数据和多阶段训练流程。冷启动数据提高了模型的可读性,并为推理能力的发展提供了更好的起点。推理导向的 RL 进一步提升了模型的推理性能,尤其是在数学、编程和逻辑推理任务上。通过拒绝采样和监督微调(SFT),我们在推理和其他领域生成了新的训练数据,进一步优化了模型。最终,DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。

2.4. Distillation: Empower Small Models with Reasoning Capability

我们通过蒸馏技术将 DeepSeek-R1 的推理能力转移到较小的密集模型中。使用 Qwen 和 Llama 作为基础模型,蒸馏后的模型在推理任务上表现出色,显著优于其他开源模型。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到了 55.5%,超过了 QwQ-32B-Preview。

3. Experiment

3.1. DeepSeek-R1 Evaluation

DeepSeek-R1 在多项基准测试中表现出色,与 OpenAI-o1-1217 相当。例如,在 AIME 2024 上达到了 79.8% 的 pass@1 分数,在 MATH-500 上达到了 97.3%。在编程任务上,DeepSeek-R1 在 Codeforces 上达到了 96.3% 的百分位数,在 LiveCodeBench 上达到了 65.9% 的 pass@1 分数。在知识类基准测试中,DeepSeek-R1 在 MMLU 上达到了 90.8%,在 GPQA Diamond 上达到了 71.5%。在开放式生成任务中,DeepSeek-R1 在 AlpacaEval 2.0 上达到了 87.6% 的长度控制胜率,在 Arena-Hard 上达到了 92.3% 的胜率。

3.2. Distilled Model Evaluation

蒸馏后的模型在推理任务上表现出色。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到了 55.5%,DeepSeek-R1-Distill-Qwen-32B 在 MATH-500 上达到了 94.3%。这些结果表明,通过蒸馏技术可以将大型模型的推理能力有效地转移到较小的模型中。

4. Discussion

4.1. Distillation v.s. Reinforcement Learning

蒸馏技术在提升小模型推理能力方面表现出色,而直接在小模型上应用大规模 RL 的效果有限。这表明大型基础模型的推理模式对提升推理能力至关重要。

4.2. Unsuccessful Attempts

在开发 DeepSeek-R1 的过程中,我们也尝试了其他方法,如过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS),但这些方法在大规模训练中面临挑战,未能取得预期的效果。

5. Conclusion, Limitation, and Future Work

DeepSeek-R1 通过强化学习显著提升了推理能力,并通过蒸馏技术将这些能力转移到较小的模型中。未来,我们计划在以下几个方向进行研究:

  • 通用能力提升:探索如何利用长推理链提升 DeepSeek-R1 在多轮对话、复杂角色扮演等任务中的表现。
  • 语言混合问题:解决 DeepSeek-R1 在处理非中文和英语查询时的语言混合问题。
  • 提示工程:优化提示设计,减少对少样本提示的敏感性。
  • 软件工程任务:通过异步评估提升 RL 过程的效率,改善软件工程任务的表现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2306637.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电子科技大学考研复习经验分享

电子科技大学考研复习经验分享 本人情况:本科就读于电科软院,24年2月开始了解考研,24年3月开始数学,9月决定考本院(开始全天候图书馆学习)并开始专业课学习,11月底开始政治学习,最后…

DeepSeek技术提升,Linux本地部署全攻略

文章目录 1.Ollama部署1.1 安装Ollama1.2 配置Ollama1.3 下载deepseek模型 2.安装MaxKB可视化页面2.1 下载镜像2.2 运行容器2.3 配置MaxKB 3.配置Chatbox AI可视化页面 1.Ollama部署 Ollama下载地址 根据自己需求选择版本下载 1.1 安装Ollama 下载安装脚本并执行 curl -fs…

在 Mac mini M2 上 MaxKb配置ollama,API域名无效的解决方案

环境说明 docker方案安装与使用的maxkb 本地ollama安装deekseek r1 解决方案 参考https://bbs.fit2cloud.com/t/topic/4165 mac m1用户,根据github的以下回复,成功绑定域名api 如果你想调用本地的ollama 中的大模型,域名试试:…

Java进阶(vue基础)

目录 1.vue简单入门 ?1.1.创建一个vue程序 1.2.使用Component模板(组件) 1.3.引入AXOIS ?1.4.vue的Methods(方法) 和?compoted(计算) 1.5.插槽slot 1.6.创建自定义事件? 2.Vue脚手架安装? 3.Element-UI的…

B站pwn教程笔记-3

栈知识、部分保护措施 GDB显示的栈地址有时候并不是可靠的地址,gdb也是用特殊的进程映像来拿地址的。且gdb默认关闭栈地址随机化。但是,偏移量是没有错误的。目前还没学到咋解决 第一个栈帧是main函数栈帧,之前的一些系统函数什么的没有栈帧…

论文笔记(七十二)Reward Centering(四)

Reward Centering(四) 文章概括摘要附录A 伪代码 文章概括 引用: article{naik2024reward,title{Reward Centering},author{Naik, Abhishek and Wan, Yi and Tomar, Manan and Sutton, Richard S},journal{arXiv preprint arXiv:2405.09999…

【Python量化金融实战】-第1章:Python量化金融概述:1.1量化金融的定义与发展历程

本小节学习建议:掌握Python编程、统计学(时间序列分析)、金融学基础(资产定价理论)三者结合,是进入量化领域的核心路径。 👉 点击关注不迷路 👉 点击关注不迷路 文章目录 1.1 量化金…

C#快速调用DeepSeek接口,winform接入DeepSeek查询资料 C#零门槛接入DeepSeek C#接入DeepSeek源代码下载

下载地址<------完整源码 在数字化转型加速的背景下&#xff0c;企业应用系统对智能服务的需求日益增长。DeepSeek作为先进的人工智能服务平台&#xff0c;其自然语言处理、图像识别等核心能力可显著提升业务系统的智能化水平。传统开发模式下&#xff0c;C#开发者需要耗费大…

Para-Lane: 首个真实世界多车道数据集,目的评估自动驾驶系统中的新型视角合成能力。

2025-02-22&#xff0c;阿里巴巴集团菜鸟自动驾驶实验室和百度研究院共同创建了一个名为 Para-Lane 的真实世界多车道数据集。该数据集目的评估自动驾驶系统中的新型视角合成&#xff08;NVS&#xff09;能力&#xff0c;通过提供大量真实世界的数据&#xff0c;弥补了现有合成…

[算法--前缀和] 一维前缀和

目录 1. 前缀和: 是一种对暴力求解的优化.2. 前缀和? 如何利用前面的计算结果提高效率?3. 如何预处理前缀和数组(如何让处理前缀和数组的复杂度是O(N))?接下来, 我们开启一个新的专题 -> 前缀和, 第一道是模板题, 一维前缀和 1. 前缀和: 是一种对暴力求解的优化. 前缀和…

《零基础学会!如何用 sql+Python 绘制柱状图和折线图,数据可视化一看就懂》

在数据驱动的时代&#xff0c;MySQL 是最常用的关系型数据库管理系统之一&#xff0c;广泛应用于各类数据存储和处理场景。数据分析的过程不仅仅是收集数据&#xff0c;还包括数据的清洗、转换、查询以及最终的报告和可视化。在本文中&#xff0c;我们将通过实际案例来介绍如何…

【算法系列】归并排序详解

文章目录 归并排序详解1. 基本原理1.1 分治法策略1.2 归并排序步骤1.3 图解示例 2. 时间复杂度与空间复杂度2.1 时间复杂度2.2 空间复杂度 3. 稳定性4. Java 实现示例5. 归并排序的优点与缺点5.1 优点5.2 缺点 6. 总结 归并排序详解 归并排序&#xff08;Merge Sort&#xff0…

Vue的项目创建以及项目目录与组合式API

一.创建Vue 1.Vue-CLI:创建Vue的脚手架工具 2.Create-vue&#xff1a;是Vue官方提供的脚手架之一,底层采用官方自主研发的vite,快捷&#xff0c;开发方便。 3.准备工作:系统中需要安装nodejs环境&#xff0c;在该环境中提供npm包管理器 4.创建Vue项目的命令:npm init vuela…

【学习笔记】计算机网络(四)

第4章 网络层 文章目录 第4章 网络层4.1 网络层的几个重要概念4.1.1 网络层提供的两种服务虚电路服务&#xff08;Virtual Circuit Service&#xff09;数据报服务&#xff08;Datagram Service&#xff09; 4.1.2 网络层的两个层面 4.2 网际协议 IP - IPv44.2.1 虚拟互连网络4…

DeepSeek-R1:通过强化学习激励大语言模型的推理能力

摘要 本文介绍了我们的第一代推理模型&#xff0c;DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是通过大规 模强化学习&#xff08;RL&#xff09;训练的模型&#xff0c;在没有使用监督微调&#xff08;SFT&#xff09;这个前置步骤的情况下&#xff0c;展示了卓越的推…

洛谷 P8705:[蓝桥杯 2020 省 B1] 填空题之“试题 E :矩阵” ← 卡特兰数

【题目来源】 https://www.luogu.com.cn/problem/P8705 【题目描述】 把 1∼2020 放在 21010 的矩阵里。要求同一行中右边的比左边大&#xff0c;同一列中下边的比上边的大。一共有多少种方案? 答案很大&#xff0c;你只需要给出方案数除以 2020 的余数即可。 【答案提交】 …

【无标题】网络安全公钥密码体制

第一节 网络安全 概述 一、基本概念 网络安全通信所需要的基本属性“ 机密性&#xff1b;消息完整性&#xff1b;可访问性与可用性&#xff1b;身份认证。 二、网络安全威胁 窃听&#xff1b;插入&#xff1b;假冒&#xff1b;劫持&#xff1b;拒绝服务Dos和分布式拒绝服务…

【含开题报告+文档+PPT+源码】基于SpringBoot的进销存管理系统的设计与实现

开题报告 本文提出并研发了一款基于Spring Boot框架构建的进销存管理系统&#xff0c;该系统集成了全方位的企业运营管理功能&#xff0c;涵盖了用户登录验证、系统公告管理、员工信息与权限管理、物料全流程&#xff08;采购入库、销售出库、退货处理&#xff09;控制、部门组…

Linux-SaltStack配置

文章目录 SaltStack配置 &#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f916;Linux专栏&#xff1a;点击&#xff01; ⏰️创作时间&#xff1a;2025年02月24日20点51分 SaltStack配置 SaltStack 中既支持SSH协议也支持我们的一个客户端 #获取公钥&#xff08;…

事务的4个特性和4个隔离级别

事务的4个特性和4个隔离级别 1. 什么是事务2. 事务的ACID特性2.1 原子性2.2 一致性2.3 持久性2.4 隔离性 3. 事务的创建4. 事务并发时出现的问题4.1 DIRTY READ 脏读4.2 NON - REPEATABLR READ 不可重复读4.3 PHANTOM READ 幻读 5. 事务的隔离级别5.1 READ UNCOMMITTED 读未提交…