DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化

news2025/2/6 8:28:50

内容提要

刚刚我注意到DeepSeek研究员Daya Guo回复了网友有关DeepSeek R1的一些问题,以及接下来的公司的计划,只能说DeepSeek的R1仅仅只是开始,内部研究还在快速推进,DeepSeek 的研究员过年都没歇,一直在爆肝推进研究,接下来DeepSeek还有大招

文章正文

事情是这样的,2月1号,大年初四Daya Guo发了一条推文,透露了春节期间让他最兴奋的事情,亲眼见证了 R1-Zero 模型性能曲线的 “持续增长”,并且直言感受到了 强化学习(RL)的强大力量!这一下子就点燃了网友们的好奇心,大家纷纷跑去围观提问(太拼了,deepseek研究员过年都在爆肝训练模型)

以下我来帮大家还原一下Daya Guo与网友对话:

网友A @PseudoProphet: “大佬,想问下这个性能持续提升能持续多久呢?现在是早期阶段吗?感觉DeepSeek的RL模型是不是像语言模型里的GPT-2一样刚起步?还是说已经到GPT-3.5那种比较成熟的阶段,快要遇到瓶颈了?”

这个问题问的相当犀利啊,直接关系到DeepSeek RL技术的潜力!Daya Guo 的回复也十分坦诚:

Daya Guo : “我觉得我们还处于非常早期的阶段,RL 领域还有很长的路要探索。但我相信今年会看到显著的进展”

划重点! “非常早期”, “很长的路要探索”, “今年会有显著进展”!这几个关键词信息量巨大。这意味着,DeepSeek 认为他们在RL领域仍然有巨大的进步空间,R1 现在的成绩可能只是冰山一角,未来可期啊!

紧接着,另一位网友 @kaush_trip (Cheeku Tripathi)抛出了一个更专业的问题,直击模型能力的核心:

网友B @kaush_trip: “基于 R1-Zero 的性能,您如何评估模型是真的具备了 泛化能力,还是仅仅 记忆了状态转换和奖励 ?”

这个问题问的非常到位!毕竟现在很多模型看起来很强大,但实际上只是在训练数据上“死记硬背”,换个环境就拉胯。DeepSeek R1 到底是不是真材实料呢?

Daya Guo : “我们使用 RL prompt 未覆盖的领域的基准 来评估泛化能力。目前来看,它 似乎具备泛化能力”

“RL prompt 未覆盖的领域” 这句话是关键!这意味着 DeepSeek 不是用训练数据来“作弊”评估,而是用模型 从未见过 的新场景来测试,这才能真正体现模型的泛化水平。Daya Guo 用 “似乎具备” 这种严谨的措辞,也更显得真实可信

接下来,一位ID名为 @teortaxesTex 的网友,DeepSeek的忠实粉丝(备注里都写着“DeepSeek鲸鱼啦啦队”),他从DeepSeek V3 技术报告入手,提出了一个关于 模型训练时间 的问题:

网友C @teortaxesTex: “如果不是秘密的话:这次 RL 训练跑了多久?感觉你们早在 12 月 10 号就有了 R1 或者至少是 R1-Zero,因为 V3 技术报告里提到 V2.5 模型用了 R1 的知识蒸馏,而且 V2.5-1210 的分数和现在的模型一样。现在做的这个是那次训练的延续吗?”

这位网友观察力惊人啊!能从技术报告里抠出这么多细节。Daya Guo 也耐心解答了模型的迭代过程:

Daya Guo : “660B 参数的 R1-Zero 和 R1 是在 V3 发布之后才开始跑的,训练大约花了 2-3 周。之前我们提到的 R1 模型(比如在 V3 技术报告里),实际上是 R1-Lite 或者 R1-Lite-Zero”

原来如此!我们现在看到的 R1-Zero 和 R1 是 “全新升级版”,之前的 R1-Lite 系列是小规模版本。看来 DeepSeek 在背后默默迭代升级了不少版本啊

关于训练速度,网友 @jiayi_pirate (Jiayi Pan)和 网友B @kaush_trip 又接力提出了一个“灵魂拷问”:

网友D @jiayi_pirate: “3 周 1 万 RL steps,每个梯度传播 (grpo) 步骤要 ~ 3 分钟 ????”

网友B @kaush_trip: “如果每个梯度传播 (grpo) 步骤要 ~3 分钟,那大概每小时 5 步,每天 120 步,确实很慢。”

这算的是真够细致的!按照网友的计算,DeepSeek R1 的训练速度确实不算快。侧面也说明,这种高性能的 RL 模型,训练成本和时间投入都是巨大的。“慢工出细活” 用来形容 AI 模型训练,好像也挺合适的

最后,一位名叫 @davikrehalt (Andy Jiang)的网友,从更前沿的应用角度提了一个问题:

网友E @davikrehalt: “你们有没有尝试用 RL 来搞 形式化证明环境,而不是只做问答对?要是今年有个开源模型能在 IMO (国际数学奥林匹克) 拿金牌就好了!(以及更多希望!)”

形式化证明!IMO 金牌!这位网友的野心不小啊!不过,把 AI 应用到数学证明这种硬核领域,确实是未来趋势。Daya Guo 的回答再次让人惊喜:

Daya Guo : “我们也在尝试将 R1 应用于 Lean 这样的形式化证明环境。我们希望尽快向社区发布更好的模型”

听 Daya Guo 的意思,他们在这方面已经有进展,未来可能会有更重磅的模型发布!期待值拉满!

写在最后

从Daya Guo的回应中可提炼三大信号:

技术定位:RL尚处早期,性能提升远未见顶;

验证逻辑:跨领域测试泛化能力,拒绝“记忆投机”

应用边界:从语言模型到数学证明,RL正向高阶推理迈进

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2293689.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LLM推理--vLLM解读

主要参考: vLLM核心技术PagedAttention原理 总结一下 vLLM 的要点: Transformer decoder 结构推理时需要一个token一个token生成,且每个token需要跟前序所有内容做注意力计算(包括输入的prompt和该token之前生成的token&#xf…

vscode软件操作界面UI布局@各个功能区域划分及其名称称呼

文章目录 abstract检查用户界面的主要区域官方文档关于UI的介绍 abstract 检查 Visual Studio Code 用户界面 - Training | Microsoft Learn 本质上,Visual Studio Code 是一个代码编辑器,其用户界面和布局与许多其他代码编辑器相似。 界面左侧是用于访…

一键开启/关闭deepseek

一键开启/关闭 Deepseek对应下载的模型一键开启 Deepseek,一键关闭Deepseek双击对应的bat,就可以启动https://mbd.pub/o/bread/Z56YmpZvbat 下载:https://mbd.pub/o/bread/Z56YmpZv 可以自己写下来,保存成bat文件,也可…

单纯接入第三方模型就无需算法备案了么?

随着人工智能技术的快速发展,越来越多的企业开始接入第三方模型以提升自身业务能力。然而,关于算法备案的问题也引发了诸多讨论,尤其是单纯接入第三方模型是否需要备案这一问题,更是让不少企业感到困惑。 一、明确算法备案的主体…

DS图(中)(19)

文章目录 前言一、图的遍历广度优先遍历深度优先遍历 二、最小生成树Kruskal算法Prim算法两种方法对比 总结 前言 承上启下,我们来学习下图的中篇!!! 一、图的遍历 图的遍历指的是遍历图中的顶点,主要有 广度优先遍历 …

YK人工智能(六)——万字长文学会基于Torch模型网络可视化

1. 可视化网络结构 随着深度神经网络做的的发展,网络的结构越来越复杂,我们也很难确定每一层的输入结构,输出结构以及参数等信息,这样导致我们很难在短时间内完成debug。因此掌握一个可以用来可视化网络结构的工具是十分有必要的…

Gitea+Gridea 创建个人博客

历史文档存档,该方法目前已经无法使用,部署方法可供参考 Gitea部分 1.关于Gitea Gitea 是一个面向开源及私有软件项目的托管平台,是全球最大的代码托管平台之一。它采用 Git 分布式版本控制系统,为开发者提供了代码托管、版本控…

【Linux】一文带你入门了解线程和虚拟地址空间中页表映射的秘密(内附手绘底层逻辑图 通俗易懂)

绪论​ 每日激励:“努力去做自己该做的,但是不要期待回报,不是付出了就会有回报的,做了就不要后悔,不做才后悔。—Jack” 绪论​: 本章是LInux中非常重要的线程部分,通过了解线程的基本概念&am…

Flash Attention与Attention

原始Attention是: Flash Attention: 伪代码:4d(分别代表Q\K\V\O) Flash Attention2优化了

JAVA进阶之线程

为神马有线程?这玩意儿在干嘛??? 回答这个问题,就先要知道一点点计算机的工作方式。 总所周知,计算机有五部分:输入输出、计算器、存储器、控制器。而在计算机内,CPU、内存、I/O之…

机器学习专业毕设选题推荐合集 人工智能

目录 前言 毕设选题 开题指导建议 更多精选选题 选题帮助 最后 前言 大家好,这里是海浪学长毕设专题! 大四是整个大学期间最忙碌的时光,一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理…

C++ 中的 `string` 类型:全面解析与高效操作

C 中的 string 类型:全面解析与高效操作 在 C 中,string 类型是对字符数组的高级封装,它提供了大量内置函数,使得字符串的处理变得更为简便和高效。与 C 风格的字符数组不同,string 类型不仅自动管理内存,…

Java入门进阶

文章目录 1、常用API 1.1、Math1.2、System1.3、Object1.4、Arrays1.5、基本类型包装类 1.5.1、基本类型包装类概述1.5.2、Integer1.5.3、int和String相互转换1.5.4、自动装箱和拆箱 1.6、日期类 1.6.1、Date类1.6.2、SimpleDateFormat类 1.6.2.1、格式化(从Date到…

C#结合html2canvas生成切割图片并导出到PDF

目录 需求 开发运行环境 实现 生成HTML范例片断 HTML元素转BASE64 BASE64转图片 切割长图片 生成PDF文件 小结 需求 html2canvas 是一个 JavaScript 库,它可以把任意一个网页中的元素(包括整个网页)绘制到指定的 canvas 中&#xf…

485网关数据收发测试

目录 1.UDP SERVER数据收发测试 使用产品: || ZQWL-GW1600NM 产品||【智嵌物联】智能网关型串口服务器 1.UDP SERVER数据收发测试 A(TX)连接RX B(RX)连接TX 打开1个网络调试助手,模拟用户的UDP客户端设…

InnoDB和MyISAM的比较、水平切分和垂直切分、主从复制中涉及的三个线程、主从同步的延迟产生和解决

InnoDB和MyISAM的比较 事务支持: InnoDB支持:支持事务 (ACID 属性)。支持 Commit、Rollback 和 Savepoint 操作。适合需要事务处理的应用,例如银行系统。MyISAM:不支持事务。每次操作都是自动提交,不能回滚或中止。适合对事务要求…

JDK9新特性

文章目录 新特性:1.模块化系统使用模块化module-info.java:exports:opens:requires:provides:uses: 2.JShell启动Jshell执行计算定义变量定义方法定义类帮助命令查看定义的变量:/var…

基于Ubuntu2404搭建Zabbix7.2

Zabbix 搭建zabbix zabbix7.2已推出:官网 增加的新功能如下: 1.使用新的热门商品小部件全面概览指标 数据概览小部件已转换为热门项目小部件使用项目模式可以实现细粒度的项目选择利用条形图、指标和迷你图来可视化您的数据定义价值阈值以动态地可视化…

Math Reference Notes: 符号函数

1. 符号函数的定义 符号函数(Sign Function) sgn ( x ) \text{sgn}(x) sgn(x) 是一个将实数 ( x ) 映射为其 符号值(即正数、负数或零)的函数。 它的定义如下: sgn ( x ) { 1 如果 x > 0 0 如果 x 0 − 1 如…

【数据结构】链表应用-链表重新排序

重新排序 反转链表预期实现思路解题过程code力扣代码核心代码完整代码 总结 删除链表中间节点代码解惑 链表重新排序题目描述解题思路解题过程复杂度代码力扣代码完整代码 反转链表 预期实现 思路 你选用何种方法解题? 我选用了迭代法来反转链表。这是一种经典且高…