【翻译+论文阅读】DeepSeek-R1评测:粉碎GPT-4和Claude 3.5的开源AI革命

news2025/2/8 18:23:25

目录

  • 一、DeepSeek-R1 势不可挡
  • 二、DeepSeek-R1 卓越之处
  • 三、DeepSeek-R1 创新设计
  • 四、DeepSeek-R1 进化之路
    • 1. 强化学习RL代替监督微调学习SFL
    • 2. Aha Moment “啊哈”时刻
    • 3. 蒸馏版本仅采用SFT
    • 4. 未来研究计划

部分内容有拓展,部分内容有删除,与原文会有差异,建议结合原文、参考及视频整体阅读。
英文标题:Deepseek-R1 Review : Open Source AI Revolution Crushing GPT-4 and Claude 3.5
原文链接:https://www.geeky-gadgets.com/deepseek-r1-review/
创作者:Julian Horsey
发布时间:2025.1.28
视频来源:《Deepseek-R1 (Tested): BEST LLM EVER That’s Opensource? AGI IS HERE! (Beats O1 & 3.5 Sonnet)》(YouTube,链接不挂了,自行搜索WorldofAI)
参考文献包括但不限于:

  • DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,” 2025.
  • deepseek-r1的1.5b、7b、8b、14b、32b、70b和671b有啥区别?
  • 全世界最强的算法平台codeforces究竟有什么魅力?
  • David Rein, B., et al, “GPQA: A Graduate-Level Google-Proof Q&A Benchmark,” 2023. Hunter Lightman, V., et al, “Let’s Verify Step by Step,” 2023.
  • https://paperswithcode.com/dataset/mmlu
  • Carlos E. Jimenez, J., et al, “SWE-bench: Can Language Models Resolve Real-World GitHub Issues?,” 2024.

在这里插入图片描述

一、DeepSeek-R1 势不可挡

新的AI大模型 Deepseek-R1 正在席卷全球,为开源大型语言模型(LLMs)树立了新的基准。该模型在多个任务上与 OpenAI O1、GPT-4 Omni 和 Claude 3.5 Sonnet 等有与之相当甚至更为优秀的表现。基于MIT 许可证(更宽松的软件许可)、经济实惠性和先进的功能,Deepseek-R1 正在改变 AI 技术的可访问性和实际应用。在World of AI 的这篇深入评测视频中,可以从更专业角度了解这个新开源的 AI 模型。
Deepseek-R1 在编程、数学和多语言任务等关键领域超越行业巨头 OpenAI 的 O1 和 GPT-4 Omni,证明了开源创新(open source innovation)可以与专有解决方案(proprietary solutions)相媲美,甚至超越它们。
在这里插入图片描述

在这里插入图片描述

问:
如何衡量大模型在各个任务上的性能?测试数据库如何构建?上面的条形图中横坐标都是针对什么领域的测试数据集?
答:

  1. 性能评估:让模型尝试解决这些问题,记录正确性或得分,如果是程序,则验证是否可以正确运行并解决问题。
  2. 数据库构建:收集问题👉问题预处理(格式化、清洗、标注正确答案)👉数据库更新;
  3. 条图横坐标:Pass@1表示第一次尝试就正确解决问题的比例;Percentile表示百分比。
    3.1 AIME 2024 (American Invitational Mathematics Examination 2024):美国人邀请赛数学竞赛。该竞赛由美国数学协会(MAA)管理。AIME是通往美国数学奥林匹克竞赛(USAMO)或美国初级数学奥林匹克竞赛(USAJMO)的第二阶段考试,这些竞赛是选拔参加国际数学奥林匹克(IMO)队伍的系列考试的一部分。AIME包括15个问题,考试时间为3小时,每个答案都是一个介于0到999之间的整数。旨在挑战学生的数学问题解决能力,涵盖算术、代数、计数、几何、数论和概率等中学数学主题。通常,考试中的问题需要创造性地使用中学课程知识,或者理解不同数学领域如何结合在一起来调查和解决问题。错误答案不会扣分,但正确答案会获得一分,因此最高分是15分。
    3.2 Codeforces :国外著名编程竞赛平台,评估大模型的算法和编程能力。2小时竞赛,每周一两次,代码和程序均公开(很有意思的网站),题目兼容并蓄,思维陷阱较多。
    3.3 GPOA Diamond :由198个问题组成的高质量问答数据集,仅包括专家正确答案和大多数非专家的问题。与主集GPQA(由生物学,物理和化学专家撰写的448个多项选择问题)类似,还包括第二个专家验证者犯有可证明的错误的问题。但是,Diamond的要求更加严格,要求第一个专家验证者必须正确回答,然后第二个专家验证者错误回答,但他们清楚地描述了对问题作者的解释的错误或理解。
    3.4 Math 500:OpenAI在其Let‘s Verify Step by Step论文中的作为数学基准的评估子集,包含500个问题。
    3.5 MMLU(Massive Multitask Language Understanding):大规模多任务语言理解,基准涵盖了跨STEM,人文,社会科学等57个主题。它的难度从基础级别到高级专业水平,并且可以测试世界知识和解决问题的能力。paperwithcode上的leaderboard还没更新。
    3.6 SWE-bench:涉及软件工程(SWE)相关的基准测试,"Resolved"表示模型成功解决的问题比例。该框架由2,294个软件工程问题组成,包含来自12个流行的Python存储库中的GitHub问题,这些存储库报告了错误或请求新功能,并提取对存储库进行更改以解决这些问题的请求。

但真正让 Deepseek-R1 独树一帜的不仅仅是它的性能,还有它的可访问性和经济实惠性。上周末,DeepSeek App下载量在 Android 和 Apple 应用商店中均位居第一,受欢迎程度足以体现。无论是寻找成本效益高的工具的独立开发者,还是寻求可扩展 AI 解决方案的组织,Deepseek-R1 都提供了一个让先进AI技术触手可及的未来。

二、DeepSeek-R1 卓越之处

  • Deepseek-R1 作为新的开源 AI 大模型,在多个任务上与 OpenAI O1、GPT-4 Omni 和 Claude 3.5 Sonnet 等有与之相当甚至更为优秀的表现。
  • 该模型使用 MIT 许可证,比 OpenAI O1 等专有模型便宜 30 倍,比 ChatGPT 成本效益高 96.4%。
  • 该模型支持高达 128k 的令牌数用于处理大规模数据集,并通过 API、LM Studio 和本地工具(如 Ollama)提供部署灵活性(最大生成长度为32768个tokens )
  • 提供基于OWEN的蒸馏版本,开放适用于要求响应速度快、硬件资源有限的1.5B-7B版本、适用于对模型性能有要求但无超高配置的8B-14B版本、以及适用于专业问答系统、中规模创作平台的32B-70B版本,满足多样化用户需求。
  • 其先进功能涵盖编码、数学、多语言处理、设计和总结,使其成为开发者、研究人员和跨行业组织的多功能工具。

蒸馏版本模型性能对比
在这里插入图片描述

没有人比我的MateBook2018D性能还要差的电脑吧,我测试了下本地部署,7B运转很慢,1.5B速度与网页访问答题一样。最大的优点是不会因为服务器繁忙而卡住,还可以创建私人管家,当然回答的准确性比不上671B模型。

三、DeepSeek-R1 创新设计

DeepSeek-R1 的卓越表现植根于其创新架构和先进的训练方法。
(这一段作者笔误或者错误描述了训练阶段,故删除并重新整理)
该模型的核心创新体现在群体相对策略优化(GRPO)和强化学习的多阶段训练方法上,其训练分为四个阶段:

  1. 冷启动:构建并收集了少量的长COT数据,通过监督微调(SFT)作为初始RL Actor,提升基础模型的可读性;
  2. 面向推理的增强学习:着重于增强模型的推理能力,尤其是在诸如编码,数学,科学和逻辑推理等推理密集型任务中,这些任务涉及清晰解决方案的明确问题。为减轻语言混合问题,引入语言一致性奖励;
  3. 拒绝抽样和监督微调:利用所得检查点收集SFT(有监督的微调)数据,以进行后续回合。与主要侧重于推理的初始冷启动数据不同,此阶段包含了来自其他域的数据,以增强模型在书写,角色扮演和其他通用任务中的功能;
  4. 所有情况加强学习:再次结合基于规则和结果的奖励模型,使用GRPO进行优化,以在复杂和细微的方案中捕获人类的偏好。为了结果有帮助,专注于最终摘要,确保评估强调对用户响应的效用和相关性,同时最大程度地减少对基本推理过程的干扰。对于无害性,评估了模型的全部响应,包括推理过程和摘要,以识别和减轻在生成过程中可能出现的任何潜在风险,偏见或有害内容。

DeepSeek-R1正式确诊为“为人民服务”!

Deepseek-R1 最吸引人的地方之一是其可访问性。它在 MIT 许可证下发布,可供个人、开发者和组织免费使用,这种开源精神与通常伴随高成本和限制性使用条款的专有模型形成了鲜明对比 :)

四、DeepSeek-R1 进化之路

翻译原文无此部分,为论文阅读+个人理解
论文里描述了DeepSeek-R1-Zero和DeepSeek-R1的设计框架和任务性能。前者表现出强大而有趣的推理性能,但是也遇到了挑战,包括可读性差和语言混合;为了解决这些问题并进一步提高性能,DeepSeek-R1诞生,在强化学习之前结合了多阶段训练和冷启动数据。

1. 强化学习RL代替监督微调学习SFL

强化学习基本框架

  • Agent:ML 算法(或自治系统)
  • Environment:具有变量、边界值、规则和有效操作等属性的自适应问题空间
  • Action:Agent在Environment中导航时采取的步骤
  • State:给定时间点的环境
  • Reward:执行Action的正值、负值或零值,即奖励或惩罚

DeepSeek-R1使用的强化学习框架为GRPO(Group Relative Policy Optimization)(Shao et al., 2024),探讨了LLM在没有任何监督数据的情况下发展推理能力的潜力,着重于模型自身的进化。在奖励方面,DeepSeek-R1-Zero采用了基于规则的奖励系统,由准确性奖励和格式奖励共同构成。准确性奖励评估响应是否正确,格式奖励则强调使用在< think > < /think >描述思维过程。这种结构的好处是避免了特定于内容的偏见,例如强制反思性推理或促进特定的问题解决策略,并能够准确观察模型的自然发展(开了上帝视角去理解生物为什么、怎么样进化)。为了避免大规模黑客攻击和降低重训练成本,不采用过程奖励或者回答奖励。

< think >< /think >,我理解即将Chain-of-Thought(COT)思维链显示地提供给用户,KIMI的k1.5 loong thinking也支持,相较于DP比较口语化,速度快,能够自行折叠,产品体验上比DP好,但是编程性能次之)。
强制反思性推理,指在生成回答前,检查问题逻辑、选择回答策略、定制回答风格等等,可能需要更多的算力支撑,减少了错误和偏见,但是对于一味求快求解的用户来说并不好用。
特定于内容的偏见,偏向于某一种特定的问题解决方法,例如:教导学生只用节点法做电路题目,在绘制等效电路图、分析串并联时比较容易,但对于实物连接,就没有必要甚至会带来困惑。

2. Aha Moment “啊哈”时刻

在训练的中间阶段,DeepSeek-R1-Zero学会通过重新评估其初始方法来分配更多的思维时间来解决问题,适用拟人化音调重新考虑(Like人类在滔滔不绝中突然说:“等等,我想到了另一点”,而非按照旧的思路说到底,这一点实在非常可爱)。
在这里插入图片描述

3. 蒸馏版本仅采用SFT

蒸馏版本如前面的1.5B、70B,是直接用R1的800K样本微调开源的Qwen和Llama两个较小规模的LLM,且仅应用SFT,不包含RL阶段。其中,1.5B版本在数学基准评估上能过胜过GPT-4o和Claude 3.5 Sonnet(本地部署的孩子,数学作业有救了)。作者表示主要是展示有效性,并希望专业研究进一步探索RL阶段。通过对比大模型蒸馏后与不蒸馏使用大规模RL训练的小模型,发现后者的性能并不如前者,尽管蒸馏策略经济有效,但想要突破上限需要更大的基础模型及大规模RL。

4. 未来研究计划

  • 基于COT高效增强在函数调用、多轮问答(multi-turn)、复杂角色扮演以及JSON程序输出等任务上的处理效果;
  • 突破除了中文和英文外,其他语言混合问题的限制;
  • 提示敏感问题(改变Prompt的措辞、结构、内容会导致生成的回答截然不同),只让模型进行一次尝试(one-shot)时,生成的答案容易出错;而多次尝试(multi-shot)并尝试后验证并调整,生成的答案更加准确。作者建议直接描述问题,采用zero-shot(直接告诉任务,不提供任何示例),让模型只依赖于预训练结果。
  • 软件工程任务验证时间较长,影响RL效率。未来会使用拒绝采样、异步评估来提升效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2294896.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动态规划LeetCode-121.买卖股票的最佳时机1

给定一个数组 prices &#xff0c;它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 买入这只股票&#xff0c;并选择在 未来的某一个不同的日子 卖出该股票。设计一个算法来计算你所能获取的最大利润。 返回你可以从这笔交易中获取的最大利润。…

#渗透测试#批量漏洞挖掘#微商城系统 goods SQL注入漏洞

免责声明 本教程仅为合法的教学目的而准备&#xff0c;严禁用于任何形式的违法犯罪活动及其他商业行为&#xff0c;在使用本教程前&#xff0c;您应确保该行为符合当地的法律法规&#xff0c;继续阅读即表示您需自行承担所有操作的后果&#xff0c;如有异议&#xff0c;请立即停…

import { Component, Vue, Prop, Watch } from ‘vue-property-decorator‘

文章目录 导入部分的解释总结Vue 3 的推荐替代方案总结 你提供的代码片段是使用 vue-property-decorator 库的示例&#xff0c;这是一个第三方库&#xff0c;它提供了 Vue 组件的装饰器&#xff0c;使得编写类风格的 Vue 组件更加方便。以下是对代码中每个部分的详细解释&…

X Window System 架构概述

X Window System 架构概述 1. X Server 与 X Client ​ 这里引入一张维基百科的图&#xff0c;在Linux系统中&#xff0c;若用户需要图形化界面&#xff0c;则可以使用X Window System&#xff0c;其使用**Client-Server**架构&#xff0c;并通过网络传输相关信息。 ​ ​ X…

【ArcGIS Pro 简介1】

ArcGIS Pro 是由 Esri &#xff08;Environmental Systems Research Institute&#xff09;公司开发的下一代桌面地理信息系统&#xff08;GIS&#xff09;软件&#xff0c;是传统 ArcMap 的现代化替代产品。它结合了强大的空间分析能力、直观的用户界面和先进的三维可视化技术…

启明星辰发布MAF大模型应用防火墙产品,提升DeepSeek类企业用户安全

2月7日&#xff0c;启明星辰面向DeepSeek等企业级大模型业务服务者提供的安全防护产品——天清MAF&#xff08;Model Application Firewall&#xff09;大模型应用防火墙产品正式发布。 一个新赛道将被开启…… DeepSeek的低成本引爆赛道规模 随着DeepSeek成为当前最热的现象级…

小米AI眼镜官微上线,将与小米15 Ultra同台亮相,近屿智能用心培育 AI 人才

近日&#xff0c;小米眼镜官微已正式上线&#xff0c;认证主体为小米通讯技术有限公司。据悉&#xff0c;小米AI眼镜已获得入网许可&#xff0c;并计划提前至2月发布&#xff0c;与小米15 Ultra同台亮相。 此前&#xff0c;小米AI眼镜原定于2025年3月至4月发布。早在去年&#…

Mac下使用brew安装go 以及遇到的问题

首先按照网上找到的命令进行安装 brew install go 打开终端输入go version&#xff0c;查看安装的go版本 go version 配置环境变量 查看go的环境变量配置&#xff1a; go env 事实上安装好后的go已经可以使用了。 在home/go下新建src/hello目录&#xff0c;在该目录中新建…

在rtthread中,scons构建时,它是怎么知道是从rtconfig.h找宏定义,而不是从其他头文件找?

在rtthread源码中&#xff0c;每一个bsp芯片板级目录下都有一个 SConstruct scons构建脚本的入口&#xff0c; 在这里把rtthread tools/目录下的所有模块都添加到了系统路径中&#xff1a; 在tools下所有模块中&#xff0c;最重要的是building.py模块&#xff0c;在此脚本里面…

Unity游戏(Assault空对地打击)开发(7) 爆炸效果

效果 准备 首先请手搓一个敌军基地。 然后添加一个火焰特效插件或者自建。 爆炸脚本编写 新建一个脚本命名为Explode。 无需挂载到对象上。 首先是全部代码。 using System.Collections; using System.Collections.Generic; using System.Linq; using TMPro; using UnityEngine…

嵌入式面试题 C/C++常见面试题整理_7

一.什么函数不能声明为虚函数? 常见的不能声明为虚函数的有:普通函数(非成员函数):静态成员函数;内联成员函数;构造函数;友元函数。 1.为什么C不支持普通函数为虚函数?普通函数(非成员函数)只能被overload&#xff0c;不能被override&#xff0c;声明为虚函数也没有什么意思…

excel实用问题:提取文字当中的数字进行运算

0、前言&#xff1a; 这里汇总在使用excel工作过程中遇到的问题&#xff0c;excel使用wps版本&#xff0c;小规模数据我们自己提取数据可行&#xff0c;大规模数据就有些难受了&#xff0c;因此就产生了如下处理办法。 需求&#xff1a;需要把所有文字当中的数字提取出来&…

【prompt实战】AI +OCR技术结合ChatGPT能力项目实践(BOL提单识别提取专家)

本文原创作者:姚瑞南 AI-agent 大模型运营专家,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。(转载需经授权) 目录 1. 需求背景 2. 目标 3. BOL通用处理逻辑…

昇思打卡营第五期(MindNLP特辑)番外:硅基流动 x 华为云DeepSeek V3 API推理MindTinyRAG

1.前言 前脚&#xff0c;DeepSeek面临的巨头企业官宣加入vs多国政府下场质疑的冰火两重天局势尚未平静&#xff08;DeepSeek在美两重天&#xff1a;五大巨头接入&#xff0c;政府诚惶诚恐&#xff09;&#xff1b;后脚&#xff0c;OpenAI被逼急&#xff0c;凌晨亮出全新推理…

DeepSeek R1 Distill Llama 70B(免费版)API使用详解

DeepSeek R1 Distill Llama 70B&#xff08;免费版&#xff09;API使用详解 在人工智能领域&#xff0c;随着技术的不断进步&#xff0c;各种新的模型和应用如雨后春笋般涌现。今天&#xff0c;我们要为大家介绍的是OpenRouter平台上提供的DeepSeek R1 Distill Llama 70B&…

LabVIEW与PLC交互

一、写法 写命令立即读出 写命令后立即读出&#xff0c;在同一时间不能有多个地方写入&#xff0c;因此需要在整个写入后读出过程加锁 项目中会存在多个循环并行执行该VI&#xff0c;轮询PLC指令 在锁内耗时&#xff0c;就是TCP读写的实际耗时为5-8ms&#xff0c;在主VI六个…

Selenium记录RPA初阶 - 基本输入元件

防止自己遗忘&#xff0c;故作此为记录。 爬取网页基本元件并修改后爬取。 包含元件&#xff1a; elements: dict[str, str] {"username": None,"password": None,"email": None,"website": None,"date": None,"ti…

第三个Qt开发实例:利用之前已经开发好的LED驱动在Qt生成的界面中控制LED2的亮和灭

前言 上一篇博文 https://blog.csdn.net/wenhao_ir/article/details/145459006 中&#xff0c;我们是直接利用GPIO子系统控制了LED2的亮和灭&#xff0c;这篇博文中我们利用之前写好的LED驱动程序在Qt的生成的界面中控制LED2的亮和灭。 之前已经在下面两篇博文中实现了LED驱动…

Android studio 创建aar包给Unity使用

1、aar 是什么&#xff1f; 和 Jar有什么区别 aar 和 jar包 都是压缩包&#xff0c;可以使用压缩软件打开 jar包 用于封装 Java 类及其相关资源 aar 文件是专门为 Android 平台设计的 &#xff0c;可以包含Android的专有内容&#xff0c;比如AndroidManifest.xml 文件 &#…

BurpSuite抓包与HTTP基础

文章目录 前言一、BurpSuite1.BurpSuite简介2.BurpSuite安装教程(1)BurpSuite安装与激活(2)安装 https 证书 3.BurpSuite使用4.BurpSuite资料 二、图解HTTP1.HTTP基础知识2.HTTP客户端请求消息3.HTTP服务端响应消息4.HTTP部分请求方法理解5.HTTPS与HTTP 总结 前言 在网络安全和…