炸场硅谷,大模型“蒸汽机”迎来“瓦特时刻”

news2025/1/23 13:20:28

作者 | 曾响铃

文 | 响铃说

中国大模型又在包括硅谷在内的全球AI圈炸场了。

两天前,幻方量化旗下AI公司深度求索(DeepSeek),以及月之暗面相隔20分钟相继发布了自家最新版推理模型,分别是DeepSeek-R1以及Kimi 全新多模型思考模型k1.5,且都给出了非常详尽的技术报告, “中国双子星”很快引发全球AI圈的关注。

在社交软件X上,包括英伟达AI科学家Jim Fan在内的全球AI从业者纷纷发出了自己的感叹:

相关数据显示,区别于过往类o1-preview模型,这次两家中国公司正面硬刚OpenAI o1,发布的都是满血版o1,而Kimi k1.5还是具备视觉思考的多模态。

表面上,是中国大模型某种程度上又一次在技术能力上直起了腰,而全球AI从业者的“围观”,本质上则透露出业界对大模型这台“蒸汽机”能够尽快出现属于自己的“瓦特”的期许。

大模型这台蒸汽机,急需要一个“瓦特”

大模型对时代的意义,不亚于蒸汽机之于工业革命。

但正如蒸汽机是在发明之后,是经过一段时间的改进,尤其是瓦特的改进后才正在成为工业革命驱动力一样,大模型这台“蒸汽机”要想大展拳脚,还一直处在不断改进之中。

那个属于它的“瓦特”,还一直没有到来,所有从业者都在热切期待这个时刻。

参与的人越多,“瓦特时刻”出现的可能性就越大,只有一个遥遥领先的OpenAI未必符合业界的普遍期许,当出现了与之肩并肩的DeepSeek、Kimi,关键进化的可能性变得更大,炸场AI圈就成为普遍期待下的必然。

而回看DeepSeek与Kimi这对中国双子星,他们发布的模型呈现了很多相似之处,都侧重以强化学习(RL)为核心驱动力(即在仅有极少标注数据的情况下,极大提升模型推理能力)。

具体来说,二者在实现方式上都不需要进行像 MCTS 那样复杂的树搜索(只需将思维轨迹线性化,然后进行传统的自回归预测即可),也不需要配置另一个昂贵的模型副本的价值函数、不需要密集奖励建模,只尽可能多的依赖事实和最终结果。

很明显,这些,都在提升推理模型的运行效率、降低资源需求,而有意思的是,这同样是当年瓦特改造蒸汽机的方向,他在众多改造中最完美地实现了这些目标。

历史,总是惊人的相似。

值得一提的是,在这次中国双子星炸场的过程中,OpenAI萨姆·奥尔特曼也加入其中,只不过他发挥了一贯的“阴阳”技能,“AGI不会下个月就到来”,在一片赞誉甚至狂欢中,暗地里讽刺社交平台的关注是不是太过疯狂。

实际上,AGI确实不是短期能做到的,但这并不是制止全球从业者欢欣鼓舞的理由。蒸汽机花了很长时间才完成进化能够走入工厂,大模型也需要这样的过程才能实现对社会进步的全面赋能,也正因为如此,每一次对这个进程的缩短,都值得每一个从业者欣慰。

中国双子星,让业界看到“瓦特”的更多可能性

具体到技术层面,当仔细分析中国双子星尤其是Kimi的SOTA模型能力后,就会发现业界人士的惊喜有着充分的理由。

以“蒸汽机”类比,瓦特的改进首先是直接提升了运行效率,提升了蒸汽转化为机械动力的能力,从而能够由“试验装置”走向真正的“机器”。

这次发布的模型首先也是在推理能力上大幅跨越,发布的都是真正的“满血版o1”,而不是其他各家所发布的“准o1”,或者得分差得太远的o1,有着绝对实力上的领先而非只是小小的一次迭代。

更进一步看,瓦特对蒸汽机的改进还在机器对不同生产环境的适应能力上进行了改造,对应到大模型这里,则是推理大模型的多模态进化。

目前,DeepSeek R1只能识别文字、不支持图片识别不同,Kimi k1.5则能进行一步多模态推理,且在数学、代码、视觉等复杂任务上的综合性能提升,成为OpenAI之外首个多模态类o1模型。

以Kimi k1.5为例:

一方面模型在数学和代码能力上的推理能力和正确率(诸如 pass@1、EM等指标)大幅领先或赶超其他主流对比模型;

另一方面模型在在视觉多模态任务上,无论是对图像中信息的理解、还是进一步的组合推理、跨模态推理能力,都有显著提升。

截取Kimi的发布Paper原文,其长文本处理能力大幅提升,支持高达128ktokens 的 RL生成,采用部分展开方式进行高效训练,且在训练策略上有包括在线镜像下降法等在内的多项改进。

在长思考模式(long-CoT)下,Kimi K1.5在数学、编程和视觉任务中的表现与OpenAI o1的性能水平接近。

而到了短思考模式(short-CoT)下,Kimi k1.5 更是让业界惊喜,做到了某种程度上的“遥遥领先”,其数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平,领先达到550%。

这种领先,得益于Kimi k1.5独特的“Long2Short”训练方案,顾名思义,即先利用较大的上下文窗口让模型学会长链式思维,再将“长模型”的成果和参数与更小、更高效的“短模型”进行合并,然后针对短模型进行额外的强化学习微调。

这种做法,最大化保留了原先长模型的推理能力,避免了常见的“精简模型后能力减弱”难题,又能同时有效挖掘短模型在特定场景下的高效推理或部署优势,是一次推理模型的重要创新。

“Long2Short”训练方案在算力与性能平衡方面实现了成功探索,改变了OpenAI o1以时间换空间的做法(牺牲实际应用时的用户体验来提升性能,这种做法一直存在争议),有业界人士表示将会是未来新的研究方向。

而从更宏观的视角看,这样的创新,除了给Kimi带来更亮眼的模型表现,毫无疑问也在让大模型“蒸汽机”的“瓦特时刻”变得越来越近。

更密集的突破,才能争抢“瓦特”

Kimi k1.5的出现显然不会是一蹴而就的,是多次进化迭代的结果,但最令人关注的,是迭代的速度。

仅仅在三个月前的2024年11月,月之暗面就推出了初代版本的Kimi K0-math。过了1个月,k1视觉思考模型诞生,继承了K0-math的数学能力,又成功解锁了视觉理解能力,“会算”+“会看”。紧接着又1个月后,也就是这次的K1.5发布,在数理化、代码、通用等多个领域中,刷新了SOTA,直接媲美世界顶尖模型。

三个月三次突破,密集创新迭代才带来炸场的效果与成果。

在关键的历史节点,业界期待“瓦特”,与此同时,业界也在争当“瓦特”,大模型只会越来越卷。

就在中国双子星炸场后,美国总统特朗普宣布OpenAI、甲骨文和软银将联合推进一项称之为Stargate(星际之门)的项目,要在人工智能基础设施领域投资至少5000亿美元,大国AI竞争已经白热化。

好在,无论是基础设施的建设,还是以中国双子星为代表的模型能力建设,中国都已经抢占了先机,这一次不会再处于被动地位——在Kimi的规划中,其将继续发力多模态推理,快速迭代出更多模特、更多领域、更具备通用能力的Kn系列模型。

相信,大模型的“瓦特时刻”,同样会是中国大模型赢得话语权的时刻。

*本文图片均来源于网络

*此内容为【响铃说】原创,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

#响铃说 Focusing on企业数字化与产业智能化升级,这是关注一切与创业、产业和商业相关的降本增效新技术、新模式、新生态 NO.435深度解读

【完】

曾响铃

1钛媒体、人人都是产品经理等多家创投、科技网站年度十大作者;

2 虎啸奖评委;长沙市委统战部旗下网络名人联盟成员;

3 作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;

4 《中国经营报》《商界》《商界评论》《销售与市场》等近十家报刊、杂志特约评论员;

5 钛媒体、36kr、虎嗅、界面、澎湃新闻等近80家专栏作者;

6 “脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业;

7 腾讯全媒派荣誉导师、功夫财经学者矩阵成员、多家科技智能公司传播顾问。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2280917.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【自动驾驶】4 智驾生态概述

目录 1 智驾生态概述 ▲ 关键组成部分 ▲ 概述 2 关键技术 ▲ 传感器 ▲ 感知 ▲ 数据闭环 3 未来市场 1 智驾生态概述 智能驾驶生态,简称智驾生态,是指围绕智能驾驶技术的开发、应用、服务和支持所形成的产业体系和合作网络。 涵盖了从硬件设…

Excel 技巧14 - 如何批量删除表格中的空行(★)

本文讲如何批量删除表格中的空行。 1,如何批量删除表格中的空行 要点就是按下F5,然后选择空值条件以定位所有空行,然后删除即可。 按下F5 点 定位条件 选 空值,点确认 这样就选中了空行 然后点右键,选 删除 选中 下方…

C语言进阶习题【1】指针和数组(4)——指针笔试题3

笔试题5:下面代码输出是是什么? int main() {int a[5][5];int(*p)[4];p a;printf( "%p,%d\n", &p[4][2] - &a[4][2], &p[4][2] - &a[4][2]);return 0; }分析 代码结果 笔试题6:下面代码输出是是什么&#xff1…

5. 推荐算法的最基础和最直观的认识

1.性别年龄转换为统一的计量单位 所谓推荐,就是替别人推荐,比如工厂A需要招男员工,希望大家推荐认识的人。那么在这里,就有了推荐的概念,限定条件是男。我们知道,人的性别一般分为男或者女。在这里假设把男…

如何在Matplotlib中绘制多个Y轴刻度

Matplotlib是一个功能强大的Python库,在它的帮助下,我们可以绘制条形图,图表,绘图,比例等。在本文中,我们将尝试在Matplotlib中绘制多个Y轴刻度。 为什么多个Y轴刻度很重要? 绘制具有不同单位…

大模型GUI系列论文阅读 DAY1:《基于大型语言模型的图形用户界面智能体:综述》(6.6W 字长文)

摘要 图形用户界面(Graphical User Interfaces, GUIs)长期以来一直是人机交互的核心,为用户提供了直观且以视觉为驱动的方式来访问和操作数字系统。传统上,GUI交互的自动化依赖于基于脚本或规则的方法,这些方法在固定…

RabbitMQ1-消息队列

目录 MQ的相关概念 什么是MQ 为什么要用MQ MQ的分类 MQ的选择 RabbitMQ RabbitMQ的概念 四大核心概念 RabbitMQ的核心部分 各个名词介绍 MQ的相关概念 什么是MQ MQ(message queue),从字面意思上看,本质是个队列,FIFO 先入先出&am…

linux 下tensorrt的yolov8的前向推理(python 版本)的实现

一、yolov8的python实现的环境搭建 #通过pip安装 pip install ultralytics #通过git克隆GitHub仓库 git clone <https://github.com/ultralytics/ultralytics.git> cd ultralytics #安装依赖 pip install -r requirements.txt #执行推理 yolo predict model./yolov8n.pt …

java文件按行写入数据后并创建行索引及查询

背景 当有很多数据需要存储&#xff0c;这些数据只是想要简单的按行存储和查询&#xff0c;不需要进行其他条件搜索&#xff0c;此时就可以考虑不需把这些数据存储在数据库&#xff0c;而是直接写入文件&#xff0c;然后从文件中查询 但是正常情况下&#xff0c;如果仅仅只是按…

SpringBoot集成Flink-CDC,实现对数据库数据的监听

一、什么是 CDC &#xff1f; CDC 是Change Data Capture&#xff08;变更数据获取&#xff09;的简称。 核心思想是&#xff0c;监测并捕获数据库的变动&#xff08;包括数据或数据表的插入、 更新以及删除等&#xff09;&#xff0c;将这些变更按发生的顺序完整记录下来&…

VisualStudio中配置OpenGL环境并制作模板

VisualStudio中配置OpenGL环境并制作模板 本教程来自&#xff1a;sumantaguha Install Visual Studio Download Microsoft Visual Studio Community 2019 from https://my. visualstudio.com/Downloads?qvisual%20studio%202019&wt.mc_ idomsftvscom~older-downloads and…

工程上LabVIEW常用的控制算法有哪些

在工程应用中&#xff0c;LabVIEW常用的控制算法有很多&#xff0c;它们广泛应用于自动化、过程控制、机器人、测试测量等领域。以下是一些常见的控制算法&#xff1a; 1. PID 控制 用途&#xff1a;PID&#xff08;比例-积分-微分&#xff09;控制是最常用的反馈控制算法&…

WPF1-从最简单的xaml开始

1. 最简单的WPF应用 1.1. App.config1.2. App.xaml 和 App.xaml.cs1.3. MainWindow.xaml 和 MainWindow.xaml.cs 2. 正式开始分析 2.1. 声明即定义2.2. 命名空间 2.2.1. xaml的Property和Attribute2.2.2. xaml中命名空间2.2.3. partial关键字 学习WPF&#xff0c;肯定要先学…

对话小羊驼vicuna

文章目录 1. gpu租用2. 公网网盘存储实例/数据3. 登录实例4. 预训练模型下载5. llama、alpaca、vicuna的前世今生6. 对话Vicuna&#xff08;1&#xff09;llama-2-7b-hf&#xff08;2&#xff09;vicuna-7b-delta-v0&#xff08;3&#xff09;vicuna-7b-v0&#xff08;4&#x…

web路径问题和会话技术(Cookie和Session)

一.Base 1.base介绍①base是HTMl语言的基准网址标签,是一个单标签,位于网页头部文件的head标签内②一个页面最多使用一个base元素,用来提供一个指定的默认目标,是一种表达路径和连接网址的标记③常见的url路径分别有相对路径和绝对路径,如果base标签指定了目标,浏览器将通过这个…

C++17 新特性解析:Lambda 捕获 this

C17 引入了许多改进和新特性&#xff0c;其中之一是对 lambda 表达式的增强。在这篇文章中&#xff0c;我们将深入探讨 lambda 表达式中的一个特别有用的新特性&#xff1a;通过 *this 捕获当前对象的副本。这个特性不仅提高了代码的安全性&#xff0c;还极大地简化了某些场景下…

2025.1.20——二、buuctf BUU UPLOAD COURSE 1 1 文件上传

题目来源&#xff1a;buuctf BUU UPLOAD COURSE 1 1 一、打开靶机&#xff0c;查看信息 这里提示到了文件会被上传到./uploads&#xff0c;有路径&#xff0c;题目也说了upload&#xff0c;所以是文件上传漏洞。好简洁的题目&#xff0c;做过十七关upload-labs的我&#xff0c…

python学opencv|读取图像(四十二)使用cv2.add()函数实现多图像叠加

【1】引言 前序学习过程中&#xff0c;掌握了灰度图像和彩色图像的掩模操作&#xff1a; python学opencv|读取图像&#xff08;九&#xff09;用numpy创建黑白相间灰度图_numpy生成全黑图片-CSDN博客 python学opencv|读取图像&#xff08;四十&#xff09;掩模&#xff1a;三…

springBoot 整合ModBus TCP

ModBus是什么&#xff1a; ModBus是一种串行通信协议&#xff0c;主要用于从仪器和控制设备传输信号到主控制器或数据采集系统&#xff0c;例如用于测量温度和湿度并将结果传输到计算机的系统。&#xff08;百度答案&#xff09; ModBus 有些什么东西&#xff1a; ModBus其分…

数据结构——实验二·栈

海~~欢迎来到Tubishu的博客&#x1f338;如果你也是一名在校大学生&#xff0c;正在寻找各种变成资源&#xff0c;那么你就来对地方啦&#x1f31f; Tubishu是一名计算机本科生&#xff0c;会不定期整理和分享学习中的优质资源&#xff0c;希望能为你的编程之路添砖加瓦⭐&…