大模型架构创新已死?

news2025/1/18 7:40:06
金磊 白交 发自 凹非寺
量子位 | 公众号 QbitAI

一场围绕大模型自研和创新的讨论,这两天在技术圈里炸了锅。

起初,前阿里技术VP贾扬清,盆友圈爆料吐槽:有大厂新模型就是LLaMA架构,但为了表示不同,通过改变开源代码名字、替换几个变量名……

一石激起千层浪,更晚一些时候,“大厂”被与零一万物关联,其刚发布的新模型Yi-34B被指与LLaMA架构如出一辙。

零一万物很快给出了说明和回应。但热议并未就此平息,甚至围绕大模型原创、自研的标准,开始被更进一步争论。

而初步激辩中指向的结论——冷峻又真实:

大模型的架构创新,可能早就死了。

好比烤鸭这道菜的菜谱公开之后,核心方法和步奏,都已经被固定了。

所以如果的大模型研发,都无法再在架构层面另起炉灶……那自研国产大模型,研它还能有啥用?

争议

就在近日,贾扬清的吐槽,迅速火上了海外技术社区热搜。

并且很快,零一万物就被关联起来。

图片

因为就在Yi-34B首次推出后,迅速横扫了各项中英文评测榜单,在英文领域也超越了Llama-2 70B和Falcon-180B等一众大尺寸大模型……一时风头无两、木秀于林。

贾扬清爆料之后,一封Hugging Face的邮件也对外曝光了,邮件核心内容,就是Yi模型与已经开源的LLaMA架构上存在重合,虽然张量命名不同,但按照开源社区的规则和规范,需要作出调整。

这也成为外界对于零一万物和Yi-34B模型自研性的质疑所在。

零一万物很快给出了说明和回应,核心有两点:

第一,Yi模型确实沿用了公开的架构,但和LLaMA一样,都基于的是GPT成熟结构。

第二,大模型的研发中,模型结构只是模型训练的一部分,还有包括数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyperparameter设置、评估方法以及对评估指标在内的核心技术挑战和能力……在大量训练实验过程中,由于实验执行需求对代码做了更名,所以处于尊重开源社区的反馈,将代码进行更新,也为更好融入Transformer生态。

零一的回应,有人表示理解,比如开源社区领袖Stella Biderman,就认为说谁抄袭LLaMA是无稽之谈,因为所有做大模型研发的团队,现在都几乎“华山一条路”了。

图片

但更多的激辩,还在持续。

激辩

辩论的核心话题,开始不断指向——如何定义大模型的创新?创新的标准该是什么?

在一则广为流传的群聊记录中,大模型领域知名“布道者”符尧博士,提出了现状和困惑。

他认为大模型主流架构,就是一个“天下诗歌不断抄”的过程。LLaMA的架构抄的Chinchilla,chinchilla抄的Gopher,Gopher抄的GPT3……每个都是一两行的改动。

而且在Hugging Face上,架构一模一样但名字不同的模型比比皆是……

但需要强调的是,大模型的创新或不同,核心应该关注的是训练方法和数据配比——而这些并不会反映在架构上。

以及如果严格来论,目前国内的自研大模型,不论是零一万物的Yi,还是百川智能的Baichuan,或者阿里旗下的通义千问,架构上和LLaMA都是一致的。

大模型的创新,看架构没有意义。

另一则广为流传的讨论,来自猴子无限的尹伯昊,他表示自己亲手玩过各类模型,自己也大模型从业,可以说说自己的看法。

第一,目前使用LLaMA架构已经是开原模型的最优解。因为LLaMA开源大模型已经实现了断崖式领先,有了大量工具链。国内外各种大模型的预训练,也都是保持了相同或相似的架构。

第二,相同的架构可以做出完全不同的模型,因为大模型的训练是一个充分的系统工程,考察的因素有很多,最后的能力和效果也与这个系统工程息息相关。

但尹伯昊也强调,大模型创业者没必要因为自研ego作祟,就不强调使用已有框架。

从现在的趋势来看,开源大模型生态的发展,其实有统一的架构,对于业内更多开发者的切换利大于弊。

实际上,上述圈内人的发言,也在进一步揭露大模型的现状和真相:

大模型架构创新,早就结束了。

大模型架构创新已死?

如果从大模型社区长期的发展过程来看,我们不难发现一种趋势——向通用化收拢

因为基本上国际主流大模型都是基于Transformer的架构;而后对attention、activation、normalization、positional embedding等部分做一些改动工作。

简而言之,Transformer这个架构似乎已然是固定的状态

有圈内团队举例,好比让不同的厨师都去做北京烤鸭,原材料和步骤定然是大同小异的(架构);而最终决定谁做出来的北京烤鸭更好吃,区别更多的是在于厨师本身对火候、烹调技术的掌握(数据参数、训练方法等)。

而这种讨论,几乎也打破了圈外对于热潮中“大模型创新”、“国产大模型”的某些期待,认为大模型的研发,可以完全另起炉灶。

事实是,架构层面,早就几近定型了。

OpenAI用GPT-3彻底点燃了大模型架构基础,LLaMA在GPT基础上作出了总结并且对外开源,其后更多的玩家,沿着他们的藩篱前行。零一万物在最新的声明中也表示,GPT/LLaMA 的架构正在渐成行业标准。

这种事实,也让更多围观这场争议和讨论的人联想到智能手机的系统往事。

当时iPhone发布,带来了闭源的iOS。

其后开源阵营中,Android在谷歌的大力扶植中上位,成功成为开源世界的第一名,并在其后真正成为了几乎“唯一的一个”。

所以GPT和LLaMA,是不是就是iOS和Android的重演?

然而区别于手机操作系统,国产大模型或许还会有不同。

正如在讨论中,大模型创新被强调的训练方法、数据配比,以及更加重要的开发者生态。

iOS和Android之时,完全是太平洋东岸的独角戏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1212295.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RocketMQ中的消息种类以及消费模式

RocketMQ中的消息种类以及消费模式 前言消息的种类按消息的发送方式同步消息异步消息单向消息 按消息的种类普通消息(Normal Message)顺序消息(Orderly Message)延时消息(Delay Message)事务消息&#xff0…

2023年阿里云服务器购买指南,优惠云服务器性能说明

云服务器作为当下互联网行业的重要基础设施之一,对于个人博客、企业展示型官网以及开发者来说,是必不可少的工具。2023年,阿里云金秋云创季推出了两款特惠的云服务器,为用户提供了更加优惠和实用的选择。 1. 轻量应用服务器2核2G…

除了Excel中可以添加公式之外,在Word中也可以添加公式,不过都是基于表格

公式是必不可少的,因为它们有助于简化任何数学任务。微软的应用程序中有许多数学公式。微软应用程序之一的Word配备了一个公式功能,可以执行各种操作。本文将讨论如何在Word中使用和添加公式。 在Word中,公式主要用于表格。因此,你需要有一个表格才能在Word中使用公式。 …

盘点30个Python树莓派源码Python爱好者不容错过

盘点30个Python树莓派源码Python爱好者不容错过 学习知识费力气,收集整理更不易。 知识付费甚欢喜,为咱码农谋福利。 链接:https://pan.baidu.com/s/1LA4cLunntKW3qO5aok3xAQ?pwd8888 提取码:8888 项目名称 PiCar-raspber…

2023亚太杯数学建模思路 - 复盘:光照强度计算的优化模型

文章目录 0 赛题思路1 问题要求2 假设约定3 符号约定4 建立模型5 模型求解6 实现代码 建模资料 0 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 问题要求 现在已知一个教室长为15米,宽为12米&…

响应系统的作用与实现

首先讨论什么是响应式数据和副作用函数,然后尝试实现一个相对完善的响应系统。在这个过程中,我们会遇到各种各样的问题,例如如何避免无限递归?为什么需要嵌套的副作用函数?两个副作用函数之间会产生哪些影响&#xff1…

儿童水杯上架亚马逊美国站CPC认证办理 ,常见儿童产品CPC认证测试要求

美国CPSC从2021/03/22开始改革,凡是他们管辖范围内的产品,都会被标记审查,如有相关产品请提前准备好相关文件比如CPC检测报告、认证等等,以备目的港海关审查。 CPC认证介绍 CPC证书即儿童产品证书,适用于12岁以下的儿…

腾讯云新用户优惠券如何领取?详细教程来了!

腾讯云一直致力于为广大用户提供优质、高效的云计算服务。为了吸引新用户,腾讯云推出了新用户专属优惠券,本文将详细介绍如何领取腾讯云新用户优惠券,助力大家轻松上云! 一、腾讯云新用户优惠券领取 领券入口:https:/…

人力项目框架解析新增修改方法

在迁移项目但是遇到了一些问题,迁移项目的时候发现项目的整体框架很有趣,但是苦于项目框架太大了,竟然只能完整迁移,做不到部分迁移,于是我也只能从一半的角度来进行解释整个项目。 雇员 我们雇员这个为对象讲解一下…

Django(六、模板层)

文章目录 模板传值模板语法传值特性 模板语法之过滤器常用的过滤器模板层之标签模板中的标签的格式为标签之if判断 标签之for循环模板的继承与导入模板导入导入格式 模板传值 """ 模板层三种语法 {{}}:主要与数据值相关 {%%}:主要与逻辑相关 {##}:模…

解锁数据潜力:为什么你应该考虑使用向量数据库

文章目录 前言什么是向量和向量数据库使用示例Amazon OpenSearch Serverless向量引擎总结 前言 根据DC调查数据显示,全球在A1技术和服务上的支出2023年将达到1540亿美元,到2026年将超过3000亿美元。其中,向量数据库为AI的开发、增强内容生成…

力扣203:移除链表元素

力扣203:移除链表元素 题目描述: 给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回 新的头节点 。 示例 1: 输入:head [1,2,6,3,4,5,6], val 6 输出&a…

(Matalb回归预测)GWO-BP灰狼算法优化BP神经网络的多维回归预测

目录 一、程序及算法内容介绍: 基本内容: 亮点与优势: 二、实际运行效果: 三、部分代码: 四、完整程序数据使用说明下载: 一、程序及算法内容介绍: 基本内容: 本代码基于Mata…

keepalived安装配置(服务器主备、负载均衡)

系统拓扑 安装keepalived 主备服务器上都需要安装 在线安装 yum install -y keepalived 离线安装 # todo 服务器准备 虚拟机ip:192.168.11.56 主服务器:192.168.11.53 备服务器:192.168.11.54 配置文件修改 keepalived安装之后&…

算法刷题:P1908 逆序对

解题关键:就是利用分治的思想,使用归并排序,因为逆序对实际上就是“左侧的数字比右侧大就算一个逆序对”。而这个“左侧”和“右侧”可以相对来看,即左侧的左侧一定就是左侧,说的有点抽象,哈哈哈哈。 花了…

excel在函数中插入函数

例如,要计算RAND()1的值,其中RAND()表示取0~1之间的随机数。 插入-》函数: 选SUM函数: 点击“继续”: 将光标先放在数字1中的输入框中,然后在左边过滤出RAND函数,并且点击继续&#xff1…

技巧篇:Mac 环境PyCharm 配置 python Anaconda

Mac 中 PyCharm 配置 python Anaconda环境 在 python 开发中我们最常用的IDE就是PyCharm,有关PyCharm的优点这里就不在赘述。在项目开发中我们经常用到许多第三方库,用的最多的命令就是pip install 第三方库名 进行安装。现在你可以使用一个工具来帮你解…

Java实现自定义windows右键菜单

要添加Java应用程序到Windows桌面的右键菜单,可以按照以下步骤操作: 创建一个新的.reg文件,并在文本编辑器中打开它。 添加以下代码到.reg文件中,将名称和路径替换为您的Java应用程序的名称和路径。 Windows Registry Editor V…

解决requests库的urllib3版本冲突问题

每个加班的夜晚,都是我和bug的较量。当我坐在电脑前,灯光昏暗,空气凝固,只有键盘敲击的声音回荡在空旷的办公室中。我渐渐地陷入了与无数个请求的斗争中。这些请求来自各种各样的客户端,充满了各种各样的需求。每个请求…

业务连续性:确保稳健运营的关键战略

在今天的快节奏商业环境中,保障业务连续性是企业成功的重要保障。业务连续性不仅仅是关于应对自然灾害或技术故障,更是一项战略,涉及组织的整体准备、规划和应对能力,以确保在各种情况下业务的稳健运营。 一、业务连续性的定义 业…