MoE模型大火,源2.0-M32诠释“三个臭皮匠,顶个诸葛亮”!

news2024/11/8 23:32:56

文 | 智能相对论

作者 | 陈泊丞

近半年来,MoE混合专家大模型彻底是火了。
 

在海外,OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架构。而在国内,浪潮信息也刚刚发布了基于MoE架构的“源2.0-M32”开源大模型。

为什么MoE大模型备受瞩目,并逐步成为AI行业的共识?

知名科学杂志《Nature》在今年发表了一篇关于大模型未来发展之路的文章,《In Al, is bigger always better?》(人工智能,越大型越好?)。争议的出现,意味着AI的发展方向出现了分歧。

如今,“大”不再是模型的唯一追求,综合应用需要关注模型本身的计算效率和算力开销两大问题成为新的行业焦点。

浪潮信息人工智能首席科学家吴韶华在与「智能相对论」交流时也强调,事实上他们当前做的,是在模型能力持续提升的情况下,尽可能降低它的算力开销。因为今天大模型本身就是由两个主要因素来决定的,一个是模型能力,一个是算力开销。

浪潮信息人工智能首席科学家吴韶华

因此,MoE大模型的盛行,实际上对应的正是模型能力和算力开销两大问题的解决。这也是为什么众多大模型厂商如OpenAI、谷歌、Mistral AI、浪潮信息等陆续基于MoE架构升级自家大模型产品的原因。

MoE模型大火的背后,需要厘清三点认知

一、解题思路的转变:三个“臭皮匠”,顶个“诸葛亮”。

中国有句古语:术业有专攻,正是MoE模型的最直接的工作设计思路,即把任务分门别类,交由不同的“专家”进行解决。

如果说稠密(Dense)模型是个“全才”模型,旨在培养一个精通各个领域、能解决多个问题的“诸葛亮”,那么混合专家(MoE)模型则是个“专才”模式,侧重于培养多个“臭皮匠”(即“专家”),配合着以更专业、更高效的团队模式解决各种问题。

图片来源:《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》

由此便不难理解为什么MoE模型会如此火爆。因为,培养一个“诸葛亮”所需要消耗的资源、成本都太高了,甚至慢慢地超出了普通企业的承受范围。根据计算,训练一个5000亿参数规模的Dense模型,基础算力设施投入约10亿美金,无故障运行21个月,电费约5.3亿元——这是现阶段无法接受的算力投入。

那么,“三个臭皮匠”不仅能“顶个诸葛亮”,同时培养“三个臭皮匠”所需要的资源和成本可比培养“诸葛亮”可就相对简单多了。像源2.0-M32在处理逻辑、代码生成、知识等方面的能力是可以对标Llama3-700亿的,但其所需要但推理算力却低了一个量级,只有Llama3-700亿的十九分之一。

相当的智能水平,但算力投入却大幅减少,这也就意味着通过模算效率的提升,我们完全可以用更少的算力投入产出更智能的模型。这会是未来解决算力挑战的一个关键思路,MoE模型的大火,所带来的是一个AI行业解题思路的大转变。

二、算法层面的优化:三个“臭皮匠”的搭配和配合是一门艺术。

虽说“三个臭皮匠,顶个诸葛亮”,但是这“三个臭皮匠”如何选择、搭配以及配合处理任务,恰恰才是其“顶个诸葛亮”的根本。

更直观的对比,以古代作战为例,同样是一群人打架,为什么散兵游勇很难和正规军进行对抗、战斗?其根本在于正规军有专业的兵种搭配和配合,也就是“兵法”的辅助。放到AI领域,算法即“兵法”。

在MoE模型上,虽说核心思路是一致的,但是关于门控网络的位置、模型、专家数量、以及MoE与Transformer架构的具体结合方案,各家方案都不尽相同,由此将拉开各家MoE模型在应用上的差距。

比如,在算法层面,源2.0-M32就提出并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router)。针对MoE模型核心的专家调度策略,这种新的算法结构更关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。

同时,源2.0-M32采用了源2.0-2B为基础模型设计,由此得以沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。

基于注意力机制的门控网络(Attention Router)

在MoE模型中,算法层面的优化将是模算效率提升的一个很好补充。简单来说,“三个臭皮匠”,能基于算法优化而发挥出更大的价值,在处理问题上得到更好的反馈。这或许也是接下来各家MoE模型进一步拉开差距的关键。

三、数据需求的延续:“诸葛亮”和“臭皮匠”都需要高质量的数据投喂。

这一点毋庸置疑,“诸葛亮”和“臭皮匠”同属于“人”,其成长的根本在于高质量知识的吸收。同样的,MoE模型和Dense模型也都同属于AI模型,都需要高质量的数据投喂,数据质量越高,对应产出的模型精度越高。

为什么源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现,其根本在于数据质量。源2.0-M32基于2万亿的token进行训练,覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。其中,大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。

总的来说,培养“臭皮匠”与培养“诸葛亮”所需要的资源并没有太多本质上的区别,只是培养的思路、方法有所优化,从而使得我们能用更少的资源、成本就培养出了一个能相当甚至是超过“诸葛亮”的“臭皮匠”智囊团。由此,MoE模型成了各大厂商争先布局的重要方向。

MoE模型普及的关键,仍需要解决最核心的算力问题

正如前面所说,MoE模型和Dense模型同属于AI,在发展需要上并没有太大的本质区别。因此,长期以来困扰AI发展的算力问题如算力太贵、算力供给不足、算力资源不平衡、算力利用率低等,还是MoE同样面对的,甚至是其走向大众市场的一个明显阻碍。

浪潮信息在发布源2.0-M32大模型时,吴韶华就提到,“这个模型我们在研发的初衷就是为了大幅提升基础模型的模算效率,在这里面有两个层面,一方面是提升它的精度,另一方面是降低同等精度水平下的算力开销。”

现如今,很多企业对MoE模型的重视大多聚焦模型能力,殊不知算力开销也是一个重要考量。若能花更少的算力,办更多的事情,那么对于MoE模型而言将是普及的关键。

目前,源2.0-M32大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。

源2.0-M32业界主流评测任务表现

其中,在模型推理运行阶段,源2.0-M32处理每token所需算力仅为7.4Gflops,而LLaMA3-70B所需算力则为140Gflops。在模型微调训练阶段,同样是对1万条平均长度为1024 token的样本进行全量微调,源2.0-M32消耗算力约0.0026PD(PetaFLOPs/s-Day),而LLaMA3消耗算力约为0.05PD。

目前,源2.0-M32的激活参数为37亿,但是却取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19。如此大幅提升的模算效率,将为企业开发应用生成式AI提供一条“模型高性能、算力低门槛”的优质路径。

根据浪潮信息透露,源2.0-M32开源大模型配合企业大模型开发平台EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地。也就是说,在技术层面,MoE模型将加速普及,而在应用层面,源2.0-M32所提升的模算效率,对模型能力和算力开销两大问题的解决将进一步加速生成式AI的普及应用,让更多企业都能享受到AI的时代红利。

写在最后

MoE模型并非人工智能技术前进的终点,更不是大模型发展的最终形态。但是,它的出现着实是改变了AI发展的路径,让AI落地有了更清晰的方向。

今天,大模型迫切地需要变得越来越大,但是单纯的变大并不能解决行业问题,大模型更应该想清楚如何变得越来越有用。“有用”是一个复杂的概念,既需要模型能力够强,也需要算力开销够小,让企业用得起、用得好。

浪潮信息所强调的模算效率就旨在解决这两大问题。事实上,从源2.0-M32的发布来看,模算效率的提升确实把MoE模型推向了一个更广泛的发展阶段,我们甚至能在此看到不同行业、不同企业都能用上、用好MoE模型的可能。

*本文图片均来源于网络

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1714625.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无人机操作界面来了,起点就很高呀。

无人机操作界面设计需要考虑以下几个方面: 易用性:无人机操作界面应该简单直观,易于操作和理解。操作按钮和控键应该布局合理,易于触摸或点击。重要的操作功能应该易于找到和使用,避免用户迷失或困惑。实时反馈&#…

【Uniapp微信小程序】自定义水印相机、微信小程序地点打卡相机

效果图 template 下方的image图片自行寻找替换! <template><view><camerav-if="!tempImagePath && cameraHeight !== 0":resolution="high":frame-size="large":device-position="device":flash="flas…

RAID配置实战

概念 raid磁盘阵列&#xff1a;可以用不同的硬盘分区&#xff0c;组成一个逻辑上的硬盘。具有高可用 raid级别&#xff1a; raid0 &#xff1a;条带化存储&#xff1a;数据分散在多个物理硬盘上的存储方式。利用多个磁盘并行读取和写入。存储性能和读写性能是最好的。没有冗…

朗读亭主要作用有哪些?

朗读亭的主要作用有以下几个方面&#xff1a; 1. 提供朗读服务&#xff1a;朗读亭是一个专门的场所&#xff0c;提供给人们朗读的环境和场地。人们可以在朗读亭中选择自己喜欢的书籍或文章&#xff0c;并通过朗读将其表达出来。这样可以帮助人们提高朗读能力&#xff0c;增强自…

【C语言训练题库】杨辉三角(下三角型和金字塔型)

&#x1f525;博客主页&#x1f525;&#xff1a;【 坊钰_CSDN博客 】 欢迎各位点赞&#x1f44d;评论✍收藏⭐ 目录 题目&#xff1a;打印杨辉三角 1. 下三角型 1.1 图例: 1.2. 解析: 1.3. 代码: 1.4. 运行&#xff1a; 2. 金字塔型 2.1 图例 2.2. 解析 2.2.1. 打印金…

[猫头虎分享21天微信小程序基础入门教程]第21天:小程序的社交分享与消息推送

[猫头虎分享21天微信小程序基础入门教程]第21天&#xff1a;小程序的社交分享与消息推送 第21天&#xff1a;小程序的社交分享与消息推送 &#x1f4f2; 自我介绍 大家好&#xff0c;我是猫头虎&#xff0c;一名全栈软件工程师。今天我们继续微信小程序的学习&#xff0c;重…

买入看跌期权怎么理解?

今天带你了解买入看跌期权怎么理解&#xff1f;看跌期权买入者往往预期市场价格将下跌。 买入看跌期权怎么理解&#xff1f; 买入看跌期权是指购买者支付权利金&#xff0c;获得以特定价格向期权出售者卖出一定数量的某种特定商品的权利。看跌期权买入者往往预期市场价格将下跌…

基于python实现生命游戏

文章目录 一、生命游戏是什么二、生命游戏规则解释1.相邻细胞2.细胞状态 三、代码实现1.邻居细胞2.更新状态 四、整体代码 一、生命游戏是什么 生命游戏&#xff08;Game of Life&#xff09;是由英国数学家约翰何顿康威在1970年发明的一种细胞自动机&#xff08;Cellular Aut…

备份服务器的安全风险以及如何通过TDE透明加密提升安全性

备份服务器的潜在安全风险主要包括以下几个方面&#xff1a; 1. 数据泄露风险&#xff1a; 备份数据可能包含敏感信息&#xff0c;如用户个人信息、商业机密等。如果备份数据未经适当保护&#xff0c;例如存储在不安全的位置或未加密&#xff0c;黑客或未授权的人员可能会获取…

家政预约小程序08服务详情

目录 1 创建页面2 创建URL参数3 配置数据详情组件4 从分类页跳转到详情页5 搭建详情页总结 现在我们的小程序已经在首页和分类页展示了服务的列表信息&#xff0c;当用户点击具体的内容的时候需要打开详情页&#xff0c;本篇介绍一下详情页的开发。 1 创建页面 打开应用编辑器…

【第7章】SpringBoot整合Mybatis-Plus

文章目录 前言一、引入库二、案例1.UserMapper2.UserController3. 结果 三、配置总结 前言 MyBatis-Plus 是一个 MyBatis 的增强工具&#xff0c;在 MyBatis 的基础上只做增强不做改变&#xff0c;为简化开发、提高效率而生。 上一篇内容已经整合过Mybatis&#xff0c;这里在…

拼接字符串

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 使用“”运算符可完成对多个字符串的拼接&#xff0c;“”运算符可以连接多个字符串并产生一个字符串对象。 例如&#xff0c;定义两个字符串&#…

05-28 周二 TTFT, ITL, TGS 计算过程以及LLama2推理代码调试过程

05-28 周二 LLama2推理代码调试过程 时间版本修改人描述2024年5月28日15:03:49V0.1宋全恒新建文档 简介 本文主要用于求解大模型推理过程中的几个指标&#xff1a; 主要是TTFT&#xff0c;ITL&#xff0c; TGS 代码片段 import osdata_dir "/workspace/models/" m…

【2024最新华为OD-C卷试题汇总】披萨大作战 (100分) - 支持在线评测+三语言AC题解(Python/Java/Cpp)

&#x1f36d; 大家好这里是清隆学长 &#xff0c;一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C卷的三语言AC题解 &#x1f4bb; ACM银牌&#x1f948;| 多次AK大厂笔试 &#xff5c; 编程一对一辅导 &#x1f44f; 感谢大家的订阅➕ 和 喜欢&#x1f497; 文章目录 前…

从多站点到多活,XEOS 对象数据容灾能力再提升

近日&#xff0c; XSKY SDS V6.4 新版本发布&#xff0c;其中 XEOS V6.4 全新升级并完善了统一命名空间功能&#xff0c;更进一步增强和完善了异地容灾方案&#xff0c;配合强一致代理读&#xff0c;可以实现异地多活&#xff1b;同时大幅降低管理复杂度&#xff0c;有效降低容…

Apache漏洞复现:【CVE-2021-42013】【CVE_2021_41773】【CVE-2017-15715】

声明 严禁读者利用本文介绍知识点对网站进行非法操作 , 本文仅用于技术交流和学习 , 如果您利用文章中介绍的知识对他人造成损失 , 后果由您自行承担 , 如果您不能同意该约定 , 请您务必不要阅读该文章 , 感谢您的配合 ! 远程代码执行 CVE-2021-42013 描述 Apache HTTP Ser…

RFM模型-分析母婴类产品

1&#xff0c;场景描述 假设我们是某电商平台的数据分析师&#xff0c;负责分析母婴产品线的用户数据。母婴产品的购买行为具有一定的周期性和生命周期特征&#xff0c;如用户在不同怀孕阶段的需求不同&#xff0c;以及宝宝出生后的不同成长阶段需要不同的产品。 2&#xff0…

前缀和(下)

目录 热身&#xff1a; 寻找数组的中心下标 题解&#xff1a; 代码&#xff1a; 进阶&#xff1a; 除自身之外数组的乘积 题解&#xff1a; 代码&#xff1a; 和为K的子数组 题解&#xff1a; 代码&#xff1a; 和可被 K 整除的子数组 题解&#xff1a; 同余定理…

postman教程-6-发送delete请求

领取资料&#xff0c;咨询答疑&#xff0c;请➕wei: June__Go 上一小节我们学习了postman发送put请求的方法&#xff0c;本小节我们讲解一下postman发送delete请求的方法。 HTTP DELETE 请求是一种用于删除指定资源的请求方法。在RESTful API 设计中&#xff0c;DELETE 请求…

基础漏洞系列——CSRF跨站请求伪造

简介&#xff1a; 跨站请求伪造&#xff08;英语&#xff1a;Cross-site request forgery&#xff09;&#xff0c;也被称为 one-click attack或者 session riding&#xff0c;通常缩写为 CSRF或者 XSRF&#xff0c; 是一种挟制用户在当前已登录的Web应用程序上执行非本意的操…