天工一刻 | 一文看懂MoE混合专家大模型 | 最新快讯

news2024/12/29 1:28:04

(原标题:天工一刻 | 一文看懂MoE混合专家大模型)

随着大模型技术迎来颠覆性突破,新兴AI应用大量涌现,不断重塑着人类、机器与智能的关系。

为此,昆仑万维集团重磅推出《天工一刻》系列产业观察栏目。在本栏目中,我们将对大模型产业热点、技术创新、应用案例进行深度解读,同时邀请学术专家、行业领袖分享优秀的大模型行业趋势、技术进展,以飨读者。

MoE混合专家大模型最近究竟有多火?

举个例子,在此前的GTC 2024上,英伟达PPT上的一行小字,吸引了整个硅谷的目光。

“GPT-MoE 1.8T”

这行小字一出来,X(推特)上直接炸锅了。

“GPT-4采用了MoE架构”,这条整个AI圈疯传已久的传言,竟然被英伟达给“无意中”坐实了。消息一出,大量AI开发者们在社交平台上发帖讨论,有的看戏吐槽、有的认真分析、有的开展技术对比,一时好不热闹。

MoE大模型的火热,可见一斑。

近半年多以来,各类MoE大模型更是层出不穷。在海外,OpenAI推出GPT-4、谷歌推出Gemini、Mistral AI推出Mistral、连马斯克xAI的最新大模型Grok-1用的也是MoE架构。

而在国内,昆仑万维也于今年4月17日正式推出了新版MoE大语言模型「天工3.0」,拥有4000亿参数,超越了3140亿参数的Grok-1,成为全球最大的开源MoE大模型。

MoE究竟是什么?它有哪些技术原理?它的优势和缺点是什么?它又凭什么能成为当前最火的大模型技术?

以上问题,本文将逐一回答。

MoE核心逻辑:术业有专攻

MoE,全称Mixture of Experts,混合专家模型。

MoE是大模型架构的一种,其核心工作设计思路是“术业有专攻”,即将任务分门别类,然后分给多个“专家”进行解决。

与MoE相对应的概念是稠密(Dense)模型,可以理解为它是一个“通才”模型。

一个通才能够处理多个不同的任务,但一群专家能够更高效、更专业地解决多个问题。

(图片来源:《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》)

上图中,左侧图为传统大模型架构,右图为MoE大模型架构。

两图对比可以看到,与传统大模型架构相比,MoE架构在数据流转过程中集成了一个专家网络层(红框部分)。

下图为红框内容的放大展示:

(图片来源:Zian (Andy) Wang)

专家网络层的核心由门控网络(Gating Network)和一组专家模型(Experts)构成,其工作流程大致如下:

1、数据首先会被分割多个区块(Token),每组数据进入专家网络层时,首先会进入门控网络。

2、门控网络将每组数据分配给一个或多个专家,每个专家模型可以专注于处理该部分数据,“让专业的人做专业的事”。

3、最终,所有专家的输出结果汇总,系统进行加权融合,得到最终输出。

当然,以上只是一个概括性描述,关于门控网络的位置、模型、专家数量、以及MoE与Transformer架构的具体结合方案,各家方案都略有差别,但核心思路是一致的。

与一个“通才网络”相比,一组术业有专攻的“专家网络”能够提供更好的模型性能、更好地完成复杂的多种任务,同时,也能够在不显著增加计算成本的情况下大幅增加模型容量,让万亿参数级别的大模型成为可能。

Scaling Law:让模型更大

MoE之所以受到整个AI大模型行业的追捧,一个核心的原因是——今天的大模型,正迫切地需要变得更大。

而这一切的原因,则要追溯到Scaling Law。

Scaling Law,规模定律,也译为缩放定律。这不是一个严格的数学定律,它只是用来描述物理、生物、计算机等学科中关于系统复杂属性变化的规律。

而在大语言模型里,从Scaling Law能够衍生出一个通俗易懂的结论:

“模型越大,性能越好。”

更准确的描述是:当AI研究人员不断增加大语言模型的参数规模时,模型的性能将得到显著提升,不仅能获得强大的泛化能力,甚至出现智能涌现。

自人工智能诞生以来,人们一直试图设计出更巧妙的算法、更精密的架构,希望通过人类的智慧将机器设计得更聪明,达到通用人工智能。

但以OpenAI为代表的业内另一种声音说:“我反对!”

2019年,机器学习先驱Rich Sutton曾经发表过一篇经典文章《The Bitter Lesson》,该文几乎被全体OpenAI成员奉为圭臬。

文中认为,也许这种传统方法是一种错误的思路;也许试图用人类智慧设计出通用人工智能的这个路径,在过去几十年间,让整个行业都走了大量弯路,付出了苦涩的代价。

而真正正确的路径是:不断扩大模型规模,再砸进去天文数字的强大算力,让Scaling Law创造出更“聪明”的人工智能,而不是靠人类自己去设计。

在这一轮大模型火起来之前,遵循这一思路的科学家一直是业内的少数派,但自从GPT路线在自然语言处理上大获成功之后,越来越多研究人员加入这一阵列。

追求更大的模型,成为了人工智能性能突破的一大核心思路。

然而问题随之而来。

众所周知,随着大模型越来越大,模型训练的困难程度、资源投入、训练时间都在指数型提升,可模型效果却无法保证等比例提升。

随着模型越来越大,稳定性也越来越差,种种综合原因让大模型参数量长久以来限制在百亿与千亿级别,难以进一步扩大。

如何在有限的计算资源预算下,如何训练一个规模更大、效果更好的大模型,成为了困扰行业的问题。

此时,人们将目光投向了MoE。

MoE:突破万亿参数大关

早在1991年,两位人工智能界的泰斗Michael Jordan与Geoffrey Hinton就联手发布了MoE领域的奠基论文《Adaptive Mixtures of Local Experts》,正式开创了这一技术路径。

2020年,《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》论文又首次将MoE技术引入到Transformer架构中,拉开了“MoE+大模型”的大幕。

2022年,Google《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》论文中提出的MoE大模型更是一举突破了万亿参数大关。

Switch Transformers模型参数达到1.57万亿,与此前的T5模型相比,在相同的计算资源下获得高达7倍的模型预训练速度提升,并实现了4倍的模型加速。

而正如文章开头所言,本届GTC上英伟达侧面证实了那个公认的传言:OpenAI在2023年推出的GPT-4,同样采用了MoE架构,其模型效果与计算效率都得到了显著提升。

总结起来,MoE在大模型领域的优势包括:

1、与传统的Dense模型相比,MoE能够在远少于前者所需的计算资源下进行有效的预训练,计算效率更高、速度更快,进而使得模型规模得到显著扩大,获得更好的AI性能。

2、由于MoE在模型推理过程中能够根据输入数据的不同,动态地选择不同的专家网络进行计算,这种稀疏激活的特性能够让模型拥有更高的推理计算效率,从而让用户获得更快的AI响应速度。

3、由于MoE架构中集成了多个专家模型,每个专家模型都能针对不同的数据分布和构建模式进行搭建,从而显著提升大模型在各个细分领域的专业能力,使得MoE在处理复杂任务时性能显著变好。

4、针对不同的专家模型,AI研究人员能够针对特定任务或领域的优化策略,并通过增加专家模型数量、调整专家模型的权重配比等方式,构建更为灵活、多样、可扩展的大模型。

不过,天下没有免费的性能提升,在拥有种种优势之于,MoE架构也存在着不少挑战。

由于MoE需要把所有专家模型都加载在内存中,这一架构对于显存的压力将是巨大的,通常涉及复杂的算法和高昂的通信成本,并且在资源受限设备上部署受到很大限制。

此外,随着模型规模的扩大,MoE同样面临着训练不稳定性和过拟合的问题、以及如何确保模型的泛化性和鲁棒性问题、如何平衡模型性能和资源消耗等种种问题,等待着大模型开发者们不断优化提升。

结语

总结来说,MoE架构的核心思想是将一个复杂的问题分解成多个更小、更易于管理的子问题,并由不同的专家网络分别处理。这些专家网络专注于解决特定类型的问题,通过组合各自的输出来提供最终的解决方案,提高模型的整体性能和效率。

当前,MoE仍旧是一个新兴的大模型研究方向,研究资料少、资源投入大、技术门槛高,其研发之初仍旧以海外巨头为主导,国内只有昆仑万维等少数玩家能够推出自研MoE大模型。

不过,值得注意的是,虽然以扩大模型参数为核心的“暴力出奇迹”路线主导了当前的人工智能行业研究,但时至今日也没有人能拍着胸脯保证,Scaling Law就是人类通往通用人工智能的唯一正确答案。

从1991年正式提出至今,MoE架构已历经了30年岁月;深度神经网络更是70年前就已提出的概念,直到近十多年间才取得突破,带领人类攀上人工智能的又一座高峰。

MoE不是人工智能技术前进道路的终点,它甚至不会是大模型技术的最终答案。未来,还将有大量感知、认知、计算、智能领域的挑战摆在研究者面前,等待着人们去逐一解决。

所幸的是,怕什么真理无穷,进一寸有一寸的欢喜。

参考资料:

1、GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

2、Mixture of Experts: How an Ensemble of AI Models Decide As One

3、Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

4、「天工2.0」MoE大模型发布

 本文来源:大众新闻 责任编辑: 杜娟_ND0804

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1648388.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Google搜索广告怎么开户?谷歌广告开户投放引流技巧、账户搭建、谷歌ads广告推广投放策略 #搜索引擎 #谷歌广告#互联网营销

Google搜索广告开户步骤: 选择代理商:首先,您需要选择一个经验丰富、信誉良好的Google广告代理商。可以选择上海上弦来广告开户和代运营。 初步咨询:与代理商进行初步沟通,了解他们的服务内容、成功案例、收费标准等。…

翻译《The Old New Thing》- Does Windows have a limit of 2000 threads per process?

Does Windows have a limit of 2000 threads per process? - The Old New Thing (microsoft.com)https://devblogs.microsoft.com/oldnewthing/20050729-14/?p34773 Raymond Chen 2005年07月29日 Windows 是否有一个每个进程2000线程的限制? 简要 文章解释了在 W…

一键生成AI数字人短视频工具推荐!

数字人是什么?是利用人工智能技术实现与真人直播形象的1:1克隆,即克隆出一个数字化的你自己,包括你的形象、表情、动作和声音都会被克隆下来,让你能够拥有接近真人的表现力。 怎样使用数字人一天生成上百条短视频,无需…

Java中导入Maven项目

Maven坐标 maven坐标是资源的唯一标识,通过坐标可以唯一定位资源位置 使用坐标来定义项目或引入项目中需要的依赖 Maven坐标的组成 groupId:定义当前Maven项目隶属组织名称(通常是域名反写 例如:com.ming) artifa…

AI视频教程下载:用ChatGP在24小时内制作发布畅销电子书

这门变革性的课程使您能够利用内容生成和自行出版的新兴AI世界。利用ChatGPT 4等尖端人工智能工具,也称为ChatGPT Plus,您将获得所需的技能集,以创建引人入胜的内容,掌握设计,并成为亚马逊KDP上成功的自行出版作者 。 …

电商技术揭秘三十九:电商智能风控技术架构设计

相关系列文章 电商技术揭秘相关系列文章合集(1) 电商技术揭秘相关系列文章合集(2) 电商技术揭秘二十八:安全与合规性保障 电商技术揭秘二十九:电商法律合规浅析 电商技术揭秘三十:知识产权保…

原型模式类图与代码

现要求实现一个能够自动生成求职简历的程序,简历的基本内容包括求职者的姓名、性别、年龄及工作经历。希望每份简历中的工作经历有所不同,并尽量减少程序中的重复代码。 采用原型模式(Prototype)来实现上述要求,得到如图 7.25 所示的类图。 原…

FreeRTOS任务详解

一、任务的创建与删除 1.任务的基本概念 RTOS系统的核心就是任务管理,FreeRTOS 也不例外,而且大多数学习 RTOS 系统的工程 师或者学生主要就是为了使用 RTOS 的多任务处理功能,初步上手 RTOS 系统首先必须掌握的 也是任务的创建、删除、挂起和恢复等操作,由此可见任务管理…

Tektronix泰克MSO4054混合信号示波器

泰克MSO4054混合信号示波器是一款功能强大的测量仪器,它集成了数字存储示波器和逻辑分析仪的功能,为工程师提供了全面而精确的信号分析解决方案。在今天的高速电子设备开发中,混合信号示波器已经成为不可或缺的工具,而泰克MSO4054…

集中式抄表是什么?什么叫集中式抄表?

1.集中式抄表:简述 集中式抄表是一种现代化、高效率的电力工程、水力发电或燃气计量方法,它改变了传统的人工抄表方式,完成了远程自动化数据收集。这类系统主要由中央服务器、通信系统及安装在用户端智能化表计构成,大大提高了公…

Sarcasm detection论文解析 |CAT-BiGRU

论文地址 论文地址:CAT-BiGRU: Convolution and Attention with Bi-Directional Gated Recurrent Unit for Self-Deprecating Sarcasm Detection | Cognitive Computation github:Ashraf-Kamal/Self-Deprecating-Sarcasm-Detection (github.com) 论文首页 笔记框架 …

液晶数显式液压万能试验机WES-600D技术方案书

一、简介 主机为四立柱、两丝杠、油缸下置式,拉伸空间位于主机的上方,压缩、弯曲试验空间位于主机下横梁和工作台之间。测力仪表采用高清液晶显示屏,实验数据方便直观。 二、 传动系统 下横梁升降采用电机经减速器、链传动机构、丝杠副传动…

全域团购外卖SAAS是什么?能赚钱吗?

最近,很多人都在问与全域团购外卖相关的话题,其中,全域团购外卖SAAS是什么、全域团购外卖SAAS有哪些等问题更是稳居前列。的确,对于没有接触过团购外卖或者其他本地生活服务业务的人来说,全域团购外卖SAAS乍一看确实有…

c3 笔记8 css排版技巧

相关内容:边界、边框、位置(absolute、relative、static)、overflow、z-index、超链接、鼠标光标特效、…… margin:上边界值 右边界值 下边界值 左边界值 笔记来源: ©《HTML5CSS3JavaScript网页设计》陈婉凌编&#xff…

[力扣]——387.字符串中的第一个唯一字符

. - 力扣&#xff08;LeetCode&#xff09; class Solution {public int firstUniqChar(String s) {int[] count new int[256];// 统计每个字符出现的次数for(int i 0; i < s.length(); i){count[s.charAt(i)];}// 找第一个只出现一次的字符for(int i 0; i < s.lengt…

电脑显示丢失mfc140u.dll怎么修复,总共有7个方法

mfc140u.dll 是一个动态链接库&#xff08;Dynamic Link Library&#xff09;文件&#xff0c;它是Microsoft Foundation Class (MFC)库的一部分&#xff0c;专为使用C编程语言开发Windows应用程序而设计。MFC库由微软提供&#xff0c;作为一个高级的应用程序框架&#xff0c;旨…

耕耘未来——揭秘第一产业的无限潜能

在浩瀚的科技宇宙中&#xff0c;当火星探测器的每一次着陆都能激起全球狂欢&#xff0c;当虚拟现实的浪潮让我们触碰未来&#xff0c;有一个领域&#xff0c;以其恒久不变的坚韧&#xff0c;默默地滋养着人类文明的根脉——这就是第一产业&#xff0c;那片古老而又充满生机的土…

关于YOLO8学习(六)安卓部署ncnn模型--图片检测

前文 关于YOLO8学习(一)环境搭建,官方检测模型部署到手机 关于YOLO8学习(二)数据集收集,处理 关于YOLO8学习(三)训练自定义的数据集 关于YOLO8学习(四)模型转换为ncnn 关于YOLO8学习(五)安卓部署ncnn模型–视频检测 简介 前文第五章,讲述了部署自定义模型后,进…

数字藏品app功能介绍

主要功能介绍 艺术品发售 用户可以在平台上浏览和购买各种艺术品藏品。这些藏品由平台或艺术家发布&#xff0c;并且后台可以设置不同的稀有度&#xff0c;以满足不同用户的需求和收藏喜好。 后台藏品管理 管理员在后台可以灵活地设置藏品的稀有度、价格、数量等信息。不同…

​XMall商城微信小程序前端技术解析

摘要 随着移动互联网的深入发展&#xff0c;微信小程序以其轻量级、便捷性和即用即走的特点&#xff0c;成为了众多企业和开发者关注的焦点。XMall商城微信小程序前端作为一款开源项目&#xff0c;以其精美的页面设计、丰富的功能和高效的性能&#xff0c;受到了广大开发者和用…