(2024,稀疏 MoE,大量小专家,参数高效专家检索 PEER,product key 检索)混合百万专家

news2024/11/15 19:32:02

Mixture of A Million Experts

公和众与号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

1. 简介

2. 方法

3. 实验


0. 摘要

标准 Transformer 架构中的前馈(feedforward,FFW)层随着隐藏层宽度的增加,计算成本和激活内存呈线性增长。稀疏混合专家(Sparse mixture-of-experts,MoE)架构通过将模型大小与计算成本解耦,已经成为解决这个问题的可行方法,。最近发现的细粒度 MoE 缩放法则表明,更高的粒度会带来更好的性能。然而,由于计算和优化方面的挑战,现有的 MoE 模型仅限于少量的专家。本文介绍了参数高效专家检索(parameter efficient expert retrieval,PEER),一种新颖的层设计,利用乘积 key(product key)技术从大量小专家(超过一百万)中进行稀疏检索。在语言建模任务上的实验表明,PEER 层在性能与计算的权衡方面优于密集的 FFW 和粗粒度的 MoE。通过高效利用大量专家,PEER 在保持计算效率的同时,释放了 Transformer 模型进一步扩展的潜力。

1. 简介

为了打破计算成本和参数数量之间的耦合,许多近期的研究(Shazeer等,2017;Lepikhin等,2020;Fedus等,2022;Zhou等,2022)采用了 MoE 架构,该架构使用一组稀疏激活的(sparsely activated)专家模块(通常是 FFW)来替代单个密集的 FFW。Clark 等(2022)研究了 MoE 语言模型的缩放法则,表明增加专家数量是提高性能的有效方法,而不会增加推理成本。然而,他们的实验表明,MoE 提供的效率增益在达到某一模型大小后会趋于平稳。最近,Krajewski 等(2024)发现这种平稳是由于使用了固定数量的训练样本引起的。当训练样本数量达到计算最优时,MoE 在 FLOP 效率方面始终优于密集模型。此外,他们引入了粒度(活动专家的数量)作为新的缩放轴,并通过实验证明,使用更高的粒度可以提高性能。对这种细粒度 MoE 缩放法则的外推表明,模型容量的持续改进最终将导致一个具有高粒度的大模型,对应于拥有大量小专家的架构。

除了高效缩放之外,拥有大量专家的另一个原因是终身学习(lifelong learning),其中 MoE 作为一种有前途的方法(Aljundi等,2017;Chen等,2023;Yu等,2024;Li等,2024)出现。例如,Chen等(2023)表明,通过简单地添加新专家并适当地正则化它们,MoE 模型可以适应连续的数据流。冻结旧专家并只更新新专家可以防止灾难性遗忘,并通过设计保持可塑性。在终身学习环境中,数据流可以无限长或永无止境(Mitchell等,2018),这需要一个不断扩展的专家池。

尽管高效缩放和终身学习都需要能够处理大量专家的 MoE 设计,但据我们所知,唯一支持超过一万个专家的架构是词专家混合(Mixture of Word Experts,MoWE)(dos Santos等,2023)。然而,MoWE 是特定于语言的,并使用固定的路由方案。理论和实验证据(Clark等,2022;Dikkala等,2023)强调了学到的路由器(router)相对于非可训练路由器的优势。因此,具有学到的路由器且可扩展到超过一百万专家的 MoE 设计仍然是一个值得探索的领域。

2. 方法

在本节中,我们介绍参数高效专家检索(PEER)层,这是一种使用乘积 key(product keys)(Lample等,2019)作为路由器并将单神经元 MLP 作为专家的混合专家架构。图 2 展示了 PEER 层的计算过程。

PEER 概述。形式上,一个 PEER 层是一个函数 f: R^n→R^m,它由三部分组成:

  • 一个包含 N 个专家的池 E := {e_i}^N_(i=1),每个专家 e_i: R^n→R^m 具有与 f 相同的签名,
  • 一个对应的 N 个乘积 key 集合 K := {k_i}^N_(i=1)
  • 一个将输入向量 x∈R^n 映射到 query 向量 q(x) 的网络 q: R^n→R^d

令 T_k 表示前 k 个操作符。给定输入 x,我们首先检索 query q(x) 与对应的乘积 key 内积最高的 k 个专家的子集。

然后我们对这些前 k 个专家的 query-key 内积应用非线性激活(如 softmax 或 sigmoid),以获得路由器得分。

最后,我们通过以路由器得分为权重线性组合专家输出来计算输出。

乘积 key 检索。由于我们打算使用非常大量的专家(N ≥ 10^6),直接计算公式(1)中的前 k 个索引会非常昂贵。因此,我们在这里应用乘积 key 检索技术。我们不使用 N 个独立的 d 维向量作为 key k_i,而是通过连接来自两个独立的 d/2 维子 key 集合 C,C′ ⊆ R^(d/2) 的向量来创建它们:

注意这里的 C,C′ 的基数(cardinality)为 √N​,而 c,c′ 的维度为 d/2。所以在实践中,我们选择 N 为一个完全平方数, d 为一个偶数。

这种笛卡尔积结构的 K 使我们能够高效地找到前 k 个专家。我们不再将 q(x) 与 K 中的所有 N 个 key 进行比较并选择前 k 个匹配项,而是将向量 q(x) 分成两个子 query q_1 和 q_2​,并分别将前 k 操作应用于子 query 和子 key 之间的内积:

这产生了一组 k^2 个候选 key

并且数学上保证了 K 中与 q(x) 最相似的前 k 个 key 在这个候选集中。此外,候选 key 与 q(x) 之间的内积只是子 key 和子 query 之间内积的和:

因此,我们可以再次将前 k 操作符应用于这 k^2 个内积,以从原始的乘积 key 集合 K 中获得前 k 个匹配 key。正如 Lample 等(2019)所解释的那样,这将公式(1)中前 k 个专家检索的复杂度从通过穷尽搜索的 O(Nd) 降低到 O((√N + k^2)d)。

参数高效专家和多头检索。与其他 MoE 架构不同,这些架构通常将每个专家的隐藏层设置为与其他 FFW 层相同的大小,而在 PEER 中,每个专家 e_i 是一个单独的 MLP,换句话说,它只有一个带有单个神经元的隐藏层:

其中 v_i, u_i 不是矩阵,而是与 x 具有相同维度的向量,σ 是非线性激活函数,如 ReLU 或 GELU。为了简洁起见,我们省略了偏置项。

我们不改变单个专家的大小,而是通过使用多头检索来调整 PEER 层的表达能力,类似于 Transformer 中的多头注意机制和 PKM 中的多头内存。具体来说,我们使用 h 个独立的网络,而不是一个,每个网络计算其自己的 query 并检索一个单独的专家集。然而,不同的头共享相同的专家池和相同的乘积 key 集合。h 个头的输出简单地相加:

可以验证,当每个头仅检索一个专家时(k=1),使用具有 h 个头的 PEER 层与使用具有 h 个隐藏神经元的一个专家是相同的:

其中 W=[u1,⋯ ,uh],V=[v1,⋯ ,vh]。换句话说,PEER 通过聚合从共享库中检索到的 h 个单独的 MLP 动态组装一个具有 h 个神经元的 MLP。相比于使用具有多个隐藏神经元的 MLP 作为专家的现有 MoE 方法,这种设计允许专家之间共享隐藏神经元,从而增强知识传递和参数效率

算法 1 展示了 PEER 前向传递的简化实现,将参数高效专家权重存储在嵌入层中,并将它们与 einsum 操作相结合。通过添加额外的线性门控权重,可以轻松扩展此实现以支持 GLU 变体的专家(Shazeer,2020)。在实践中,高效实现可能需要专用硬件内核来加速嵌入查找和与 einsum 操作的融合。

为什么需要大量的小专家?给定一个 MoE 层,我们可以通过三个超参数来表征它:总参数数量 P、每个 token 的活跃的参数数量 P_active 和单个专家的大小 P_expert。Krajewski 等(2024)表明,MoE 模型的缩放法则具有以下形式:

其中,L 是最终测试损失,a,b,g,γ,α,β 是常数,D 是训练样本的总数,粒度 G 是活跃专家的数量:

为了提高模型性能,我们需要扩大 P,D,G。另一方面,必须限制 P_active,因为计算和内存成本主要由训练和推理期间的活跃参数决定。特别是,与 P_active 相关的内存占用必须乘以 batch 中的样本数量,而 P 的内存成本与 batch 大小和序列长度无关,因为只需要存储模型的一份副本。

因此,我们希望增加 P 和 G,但不增加 P_active​。由于专家大小 P_expert = P_active / G 和专家数量 N = P / P_expert = P⋅G / P_active,这意味着我们应该减小每个专家的大小 P_expert 并增加专家的数量 N。因此,我们需要大量的小专家

通常,对于具有单隐藏层的 MLP 专家,P_expert = (2·d_model + 1)·d_expert 和 P_active = (2·d_model + 1)·d_active​,其中 d_model, d_expert 和 d_active 分别是 Transformer 的隐藏维度、一个专家使用的隐藏神经元数量以及每个 token 激活的总隐藏神经元数量。

在 PEER 的情况下,我们通过设置 d_expert = 1 来使用最小的专家大小,且激活的(activated)神经元数量是检索头的数量乘以每个头检索的专家数量:d_active = hk。因此,PEER 的粒度总是 G = P_active / P_expert = d_active / d_expert = hk。

3. 实验

结果表明,在所考虑的值范围内,更高的 hk 通常会带来更好的性能。值得注意的是,随着 hk 的增加,最佳的 h 也会增加。然而,性能逐渐趋于饱和,并且增加活跃专家的数量也会增加设备的内存消耗,并可能需要额外的加速器设备。因此,在实际应用中,应根据性能、设备数量和计算资源需求之间的权衡来选择合适的 hk 值。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1906945.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

绝区肆--2024 年AI安全状况

前言 随着人工智能系统变得越来越强大和普及,与之相关的安全问题也越来越多。让我们来看看 2024 年人工智能安全的现状——评估威胁、分析漏洞、审查有前景的防御策略,并推测这一关键领域的未来可能如何。 主要的人工智能安全威胁 人工智能系统和应用程…

C++入门基础_cpp

目录 1.C发展历史 2.C版本更新 3. C参考⽂档 4.C的第⼀个程序 5.命名空间(namespace) 5.1 namespace的价值 5.2 namespace的定义 5.3 命名空间使用 6.C输⼊&输出 7. 缺省参数 8.函数重载 9. 引用 9.1 引用的概念和特性 9.2 const引用 9.3 引用与指针的关系 …

学诚教育在线管理系统-计算机毕业设计源码98076

目 录 摘要 1 绪论 1.1 选题背景与意义 1.2开发现状 1.3论文结构与章节安排 2 开发环境及相关技术介绍 2.1 MySQL数据库 2.2 Tomcat服务器 2.3 Java语言 2.4 Spring Cloud框架介绍 3 教育在线管理系统系统分析 3.1 可行性分析 3.1.1 技术可行性分析 3.1.2 经济可…

如何确保工业展厅设计既专业又吸引?三原则详解!

工业是民族发展的基石,它为我们带来了无数的便利和进步,而为了让更多人了解这个至关重要的产业,以及其背后的技术和产品,许多工业性质的企业都致力于通过互动投影、虚拟现实、全息投影等多媒体技术,来打造独具特色的工…

AI视频生成,文字、图片、人像生成视频小程序开发

AI视频生成,文字、图片、人像生成视频小程序开发 AI驱动的多媒体内容创新平台:从文本至视频的一站式生成解决方案。 以下概述集成AI技术的原创视频生成小程序的高级功能框架,旨在为用户提供极致的创作体验。 文本视频化引擎:允…

web端已有项目集成含UI腾讯IM

通过 npm 方式下载 TUIKit 组件,将 TUIKit 组件复制到自己工程的 src 目录下: npm i @tencentcloud/chat-uikit-vue mkdir -p ./src/TUIKit && rsync -av --exclude={node_modules,package.json,excluded-list.txt} ./node_modules/@tencentcloud/chat-uikit-vue/ .…

学数据结构学的很慢,毫无头绪怎么办 ?

这个情况比较正常诶,不用有太大的心理压力。 然后程序设计那个没有学过,而数据结构的前置课程之一就是程序设计,比如栈/队列/树,这些数据结构都要基于代码实现的。我估计是因为你之前缺少学习程序设计的经验,所以学起…

Perforce发布白皮书,解读电动汽车初创公司如何加速进入市场并降低软件开发中的风险和成本

电动汽车(EV)领域的初创企业正迅速崛起,创新速度显著加快。然而,随着消费者对电动汽车需求的激增,老牌汽车制造商正加速进军这一市场,加剧了行业竞争。为在竞争中生存并发展,电动汽车初创企业必…

JS数据类型检测的方式有哪些 (常用)

typeof 其中数组、对象、null都会被判断为object,其他判断都正确typeof返回的类型都是字符串形式 instanceof instanceof :用于检测一个实例是否属于某个类,通过验证当前类的原型 prototype 是否出现在实例的原型链 __proto__ 上。它不能检测…

读书记录《SQL从小白到大牛》01

读书记录《SQL从小白到大牛》01 接地气的书名,内容应当值得一读。 第一篇 SQL基础 01 一些基础概念 SQL是结构化查询语言(Structured Query Language),是一套用来输入、更改和查看关系数据库内容的命令。数据库发展经历三个阶…

花朵短视频:四川江兴川丰科技有限公司

花朵短视频:绽放于屏幕间的自然诗篇 在快节奏的现代生活中,我们常常渴望一抹清新与宁静,以慰藉心灵的疲惫。而花朵短视频,就像是大自然精心编织的一首首无声诗篇,四川江兴川丰科技有限公司通过手机屏幕的方寸之间&…

ArcGIS中国工具(ArcGISCTools)等插件使用体验

ArcGIS中国工具(ArcGISCTools)的主要功能 1. 接合图表生成 这个功能允许用户生成标准分幅图的行政区边框注记,并在打印时自动加入。这对于需要制作标准地图的用户非常实用。 2. 图框工具 图框工具可以帮助用户创建和管理地图的图框&#…

latex改写字体和字号

文章目录 字体使用宏包设置命令声明命令 字号例子设置特定字号 设置行间距用\setlength{\baselineskip}{24pt}设置\renewcommand{\baselinestretch}{2} \selectfont中文行距({ctex}) 补充: 字体 使用宏包 \usepackage{ctex}设置命令 只对确…

ExcelVBA运用Excel的【条件格式】(二)

ExcelVBA运用Excel的【条件格式】(二) 前面知识点回顾 1. 访问 FormatConditions 集合 Range.FormatConditions 2. 添加条件格式 FormatConditions.Add 方法 语法 表达式。添加 (类型、 运算符、 Expression1、 Expression2) 3. 修改或删除条件…

飞睿智能无线高速uwb安全数据传输模块,低功耗、抗干扰超宽带uwb芯片传输速度技术新突破

在信息化的时代,数据传输的速度和安全性无疑是每个企业和个人都极为关注的话题。随着科技的飞速发展,超宽带(Ultra-Wideband,简称UWB)技术凭借其性能和广泛的应用前景,逐渐成为了数据传输领域的新星。今天&…

一键高效处理,批量缩放PNG图片,按比例轻松调整,高效工作从此开始!

在数字时代,图片已经成为我们生活中不可或缺的一部分。无论是工作汇报、项目展示还是日常分享,图片都扮演着至关重要的角色。然而,当面对大量需要调整尺寸的PNG图片时,你是否曾经感到过困扰和繁琐? 第一步,…

App Store Connect 《数字服务法》合规性

App Store Connect 《数字服务法》合规性 - 简书 最近Apple开发者圈子比较热门的话题可能就是如标题所言。 如果不进行处理,App Store Connect后台已经给出了对应的影响。 如果你的应用属于国内销售,不走海外市场,那么可以直接选择非交易提…

比较(六)利用python绘制径向柱图

比较(六)利用python绘制径向柱图 径向柱图(Circular Barplot)简介 径向柱图基于同心圆网格来绘制条形图,虽然不如普通条形图表达准确,但却有抓人眼球的效果。其衍生的南丁格尔玫瑰图则广为人知。 快速绘制…

可编程直流电源的恒压模式(CV)和恒流模式(CC)

本文介绍可编程直流电源的恒压模式(CV)和恒流模式(CC)。 可编程直流电源在硬件开发过程中经常被用到,通常,它有2种模式,恒压模式(CV)和恒流模式(CC&#xff…