论文阅读MOE-DAMEX

news2024/10/17 23:28:28

目录

Abstract

1. Introduction

3. 传统的MOE

4. 方法

题目:DAMEX: Dataset-aware Mixture-of-Experts for visual understanding of mixture-of-datasets
数据集感知的专家混合模型,用于混合数据集的视觉理解

Abstract

通用普通的detector的构建提出了一个关键问题:我们如何才能在大型混合数据集上有效地训练模型。答案在于,在单个模型中,学习特定于数据集的特征并集成他们的知识。以前的方法通过在一个共同的主干上使用单独的检测头来实现这一点,但这会导致参数显着增加。

在这项工作中,我们提出了专家混合作为解决方案,突出了 MoE 比可扩展性工具多得多。我们提出了 Dataset-Aware Mixture-of-Experts, DAMEX,我们通过学习将每个数据集标记路由到其映射的专家来训练专家成为数据集的“专家”。在通用对象检测基准上的实验表明,我们比最先进的平均高出 +10.2 AP 分数,并且比我们的非 MoE 基线提高了平均 +2.0 AP 分数。我们还观察到在将数据集与 (1) 有限可用性(2) 不同领域(3) 不同标签集混合时的持续收益。此外,我们定性地表明 DAMEX 对专家表示崩溃具有鲁棒性。

1. Introduction

建议专家混合不仅仅是可扩展的学习者,而是为数据集混合构建通用模型的有效和高效的解决方案。在 vanilla MoE 的基础上,我们引入了一种新的数据集感知混合专家模型 DAMEX,该模型学习解开 MoE 层的特定数据集特征,同时汇集非 MoE 层的信息。DAPEX学会将令牌路由到相应的专家,以便在推理过程中,它通过网络自动选择测试图像的最佳路径。我们使用基于DINO[42]的检测体系结构来开发我们的方法

contributions

1. 数据集感知的专家混合层( DAMEX
        (1). 提出了一种新的数据集感知的专家混合( Mixture-of-Experts, MoE )层,称为 DAMEX
        (2). 该层能够在 MoE 层内 分离出数据集特定的特征 有效处理异构数据集的混合
        (3). 通过实验表明, DAMEX 能够促进更优秀的专家利用率,并避免了传统 MoE 训练中常见的表示崩溃问题。
2. 无需测试时数据集标签
        (1). 与基线相比, DAMEX 不需要在测试时提供数据集标签
        (2). 模型在训练期间就学会了将适当的输入数据集路由到对应的专家,这使得模型在测试时更加健壮。
3. MoE 作为有效的学习者
        (1). 据作者所知,这是 第一个探索 MoE 不仅仅是一个可扩展性工具,而是作为混合数据集 的有效学习者的工作。
        (2). MoE 作为模型架构内的一种知识整合策略,与密集架构相比,参数数量的增加是边际的。
4. UODB 数据集上建立新的最高标准
        (1). DAMEX UODB 数据集上的表现超过了之前报道的基线,平均 提高了 10.2 个百分点 AP 得分。
        (2). 与非 MoE 基线相比,平均提高了 2.0 个百分点的 AP 得分。
        (3). 在各种数据集混合场景中观察到一致的性能提升,如 1 )有限数据可用性, 2 )不同领域,以及 3 )同一领域内不同的标签集

3. 传统的MOE

在论文的 "3.1 Routing of tokens" 部分,作者介绍了如何在Mixture-of-Experts (MoE) 模型中进行令牌路由。以下是公式的解释:

  1. 令牌和专家表示:

    • 输入令牌表示为 x∈RDx∈RD,其中 DD 是令牌的维度。
    • 专家集合表示为 {ei}i=1∣E∣{ei​}i=1∣E∣​,其中 ∣E∣∣E∣ 是专家的总数。
    • 路由器变量表示为 Wr∈RE×DWr​∈RE×D,这是一个权重矩阵,用于确定每个专家的选择概率。
  2. 计算专家选择概率:

    • 首先,计算每个专家的选择得分 gxgx​: gx=Wr⋅xgx​=Wr​⋅x 这是路由器变量 WrWr​ 与输入令牌 xx 的点积。

    • 然后,计算每个专家 eiei​ 的选择概率 pi(x)pi​(x): pi(x)=exp⁡(gxi)∑j=1∣E∣exp⁡(gxj)pi​(x)=∑j=1∣E∣​exp(gxj​​)exp(gxi​​)​ 这里,exp⁡(gxi)exp(gxi​​) 是指指数函数 egxiegxi​​,分母是所有专家得分指数的总和。这个公式实现了一个softmax函数,它将每个专家的得分转换为一个概率分布,其中每个概率表示选择对应专家处理输入令牌的可能性。

  3. 令牌路由:

    • 接下来,使用top-k策略来选择概率最高的k个专家来处理令牌。在论文中,kk 被设置为1,意味着只选择概率最高的一个专家。
    • 计算输出 yy 作为选定专家处理过的令牌的加权组合: y=∑i∈top-kpi(x)ei(x)y=∑i∈top-k​pi​(x)ei​(x) 这里,ei(x)ei​(x) 是被选中的专家对输入令牌 xx 进行处理后的输出。输出 yy 是根据每个专家被选中的概率 pi(x)pi​(x) 加权后的结果。

通过这种方式,MoE模型能够将输入数据分配给最擅长处理该数据的专家,从而提高整个模型的效率和性能。这种方法也有助于提高模型的可扩展性和处理不同类型数据的能力。

负载均衡损失:

在论文的 "3.2 Load balancing among the experts" 部分,作者讨论了如何在MoE模型中的专家之间进行负载平衡。以下是公式的解释:

1. 专家的重要性损失(Importance Loss):
   - 对于每个专家 \( e_i \),计算其重要性 \( I_i \):
     \[
     I_i = \sum_{x \in \mathcal{M}} p_i(x)
     \]
     这里,\( \mathcal{M} \) 是一批输入令牌的集合,\( p_i(x) \) 是选择专家 \( e_i \) 处理令牌 \( x \) 的概率。重要性 \( I_i \) 表示专家 \( e_i \) 被选中的总次数。

   - 然后,计算重要性损失 \( L_{\text{importance}} \):
     \[
     L_{\text{importance}} = \frac{\text{Var}(I)}{\text{Mean}(I)^2}
     \]
     这里,\( \text{Var}(I) \) 是重要性 \( I \) 的方差,\( \text{Mean}(I) \) 是 \( I \) 的均值。这个损失函数旨在最小化专家重要性的方差,从而确保所有专家的使用相对均衡。

2. 专家的负载损失(Load Loss):
   - 对于每个专家 \( e_i \),计算其负载 \( L_i \):
     \[
     L_i = \sum_{x \in \mathcal{M}} \Phi(p_i(x))
     \]
     这里,\( \Phi \) 是正态分布 \( N(0, \sigma^2 I) \) 的累积分布函数(CDF),其中 \( \sigma = \frac{\text{gate noise}}{|E|} \)。负载 \( L_i \) 表示专家 \( e_i \) 被分配的令牌数量。

   - 然后,计算负载损失 \( L_{\text{load}} \):
     \[
     L_{\text{load}} = \frac{\text{Var}(L)}{\text{Mean}(L)^2}
     \]
     这里,\( \text{Var}(L) \) 是负载 \( L \) 的方差,\( \text{Mean}(L) \) 是 \( L \) 的均值。这个损失函数旨在最小化专家负载的方差,从而确保所有专家的负载相对均衡。

3. 负载平衡的辅助损失(Load Balancing Auxiliary Loss):
   - 最后,计算负载平衡的辅助损失 \( L_{\text{load-balancing}} \):
     \[
     L_{\text{load-balancing}} = L_{\text{importance}} + \frac{L_{\text{load}}}{2}
     \]
     这个损失函数结合了重要性损失和负载损失,以确保在训练过程中专家的使用和负载都保持均衡。

通过引入这个负载平衡的辅助损失,MoE模型可以更有效地利用所有专家,避免某些专家过载而其他专家闲置,从而提高模型的整体性能和稳定性。
 

4. 方法

DAMEX(Dataset-aware Mixture-of-Experts)的Loss计算方法涉及到一个辅助的交叉熵损失函数。这个损失函数的设计是为了训练MoE(Mixture-of-Experts)路由器,以便根据输入令牌的数据集来源将它们路由到相应的专家。

在DAMEX中,每个数据集被分配给一个特定的专家。这意味着,不是所有来自相同数据集的令牌都有相同的标签,而是它们被分配给特定的专家进行处理。这里的“标签”实际上是指目标专家的索引,而不是传统意义上图像分类任务中的类别标签。

举例来说,假设我们有三个数据集:COCO、DOTA和ImageNet。每个数据集都分配给了一个不同的专家。如果一个输入令牌来自COCO数据集,那么根据映射函数\( h \),它将被分配给负责COCO数据集的专家,假设这个专家是专家1(\( e_1 \))。因此,这个令牌的目标标签就是1,表示它应该被路由到专家1。路由器的任务是预测这个令牌应该被路由到哪个专家,预测的概率由\( p_i(x) \)给出,其中\( i \)是专家的索引,\( x \)是输入令牌。

辅助损失\( \mathcal{L}_{\text{DAMEX}} \)的计算公式为:

在这个公式中,\( 1\left(h(d_m)=i\right) \)是一个指示函数,当\( h(d_m) \)等于\( i \)时,它的值为1,否则为0。这意味着只有当预测的专家索引\( i \)与目标专家索引相匹配时,才会计算损失。\( p_i(x) \)是模型预测的第\( i \)个专家被选中的概率。

通过这种方式,DAMEX训练路由器将所有来自特定数据集的视觉令牌发送到其对应的专家,从而确保MoE的有效利用,并避免表示崩溃。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2212820.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用HTML、CSS和JavaScript创建图像缩放功能

使用HTML、CSS和JavaScript创建图像缩放功能 在这篇博客文章中,我们将介绍如何使用HTML、CSS和JavaScript创建一个简单的图像缩放功能。这个功能可以增强用户体验,让访问者在点击图像时查看更大的版本。 效果 步骤1:设置HTML结构 首先&…

python异常检测 - 随机离群选择Stochastic Outlier Selection (SOS)

python异常检测 - Stochastic Outlier Selection (SOS) 前言 随机离群选择SOS算法全称stochastic outlier selection algorithm. 该算法的作者是jeroen janssens. SOS算法是一种无监督的异常检测算法. 随机离群选择SOS算法原理 随机离群选择SOS算法的输入: 特征矩阵(featu…

架构设计笔记-14-云原生架构设计理论与实践

知识要点 云原生(Cloud Native)架构原则: 服务化原则:通过微服务架构,小服务(MiniService)架构把不同生命周期的模块分离出来,分别进行业务迭代,避免迭代频繁模块被慢速…

10 分钟使用豆包 MarsCode 帮我搭建一套后台管理系统

以下是「 豆包MarsCode 体验官」优秀文章,作者把梦想揉碎。 十分钟使用豆包 MarsCode 搭建后台管理项目 在这个快节奏的时代,开发者们总是希望能够快速、高效地完成项目的搭建与开发工作。无论是初创企业还是大型公司,后台管理系统都是必不可…

Java数组总结

这里写目录标题 一、概念二、几个相关的概念三、数组的特点四、复习:变量按照数据类型的分类五、数组的分类六、一维数组的使用(6个基本点)七、数组元素的默认初始值的情况八、一维数组的内存解析九、二维数组十、数组的常用算法1、数组的最大值、最小值、总和、平均值2、数组的…

翻译难题一扫光!2024年精选4款神器,推荐给每一个需要的你

咱们现在生活在一个信息多得跟潮水一样扑过来的时代,翻译可不只是简单地把一种语言换成另一种语言那么简单了。它更像是连接不同文化和国家的坚固桥梁,也是让知识快速传播的超级加速器。随着科技的飞速发展,翻译工具也迎来了翻天覆地的变化。…

python画图|三维动态柱状图绘制

【1】引言 前序已经学习了二维动态柱状图绘制教程,本次尝试探索三维动态柱状图绘制教程: 【2】项目设计 三维和二维的不同,要在一开始就定义。 二维的定义简单粗暴,只需要一行代码: fig, ax plt.subplots() # 定…

【动手学深度学习】6.6. 卷积神经网络(LeNet)(个人向笔记)

之前我们对Fashion-MNIST数据集的每一张图片进行展平,并用全连接层进行处理。现在我们可以用卷积神经网络来代替它了!用卷积层处理可以在图像中保留空间结构,同时模型更简洁,所需参数更少本节将介绍LeNet,它是最早发布…

python学习-怎么在Pycharm写代码

打开Pycharm,点击文件-新建项目 2.选择pure python-点击箭头 展开 3.选择 Existing interpreter 如果 Existing interpreter 下没有相关环境 (1)点击**…** (2)选择python的安装路径 4.可修改文件名称-点击创建 …

低功耗4G边缘采集网关——一块电池、一个网关 覆盖90%低功耗场景

低功耗4G边缘采集网关——一块电池、一个网关 覆盖90%低功耗场景 一、简介 历经几个月的研发,DEVELOPLINK 终于推出了低功耗系列采集网关。如果你有低功耗采集的需求, 可以仔细阅读这篇文章,了解一下低功耗系列采集网关的基本情况。 研发的初衷&#…

基于SpringBoot的医院信息管理平台

作者:计算机学长阿伟 开发技术:SpringBoot、SSM、Vue、MySQL、ElementUI等,“文末源码”。 系统展示 【2024最新】基于JavaSpringBootVueMySQL的医院信息管理平台,前后端分离。 开发语言:Java数据库:MySQ…

xss-labs靶场第八关测试报告

目录 一、测试环境 1、系统环境 2、使用工具/软件 二、测试目的 三、操作过程 1、注入点寻找 2、使用hackbar进行payload测试 3、绕过结果 四、源代码分析 五、结论 一、测试环境 1、系统环境 渗透机:本机(127.0.0.1) 靶 机:本机(127.0.0.…

springboot大学校园用电数据管理与可视化系统-计算机毕业设计源码87507

目 录 摘要 1 绪论 1.1 研究背景 1.2 研究意义 1.3论文结构与章节安排 2系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 用户注册流程 2.2.2 数据删除流程 2.3 系统功能分析 2.3.1 功能性分析 2.4 系统用例分析 2.5本章小结 3 系统总体设计 3.1 系统架构设计…

抖音视频制作怎么暂停画面,抖音视频怎么让它有暂停的效果

千万别滥用视频特效,不然它能毁掉你的抖音作品。在创作过程中,应尽量使用类似暂停画面、隐形字幕这样的视觉特效,可以显著提高作品的视觉体验。增强视频表现力的同时,也不会让画面看起来过于夸张。有关抖音视频制作怎么暂停画面的…

WIN10右键-打开方式-选择其他应用:该文件没有与之关联的应用来执行该操作...解决办法

WIN10右键-打开方式-选择其他应用:该文件没有与之关联的应用来执行该操作…解决办法 问题描述 鼠标右键->打开方式->选择其他应用,提示错误:该文件没有与之关联的应用来执行该操作。请安装应用,若已经安装应用,…

重学SpringBoot3-集成Redis(十二)之点赞功能实现

更多SpringBoot3内容请关注我的专栏:《SpringBoot3》 期待您的点赞👍收藏⭐评论✍ 重学SpringBoot3-集成Redis(十二)之点赞功能实现 1. 点赞功能的场景分析2. 项目环境配置2.1. 依赖引入2.2. Redis 配置 3. 点赞功能的实现3.1. 点…

Spring Boot课程问答:一键解决疑惑

1系统概述 1.1 研究背景 如今互联网高速发展,网络遍布全球,通过互联网发布的消息能快而方便的传播到世界每个角落,并且互联网上能传播的信息也很广,比如文字、图片、声音、视频等。从而,这种种好处使得互联网成了信息传…

【vue+printJs】前端打印, 自定义字体大小, 自定义样式, 封装共享样式

效果示例 思维导图 目录 1,基本使用1, 依赖下载2, 页面导入3, 修改字体大小(可行但不推荐) 2, 自定义样式,字体大小1, 修改字体大小(推荐)2, 自定义样式3, 封装共享样式 3, 去除页面页脚内容4, 测试案例demo, 直接cv可用5, print-js的其他参数说明 1,基本使用 1, 依赖下载 …

【SpringBoot详细教程】-14-Spring Secruity 安全管理【持续更新】

🌲 Spring Security 基本原理 🌿 Spring Security简介 Spring Security 是基于Spring框架,提供的一套Web应用安全性的完整解决方案,一般来说,Web应用的安全性包含 用户认证(Authentication)和…

JavaScript全面指南(三)

​🌈个人主页:前端青山 🔥系列专栏:Javascript篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来javascript篇专栏内容:JavaScript全面指南(三) 目录 41、构造函数Fn,原型对象,实例…