MoE演变过程

MoE演变过程

news2025/3/13 15:37:17

MoE演变过程

1 MoE
- 1.1 BasicMoE
- 1.2 SparseMoE
- - 1.2.1 实现
- 1.3 Shared Expert SparseMoE

1 MoE

参考：https://huggingface.co/blog/zh/moe

1.1 BasicMoE

用router给出各专家的权重，然后让输入过每一个专家，然后做加权求和。

1.2 SparseMoE

这个模型是由Switch Transformer论文中提出来的，其预训练速度是密集模型的7倍。

论文：Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
paper：https://arxiv.org/abs/2101.03961

在这里插入图片描述

SparseMoE选择topk个专家（没有激活全部专家，所以叫sparse），然后各专家的输出进行加权求和。

1.2.1 实现

router

将hidden_dim转化为各个专家的概率route_logits；
根据概率，输出topk的权重（router_weights）和idx ；
权重归一化（router_weights），要不然topk的权重之和是小于1的；
选出专家id形成one_hot掩码expert_mask。

在这里插入图片描述
sparseMoE

通过router选出专家idx和其权重
遍历专家，找到使用了该专家的token
对该token进行更新
将其存放到最终结果中

在这里插入图片描述

1.3 Shared Expert SparseMoE

因为有些信息是通识的，所以建立Shared Expert共享专家，这些专家是每个token都要过的，然后其他专业领域的专家由router进行选择，然后再加权求和。

在这里插入图片描述

共享专家

共享专家的输出stack起来，并求sum
共享专家的输出和topk专家的结果相加（element-wise add）

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2300419.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【实战项目】BP神经网络识别人脸朝向----MATLAB实现

【实战项目】BP神经网络识别人脸朝向----MATLAB实现

(꒪ꇴ꒪ )，Hello我是祐言QAQ我的博客主页：C/C语言，数据结构，Linux基础，ARM开发板，网络编程等领域UP🌍快上🚘，一起学习，让我们成为一个强大的攻城狮&#xff0…

阅读更多...

【1.8w字深入解析】从依赖地狱到依赖天堂：pnpm 如何革新前端包管理？

【1.8w字深入解析】从依赖地狱到依赖天堂：pnpm 如何革新前端包管理？

目录前言npm 的诞生与发展嵌套依赖模型存在的问题npm3架构与yarnYarn 的诞生与局限Yarn 的诞生背景Yarn 仍然存在的问题何为幽灵依赖依赖结构的不确定性pnpm王牌登场 -- 网状平铺结构安装包速度快依赖管理软链接和硬链接机制幽灵依赖产生的根本原因包管理工具的依赖解析机…

阅读更多...

137，【4】 buuctf web [SCTF2019]Flag Shop

137，【4】 buuctf web [SCTF2019]Flag Shop

进入靶场都点击看看发现点击work会增加￥ 但肯定不能一直点下去抓包看看这看起来是一个 JWT（JSON Web Token）字符串。JWT 通常由三部分组成，通过点（.）分隔，分别是头部（Header&…

阅读更多...

【c++】c++内存管理

【c++】c++内存管理

目录 c和c的内存分布回顾C语言动态管理内存的方式malloccallocreallocfree C动态管理内存的方式new和deleteoperator new和operator delete定位new c和c的内存分布回顾C语言动态管理内存的方式 malloc void* malloc (size_t size);malloc可以在堆上开辟指定内存的空间&#…

阅读更多...

EtherNet/IP转Modbus TCP：新能源风电监控与分析实用案例

EtherNet/IP转Modbus TCP：新能源风电监控与分析实用案例

EtherNet/IP转Modbus TCP：新能源风电监控与分析实用案例一、案例背景在某新能源汽车电池生产线上，需要将采用EtherNet/IP协议的电池检测设备与采用ProfiNet协议的生产线控制系统进行集成，以实现对电池生产过程的全面监控和数据采集。二、…

阅读更多...

数字电路-基础逻辑门实验

数字电路-基础逻辑门实验

基础逻辑门是数字电路设计的核心元件，它们执行的是基本的逻辑运算。通过这些基本运算，可以构建出更为复杂的逻辑功能。常见的基础逻辑门包括与门（AND）、或门（OR）、非门（NOT）、异或门…

阅读更多...

国产编辑器EverEdit - 如虎添翼的功能：快速选择

国产编辑器EverEdit - 如虎添翼的功能：快速选择

1 快速选择 1.1 应用场景快速选择适用于批量选择和修改的场景，比如：变量改名。 1.2 使用方法 1.2.1 逐项快速选择将光标放置在单词前或单词中，选择主菜单查找 -> 快速选择 -> 快速选择或使用快捷键Ctrl D 注：光标放…

阅读更多...

国内外网络安全政策动态（2025年1月）

国内外网络安全政策动态（2025年1月）

▶︎ 1.国家互联网信息办公室发布《个人信息出境个人信息保护认证办法（征求意见稿）》 1月3日，国家互联网信息办公室发布《个人信息出境个人信息保护认证办法（征求意见稿）》。根据《意见稿》，个人信息出境个…

阅读更多...

68页PDF | 数据安全总体解决方案：从数据管理方法论到落地实践的全方位指南（附下载）

68页PDF | 数据安全总体解决方案：从数据管理方法论到落地实践的全方位指南（附下载）

一、前言这份报告旨在应对数字化转型过程中数据安全面临的挑战，并提供全面的管理与技术体系建设框架。报告首先分析了数字化社会的发展背景，强调了数据安全在国家安全层面的重要性，并指出数据安全风险的来源和防护措施。接着，报…

阅读更多...

AI大模型的文本流如何持续吐到前端，实时通信的技术 SSE(Server-Sent Events) 认知

AI大模型的文本流如何持续吐到前端，实时通信的技术 SSE(Server-Sent Events) 认知

写在前面没接触过 SSE（Server-Sent Events），AI大模型出来之后，一直以为文本流是用 WebSocket 做的偶然看到返回到报文格式是 text/event-stream,所以简单认知，整理笔记博文内容涉及 SSE 认知，以及对应的 D…

阅读更多...

Electron:使用electron-react-boilerplate创建一个react + electron的项目

Electron:使用electron-react-boilerplate创建一个react + electron的项目

使用 electron-react-boilerplate git clone --depth 1 --branch main https://github.com/electron-react-boilerplate/electron-react-boilerplate.git your-project-name cd your-project-name npm install npm start 安装不成功在根目录加上 .npmrc文件内容为 electron_…

阅读更多...

Spring Boot三：Springboot自动装配原理

Spring Boot三：Springboot自动装配原理

精心整理了最新的面试资料，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取原理初探 pom.xml 核心依赖在父工程中 spring-boot-dependencies所有的jar包都在这里管理我们在写或者引入一些依赖的时候，不需要指定版本启动器 <…

阅读更多...

2024 年 CSDN 博客之星年度评选：技术创作与影响力的碰撞（统计时间2025-02-17 11:06:06）

2024 年 CSDN 博客之星年度评选：技术创作与影响力的碰撞（统计时间2025-02-17 11:06:06）

摘要：在技术的海洋里，每一位博主都像是一座独特的灯塔，用自己创作的光芒照亮他人前行的道路。2024 年 CSDN 博客之星年度评选活动，正是对这些灯塔的一次盛大检阅，让我们看到了众多优秀博主在技术创作领域的卓越表现以及…

阅读更多...

Java零基础入门笔记：(3)程序控制

Java零基础入门笔记：(3)程序控制

前言本笔记是学习狂神的java教程，建议配合视频，学习体验更佳。【狂神说Java】Java零基础学习视频通俗易懂_哔哩哔哩_bilibili Scanner对象之前我们学的基本语法中我们并没有实现程序和人的交互，但是Java给我们提供了这样一个工具类&…

阅读更多...

后端生成二维码，前端请求接口生成二维码并展示，且多个参数后边的参数没有正常传输问题处理

后端生成二维码，前端请求接口生成二维码并展示，且多个参数后边的参数没有正常传输问题处理

一、后端代码 1、controller GetMapping("/generateQRCode/{url}")ApiOperation(value "生成url链接二维码",notes "生成url链接二维码")public JsonResult<NewsQRCodeVo> generateQRCode(PathVariable String url,HttpServletRespons…

阅读更多...

（8/100）每日小游戏平台系列

（8/100）每日小游戏平台系列

项目地址位于：小游戏导航新增一个打地鼠游戏！ 打地鼠（Whack-a-Mole）是一款经典的休闲游戏，玩家需要点击随机出现的地鼠，以获取分数。游戏时间有限，玩家需要在规定时间内尽可能多地击中地鼠&am…

阅读更多...

[Python人工智能] 五十.PyTorch入门 (5)快速搭建神经网络及模型保存

[Python人工智能] 五十.PyTorch入门 (5)快速搭建神经网络及模型保存

从本专栏开始，作者正式研究Python深度学习、神经网络及人工智能相关知识。前文讲解PyTorch构建分类神经网络。这篇文章将介绍如何利用PyTorch快速构建神经网络，之前的代码比较复杂，通过自定义Net类实现，本文通过Torch函数定义神经网络。前面我们的Python人工智能主要以Tens…

阅读更多...

SpringBoot+Vue+数据可视化的动漫妆造服务平台（程序+论文+讲解+安装+调试+售后等）

SpringBoot+Vue+数据可视化的动漫妆造服务平台（程序+论文+讲解+安装+调试+售后等）

感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，我会一一回复，希望帮助更多的人。系统介绍在当今数字化高速发展的时代，动漫产业迎来了前所未有的繁荣，动漫…

阅读更多...

基于web的留守儿童网站的设计与实现

基于web的留守儿童网站的设计与实现

开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：…

阅读更多...

OpenCV中的边缘检测

OpenCV中的边缘检测

边缘检测是图像处理和计算机视觉中的关键技术之一，旨在识别图像中像素强度发生显著变化的区域，这些区域通常对应于物体的边界或轮廓。边缘检测在机器视觉中具有重要的需求背景，主要体现在以下几个方面： 图像分割：边缘…

阅读更多...

推荐文章

最新文章