Multi-Head Mixture-of-Experts笔记

news2026/2/13 1:22:47

这篇文章（还是校友），也是和dot product本身没什么关系。讲一讲核心思想

文章在背景中介绍了Sparse Mixture of Experts，因为MH-MoE也是在S-MoE基础上做的，个人感觉其实变动并不大，但我觉得写的很清楚，感谢。

个人感觉这个图画得不够直观，看论文得公式更直观一些。

进入正题

核心思想：

每个TOKENQ其实都通过了所有专家，这样每个token都有个对于专家的权重，最后再找对于的专家去做乘法对吗？

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1965846.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

优化 Spring Boot 项目启动速度：高效管理大量 Bean 注入

个人名片 🎓作者简介：java领域优质创作者 🌐个人主页：码农阿豪 📞工作室：新空间代码工作室（提供各种软件服务） 💌个人邮箱：[2435024119@qq.com] 📱个人微信：15279484656 🌐个人导航网站：www.forff.top 💡座右铭：总有人要赢。为什么不能是我呢？专栏导…

卷积神经网络 - 卷积运算篇

序言在探索深度学习尤其是计算机视觉领域的奥秘时，卷积神经网络（ Convolutional Neural Networks, CNNs \text{Convolutional Neural Networks, CNNs} Convolutional Neural Networks, CNNs）无疑占据了核心地位。而卷积运算，作为…

书生大模型基础岛-第二关：8G 显存玩转书生大模型 Demo

1.来源 https://github.com/InternLM/Tutorial/blob/camp3/docs/L1/Demo/task.md 2.过程在 /root/share/pre_envs 中配置好了预置环境 icamp3_demo conda activate /root/share/pre_envs/icamp3_demo创建一个目录，用于存放我们的代码。并创建一个 cli_demo.py …

【JVM基础09】——垃圾回收-对象什么时候可以被垃圾回收器回收？

目录 1- 引言：垃圾回收1-1 什么是垃圾回收？(What)1-2 为什么要进行垃圾回收？(Why) 2- ⭐核心：对象什么时候可以被垃圾回收器回收？(How)2-1 对象什么时候可以被回收？2-2 引用计数法引用计数法存在的问题&…

误删文件大救星！4款必备数据恢复软件，轻松恢复各类文档照片

在数字化的时代信息就是王道，很多时候丢失了信息就以为着丢失了资源。这时候就需要失易得数据恢复这样的数据恢复工具来帮我们守护信息的安全。 1.福昕数据恢复 https://www.pdf365.cn/foxit-restore/链接直达：https://www.pdf365.cn/foxit-restore/ …

设计模式-创建型模式-单例设计模式

创建型模式提供创建对象的机制，能够提升已有代码的灵活性和复用性； 常用的有：单例模式、工厂模式、建造设模式；不常用的：原型模式； 1.概述单例模式是最简单的模式之一，其保证了某个类在运行期…

Ubuntu22 下 Docker 安装，VS Code Docker配置

1. Docker 安装 1. 卸载旧版本的 Docker（如果有）： sudo apt-get remove docker docker-engine docker.io containerd runc 2. 更新软件包： sudo apt-get update sudo apt-get upgrade 3. 安装 Docker 依赖： sudo apt-…

苹果手机通讯录恢复教程？3招速成指南

随着科技的不断进步，手机丢失、系统崩溃等意外情况也时有发生，一旦这些情况发生，我们宝贵的通讯录资料很可能会付诸东流。对此，本文为广大苹果手机用户提供一份简洁明了的通讯录恢复教程，让你轻松掌握苹果手机通讯录恢…

接了一个2000块的小活，大家进来看看值不值，附源码

如题，上周的一天，朋友圈的一个旧友找到了我，说让我帮他开发一个小工具，虽然活不大，但没个几年的全栈经验还不一定能接下来，因为麻雀虽小，涉及的内容可不少： 需求分析原型设计详细…

Halcon 边缘提取(像素)

传统提取边缘的方法即通过图像中的明暗进行过滤，其左右就是根据明暗区域找到像素边界。从数学角度，滤波器决定图像剃度，该图像剃度通常作为边缘幅度和边缘方法返回。通过选取所有边缘幅值高的像素点，可以提取区域间的轮廓。另一个…

G1简介、各种GC总结

概述 G1首次出现是在JDK 6u14版本里作为体验版，JDK 7u4版本被正式推出，JDK 9中被设置为默认垃圾收集器（参考JEP 248）。 G1全称是Garbage First，目标：延迟可控的情况下，尽可能高的吞吐量。一款…

怎么使用Element ui来做一个前端登录页面

找到Layout 布局他通过基础的 24 分栏，迅速简便地创建布局。找一个对齐方式这个就不错,找到对应的代码这个复制进入idea 引入我们的图片和文字我这里图片有点问题然后我再添加一条分割线加入表单校验把里面的代码同上加入idea 结果对表单内容进行调整 …

在网址前加“read:”可以转为阅读器模式，支持复制内容

原始网页转为阅读器后

CAPL使用结构体的方式组装一条DoIP车辆声明消息

如果你参加过我的《CAPL编程系统性课程》，你就结构体类型天然就能表示报文结构，用结构体表示报文虽然麻烦，但灵活度更高。我们今天试着用结构体类型表示DoIP车辆声明消息的DoIP报头，然后组装一条DoIP消息发送出去。 DoIP消息结构如下： DoIP车辆声明消息结构如下： /**…

等保测评练习卷22

等级保护初级测评师试题22 姓名： 成绩： 一、判断题（10110分） 1. 在应用系统测试中，如果审计是一个独立的功能，那么应用系统应对审计进程进行保…

python反序列化

🎼个人主页：金灰 😎作者简介:一名简单的大一学生;易编橙终身成长社群的嘉宾.✨ 专注网络空间安全服务,期待与您的交流分享~ 感谢您的点赞、关注、评论、收藏、是对我最大的认可和支持！❤️ 🍊易编橙终身成长社群&#…

Blackcat V2.2付费会员制WordPress资源站主题

Blackcat-付费会员制WordPress资源站主题，该主题是基于简约实用的主题选项框架 Codestar Framework 进行开发的功能强大的付费会员制主题，该主题尤其适合用于搭建付费下载资源网站，比如素材站、软件站、视频教程站等付费资源下载网站。集成…

unity2D游戏开发17战斗精灵

导入将PlayerFight32x32.png拖Player文件夹进去设置属性创建动画剪辑选中前四帧，右键Create|Animation，将动画命名为player-ire-east 其他几个动画也创建好后，将其拖到Animations|Animations文件夹选中PlayerController,再点击Animator 创建新的Blend Tree Graph,并重…

JAVA基础 - 图形页面

目录一. 简介二. Swing 技术基础三. 事件处理模型四. 适配器五. 布局管理六. 可视化工具一. 简介 Java 图形用户界面技术主要有： AWT 、 Applet 、 Swing和 JavaFX 。 AWT（Abstract Window Toolkit，抽象窗口工具包） …

全文最详细CPP/XCP标定协议讲解：命令传输对象CTO

全文最详细CPP/XCP标定协议讲解：命令传输对象CTO 1.概述 CTOs（命令传输对象）用于从主设备向从设备传输命令，以及从从设备向主设备传输响应。命令结构：从设备从主设备接收命令，并必须用肯定或否定的响应来做出反应，通信结构如下：请求报文每个命令都会被分配一个唯…

Multi-Head Mixture-of-Experts笔记

相关文章