大模型中的注意力机制——MHA、GQA、MQA

大模型中的注意力机制——MHA、GQA、MQA

news2026/2/10 6:29:55

注意力机制是Transformer模型的核心组件。考虑到注意力机制的计算效率问题，研究人员也进行了许多研究。代表的就是以下三种模式：

MHA（Multi-head Attention）是标准的多头注意力机制，包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA（Multi-Query Attention，Fast Transformer Decoding: One Write-Head is All You Need）是多查询注意力的一种变体，也是用于自回归解码的一种注意力机制。与MHA不同的，MQA 让所有的头之间共享同一份 Key 和 Value 矩阵，每个头只单独保留了一份 Query 参数，从而大大减少 Key 和 Value 矩阵的参数量。

GQA（Grouped-Query Attention，GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints）是分组查询注意力，GQA将查询头分成G组，每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组，因此具有单个Key 和 Value，等效于MQA。若GQA-H具有与头数相等的组，则其等效于MHA。

显然，GQA介于MHA和MQA之间。下图展示了他们的具体结构：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/815091.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

DM数据库Linux安装

DM数据库Linux安装

创建用户账号密码 groupadd dinstalluseradd -g dinstall -m -d /home/dmdba -s /bin/bash dmdbapasswd dmdba安装前必须创建 dmdba 用户，禁止使用 root 用户安装数据库。 dmdba ncayu123456修改文件打开最大数 vi /etc/security/limits.conf在最后添加四条语句dm…

阅读更多...

Siamese+Resnet进行相似度计算

Siamese+Resnet进行相似度计算

SiameseResnet进行相似度计算基本介绍效果肺部resnet34肺部Resnet50人脸自定义网络完整代码基本介绍使用SiameseNet进行肺部相似度计算，同样可以用于人脸识别等场景。特征提取网络结果为Resnet，可以为Resnet34、Resnet50等。数据组织结构如下图所…

阅读更多...

基于STM32设计的数码相册

基于STM32设计的数码相册

一、项目介绍项目是基于STM32设计的数码相册，能够通过LCD显示屏解码显示主流的图片，支持bmp、jpg、gif等格式。用户可以通过按键或者触摸屏来切换图片，同时还可以旋转显示，并能够自适应居中显示，小尺寸图片居中显示&…

阅读更多...

复习之kickstart无人职守安装脚本

复习之kickstart无人职守安装脚本

一、kickstart简介 kickstart是红帽发行版中的一种安装方式，它通过以配置文件的方式来记录linux系统安装的各项参数和想要安装的软件。只要配置正确，整个安装过程中无需人工交互参与，达到无人值守安装的目的。二、kickstar文件的生成进入/…

阅读更多...

销售易和管易云接口打通对接实战

销售易和管易云接口打通对接实战

销售易和管易云接口打通对接实战来源系统:销售易销售易CRM支持企业从营销、销售到服务的全流程自动化业务场景，创新性地利用AI、大数据、物联网等新型互联网技术打造双中台型CRM；既能帮助B2B企业连接外部经销商、服务商、产品以及最终用户，…

阅读更多...

提升稳定性与动态响应，深入探究PID串级多闭环控制的应用价值

提升稳定性与动态响应，深入探究PID串级多闭环控制的应用价值

引言： PID（比例-积分-微分）控制作为自动控制系统中常用的控制算法，可以通过对系统的反馈进行调整，实现目标状态的稳定控制。而PID串级多闭环控制是在基本PID控制的基础上，引入多个PID控制器，形成…

阅读更多...

某coin数据加密接口分析

某coin数据加密接口分析

新建项目，然后添加frida代码提示 frida 代码提示安装--vscode / node npm i types/frida-gum 任务 : sign 和 data，止于mobilekey是设备号，测试可以随机 sign 加密在 native 层动态调试配置: 把ida 的 dbsgv 文件下的 android_server 复…

阅读更多...

SFL218、SFL214、SFL216、SFL218B双喷嘴挡板两级电液伺服阀

SFL218、SFL214、SFL216、SFL218B双喷嘴挡板两级电液伺服阀

SFZ141直接驱动式伺服阀 SFL317电反馈三级伺服阀 SFL316电反馈三级伺服阀 SFL218A双喷嘴挡板两级电液伺服阀 SFL218双喷嘴挡板两级电液伺服阀 SFL214双喷嘴挡板两级电液伺服阀 SFL216双喷嘴挡板两级电液伺服阀 SFL218B双喷嘴挡板两级电液伺服阀 SFL212B双喷嘴挡板两级电…

阅读更多...

HTSA101伺服流量阀放大器

HTSA101伺服流量阀放大器

电液伺服阀放大器HTSA101特点： 可用拨码方式选择比例、积分(PI)控制前面板有电源、阀电流和继电器指示灯可开关选择阀电流的输出电流范围可选输出电流或者电压信号来匹配伺服阀或者比例阀采用标准 DIN rail 规格带有颤振信号、颤振信号的幅值和频率可调标准的DIN 导…

阅读更多...

Day05-作业（SpringBootWeb请求响应）

作业1：联网创建SpringBoot工程，完成如下需求测试接口数据，提取码：5555（将上述json文件,下载并导入postman）https://pan.baidu.com/s/1rwUfKTCgncB_xxarzOUpfA 需求： springboot的版本选择 2…

阅读更多...

ALLEGRO之View

ALLEGRO之View

本文主要介绍ALLEGRO中的View菜单。 （1）Zoom By Points：按照选型区域放大； （2）Zoom Fit：适合窗口放大； （3）Zoom In：放大； &#xf…

阅读更多...

Java---Shiro框架

Java---Shiro框架

第一章入门概述 1.1 什么是shiro Apache Shiro 是一个功能强大且易于使用的 Java 安全(权限)框架。Shiro 可以完成:认证、授权、加密、会话管理、与 Web 集成、缓存等。借助 Shiro 您可以快速轻地保护任何应用程序——从最小的移动应用程序到最大的 Web 和企业应用程序。 …

阅读更多...

释放三年版本：Aspose.Total For NET [21.7/22.7/23.7]

释放三年版本：Aspose.Total For NET [21.7/22.7/23.7]

请各位对号入座，选择自己需求范围，你懂的，你懂的，你懂的 Aspose.Total for .NET is the most complete package of all .NET File Format Automation APIs offered by Aspose. It empowers developers to create, edit, render, …

阅读更多...

日撸java_day54-55

日撸java_day54-55

文章目录第 54 、55 天: 基于 M-distance 的推荐代码运行截图第 54 、55 天: 基于 M-distance 的推荐 1.M-distance, 就是根据平均分来计算两个用户 (或项目) 之间的距离. 2.邻居不用 k 控制. 距离小于 radius (即 ϵ ) 的都是邻居. 使用 M-distance 时, 这种方式效果更好. …

阅读更多...

tinkerCAD案例：28. Build a Mobile Amplifier 构建移动放大器(3)

tinkerCAD案例：28. Build a Mobile Amplifier 构建移动放大器(3)

tinkerCAD案例：28. Build a Mobile Amplifier 构建移动放大器(3) 原文 step 1 “爵士乐”放大器 Lesson Overview: 课程概述： Now we’re going to decorate our design! 现在我们要装饰我们的设计！ step 2 In this step we will ref…

阅读更多...

纯CSS实现手风琴效果（常用样式）

纯CSS实现手风琴效果（常用样式）

【效果图】： 【html代码】： <div class"rowd"><ul class"fold_wrap"><li><a href"#"><div class"pic_auto pic_auto1 trans"></div><div class"adv_intro flex&…

阅读更多...

qt子进程和父进程读写数据通信

qt子进程和父进程读写数据通信

进程A（例如主程序）创建了一个QProcess B，这个B就称为A的子进程，而A称为B的父进程。这也称为进程间通信，有多种方式： TCP/IPLocal Server/Socket共享内存D-Bus （Unix库）QProcess会…

阅读更多...

Java版本企业电子招投标采购系统源码+功能模块功能描述+数字化采购管理采购招投标

Java版本企业电子招投标采购系统源码+功能模块功能描述+数字化采购管理采购招投标

功能模块： 待办消息，招标公告，中标公告，信息发布描述： 全过程数字化采购管理，打造从供应商管理到采购招投标、采购合同、采购执行的全过程数字化管理。通供应商门户具备内外协同的能力，为外部…

阅读更多...

Android复习（Android基础-四大组件）—— Activity

Android复习（Android基础-四大组件）—— Activity

Activity作为四大组件之首，是使用最为频繁的一种组件，中文直接翻译为"活动"，不过如果被翻译为"界面"会更好理解。正常情况，除了Window，Dialog和Toast ， 我们能见到的界面只有Activity。…

阅读更多...

【phaser微信抖音小游戏开发003】游戏状态state场景规划

【phaser微信抖音小游戏开发003】游戏状态state场景规划

经过目录优化后的执行结果： 经历过上001，002的规划，我们虽然实现了helloworld .但略显有些繁杂，我们将做以下的修改。修改后的目录和文件结构如图。 game.js//小游戏的重要文件，从这个开始。 main.js 游戏的初始化&a…

阅读更多...

推荐文章

最新文章