multi-head_seft-attention（多头自注意力）

news2025/4/18 16:00:52

对比

相比于single-head，multi-head就是将 $q^i$ 分成了 $h$ 份
在这里插入图片描述

multi-head_seft-attention的计算过程

将 $q^i$ 分成了 $h$ 份
计算过程

对于每个Head，我们可以提取出他的 $b_{11}$ 到 $b_{m1}$ ，以 $Head_1$ 举例

将输入序列进行embedding后，变为向量 $a_1$ , $a_2$ , $a_3$ , $a_4$
分别乘 $W_1$ , $W_2$ , $W_3$ 后，提取 $q^1$ 、 $k^1$ 、 $v^1$ ，将 $q^1$ 分成了 $h$ 份，其他两个也一样
$q^{11}$ query分别和自己的 $k^{11}$ 以及其他token的key相乘，得到m个相似度分数，再经过softmax处理，得到新的m个分数。
将处理后的权重得分分别于 $v^{11}$ 、… 、 $v^{m1}$ 相乘，结果再相加，得到 $b_{11}$ ，其他以此类推，直到 $b_{m1}$

在这里插入图片描述

在这之后，我们将对应位置的 $b$ ，concat起来

先按列concat，再按行concat
- 所有head中的第一个 $b_{11}$ 、 $b_{12}$ 等，我们把它concat起来，组成一个大 $b_1$
- 对于第m个位置，我们将所有head中的 $b_{mi}$ concat起来，组成一个大 $b_m$
$W^o$ 代表进行全连接，得到一个最终的结果[ $b_1$ 、… 、 $b_m$ ]

m就是token的个数
d_model就是每个token的维度

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/858528.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Spring 事务管理

Spring 事务管理

目录 1. 事务管理 1.1. Spring框架的事务支持模型的优势 1.1.1. 全局事务 1.1.2. 本地事务 1.1.3. Spring框架的一致化编程模型 1.2. 了解Spring框架的事务抽象（Transaction Abstraction） 1.2.1. Hibernate 事务设置 1.3. 用事务同步资源 1.3.1…

阅读更多...

第十四届中国大学生服务外包大赛圆满落幕，合合信息助力人才发展消除市场“信息差”

第十四届中国大学生服务外包大赛圆满落幕，合合信息助力人才发展消除市场“信息差”

老年人存在记账难题，如何通过技术手段处理？已经上线多年的软件产品，如何优化才能更符合现代人群的“胃口”？这些微小却关键的问题颇具社会价值，青年学子们的参与或许能够打开新的产品构建维度。近日，“中…

阅读更多...

Golang struct 结构体指针类型 / 结构体值类型

Golang struct 结构体指针类型 / 结构体值类型

struct类型的内存分配机制结构体变量之间的赋值是值拷贝。 type stu struct {Name stringSlice []stringMap1 map[string]string }func main() {s : stu{}s.Slice make([]string, 6)s.Slice[1] "ssss"s.Slice[2] "xxxx"s.Map1 make(map[string]stri…

阅读更多...

必备 | SQL语句的封装操作大全

必备 | SQL语句的封装操作大全

在封装SQL语句之前，我们得知道什么是DAO封装与实体类以及JDBC工具类的封装与连接数据库的具体流程。封装SQL语句的好处： 封装SQL语句后就可以导包，给其他的工程使用，大大降低开发的强度，减少代码的冗余。如何导包给…

阅读更多...

MFC第二十九天 CView类的分支（以及其派生类的功能）、MFC六大关键技术

MFC第二十九天 CView类的分支（以及其派生类的功能）、MFC六大关键技术

文章目录 CView类的分支CEditViewCHtmlViewMainFrm.h CMainFrame 类的接口CMainView .h CListCtrl与CListView的创建原理 CTreeViewCTreeCtrl类简介CTreeCtrl类的原理以及常用功能 MFC六大关键技术视图和带分割栏的框架开发与消息路由CLeftView.cppCRightView.hCRightView.cppC…

阅读更多...

Linux入门级命令

Linux入门级命令

目录 1、开启终端 2、Linux命令格式 3、扩展：Linux下的命令补全 4、切换用户 5、uname命令 6、ls命令 ☆ 用法一 ☆ 用法二 ☆ 用法三 7、pwd命令 8、cd命令 9、clear命令 10、reboot命令 11、shutdown命令 12、type命令 13、history命令 14、host…

阅读更多...

【学习】若依源码（前后端分离版）之 “ 分页以及查询的功能实现”

【学习】若依源码（前后端分离版）之 “ 分页以及查询的功能实现”

大型纪录片：学习若依源码（前后端分离版）之 “ 分页以及查询的功能实现” 前端部分后端部分结语包括代码生成也好，最原始的系统也好，若依里每个页面只要有数据，基本上就有分页的功能，所以理解分…

阅读更多...

背上大书包准备run之CSS篇

背上大书包准备run之CSS篇

时隔一年多又要准备面试嘞。唉，人生呐，真是变幻莫测哟~ 社招应该不会问很多css吧，，，但是应该也会问吧，，，应该是从好多好多问题里只抽一两个问问吧😭 哦还有h5&#xff…

阅读更多...

zabbix简易入门：基本的网络监控、WEB监控、拓朴图规划

zabbix简易入门：基本的网络监控、WEB监控、拓朴图规划

需求背景： 我们越来越发现：网络越来越复杂，网络、应用、云端……故障点随时可能发生，而我们不能人工盯着所有的问题，所以，网管软件是必须的。那么没有预算的情况下，我们只好自己布署简单的…

阅读更多...

24届近5年浙江工业大学自动化考研院校分析

24届近5年浙江工业大学自动化考研院校分析

今天给大家带来的是浙江工业大学控制考研分析满满干货～还不快快点赞收藏一、浙江工业大学学校简介浙江工业大学（Zhejiang University of Technology），简称浙工大，主校区位于浙江省杭州市，是教育部与…

阅读更多...

Stream API总结

Stream API总结

Stream是Java 8提供的新特性，使得可以方便的对集合进行各种操作，本篇主要讲解StreamAPI常用方法。 Java8中有两大最为重要的改变。第一个是 Lambda 表达式； 另外一个则是 Stream API(java.util.stream.*)。 Stream 是 Java8 中处理集合的关…

阅读更多...

Java反射机制详解与使用方法大全！！！

Java反射机制详解与使用方法大全！！！

❤ 作者主页：李奕赫揍小邰的博客 ❀ 个人介绍：大家好，我是李奕赫！(￣▽￣)~* 🍊 记得点赞、收藏、评论⭐️⭐️⭐️ 📣 认真学习!!!🎉🎉 文章目录 Java反射机制…

阅读更多...

Node.js学习笔记-03

Node.js学习笔记-03

七、网络编程 1. 构建 TCP 服务 TCP 是面向连接的协议，显著特征在传输之前需要3次握手形成会话。客户端 ——请求连接——> 服务器端 ——响应——> 客户端 ——开始传输——> 服务器端。 2. 构建 UDP 服务 3. 构建 HTTP 服务 http模块在node中HTT…

阅读更多...

电脑数据怎么加密？电脑数据加密软件有哪些？

电脑数据怎么加密？电脑数据加密软件有哪些？

在生活和工作中，我们总离不开电脑，而电脑中那些重要的数据，需要我们加密保护。那么电脑数据该怎么加密呢？电脑数据加密软件又有哪些呢？下面我们就来了解一下吧。电脑数据加密软件一般来说，常见的电脑加密…

阅读更多...

Drools用户手册翻译——第四章 Drools规则引擎（十四）复杂事件处理（CEP）滑动窗口和内存管理

Drools用户手册翻译——第四章 Drools规则引擎（十四）复杂事件处理（CEP）滑动窗口和内存管理

甩锅声明：本人英语一般，翻译只是为了做个笔记，所以有翻译错误的地方，错就错了，如果你想给我纠正，就给我留言，我会改过来，如果懒得理我，就直接划过即可。目录时间或长…

阅读更多...

详解配置交换机多生成树MSTP+VRRP 的典型组网

详解配置交换机多生成树MSTP+VRRP 的典型组网

详解配置交换机多生成树MSTPVRRP 的典型组网组网： 1. 这是一个由三台交换机组成的倒三角型二层交换网络；网络中有4个VLAN：10、20、30、40；接口编号如图所示；SW3为接入层交换机，SW1、SW2为汇聚层交换机&am…

阅读更多...

论文阅读 - Neutral bots probe political bias on social media

论文阅读 - Neutral bots probe political bias on social media

论文链接：Neutral bots probe political bias on social media | EndNote Click 试图遏制滥用行为和错误信息的社交媒体平台被指责存在政治偏见。我们部署中立的社交机器人，它们开始关注 Twitter 上的不同新闻源，并跟踪它们以探究平台机制与用…

阅读更多...

linux自动程序

linux自动程序

嵌入式linux下有软件需要自启动，只需要在/etc/init.d/rcS末尾添加所要启动的程序即可，开机就会自动运行 vi /etc/init.d/rcS在文件末尾添加例：

阅读更多...

Unity-Linux部署WebGL项目MIME类型添加

Unity-Linux部署WebGL项目MIME类型添加

在以往的文章中有提到过使用IIS部署WebGL添加MIME类型使WebGL项目在浏览器中能够正常加载，那么如果咱们做的是商业项目，往往是需要部署在学校或者云服务器上面的，大部分情况下如果项目有接口或者后台管理系统，后台基本都会使用Lin…

阅读更多...

对p-n结/AlGaN/GaN HEMTs中n-GaN掺杂浓度对栅极可靠性的影响

对p-n结/AlGaN/GaN HEMTs中n-GaN掺杂浓度对栅极可靠性的影响

目录第35届功率半导体器件与集成电路国际研讨会论文集2023年5月28日至6月1日，中国香港南方科技大学电气电子工程系，深圳标题：Impacts of n-GaN Doping Concentration on Gate Reliability of p-n Junction/AlGaN/GaN HEMTs摘要信息解释研究了…

阅读更多...

推荐文章

最新文章