Multi-Head self-Attention结构细节

news2024/10/5 19:11:05

先验知识:

Self-Attention结构细节及计算过程icon-default.png?t=N3I4https://blog.csdn.net/weixin_54039182/article/details/130515594?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22130515594%22%2C%22source%22%3A%22weixin_54039182%22%7D

一、结构

        Multi-Head Attention由N个self-Attention(Self-Attention结构细节及计算过程)组成,每个self-Attention接受的KQV都不同(过线性层),所以生成N个不同的Z矩阵,将N个Z矩阵拼接起来乘一个linear矩阵即得到最后的矩阵,最后的输出矩阵的形状与输入X矩阵一致。

二、Multi-head self-Attention输出

每个self-Attention接受的KQV都不同(过线性层),所以生成N个不同的Z矩阵:

 

将N个矩阵拼接起来乘一个矩阵就得到了输出结果,结果与原始输入x矩阵形状一致:

Reference:Transformer模型详解(图解最完整版) - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/494903.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分布式夺命12连问

分布式理论 1. 说说CAP原则? CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性)这3个基本…

Zotero 抓取知网文献失败解决办法梳理(针对问题:更新Translator无效,更新茉莉花插件无效,卸载Zotero无效,使用学校VPN访问知网)

Zotero 抓取知网文献失败解决办法梳理(针对问题:更新Translator无效,更新茉莉花插件无效,卸载Zotero无效,使用学校VPN访问知网) 问题背景解决方案一解决方案二解决方案三 说在前面:解决方案一和…

idea 远程debug阿里云服务器springboot项目

文章目录 前言意见和建议技术要点小试牛刀通信端口放行Idea增加remote启动项服务端JAR增加参数并启动本地项目启动远程debugpostman测试debug 前言 在实际的生产中不免会出现系统问题,有的在测试环境发现,有的在预发布环境发现,更有甚者在生…

播放卡顿分析

看下这个M3U8请求,时间间隔超过duration的时长。ts的duration是11S M3U8内容更新慢?

JavaScript:二叉树(前序遍历,中序遍历,后序遍历,递归法,统一迭代法)

文章目录 二叉树递归法迭代法 144. 二叉树的前序遍历 - 力扣(LeetCode)二叉树的递归遍历递归法作图分析代码和思路分析 二叉树的迭代遍历前序遍历迭代分析代码及思路分析 94. 二叉树的中序遍历递归法作图举例递归流程 迭代法代码 145. 二叉树的后序遍历 …

虹科分享|便携式数据包捕获解决方案的发展

有人说,未来就在眼前。如果我们看看过去十年中开发出的物联网技术,我们的确没发反驳他们。21世纪的技术繁荣改变了我们的生活,和彼此之间的交流方式。 比如说我们正在研究的MAREA项目,我们甚至可以说我们正在见证历史。 这是一个…

晚唐诗人杜荀鹤及其十首古诗赏析

一、关于出身的传说 他出身寒微。曾数次赴长安应考,不第还山。相传他是杜牧出妾之子。他诗语言通俗、风格清新,后人称“杜荀鹤体”。他就是晚唐诗人杜荀鹤。 据说,杜牧在会昌末年任池州刺史时,妾程氏有孕,为杜妻所逐&…

翻译|英译汉|汉译英|11:30-11:50+8:40-10:00

英译汉:逐句翻译、注意用词、确保大体通顺。 目录 一、解题技巧 (一)词语翻译 1. 词的选用 2. 词性转换 (1)英译汉中的词性转换 (2)汉译英中的词性转换 3. 增词法 4. 减词法 &#xff…

白嫖党的福音,这5款实用的黑科技软件,干货满满,真是相见恨晚

赶紧上车!一般人都不知道的5款超实用软件,个个都是黑科技工具!用了简直效率翻倍,不允许你不知道!!!先收藏,以备不时之需。 1.quicklook 作为windows最强的文件预览器,q…

IGBT基础知识

1. 什么是IGBT? IGBT,绝缘栅双极型晶体管,是由(BJT)双极型三极管和绝缘栅型场效应管(MOS)组成的复合全控型电压驱动式功率半导体器件, 兼有(MOSFET)金氧半场效晶体管的高…

【虚拟机数据恢复】Vmware ESXI虚拟机数据恢复案例

虚拟机数据恢复环境: ESXI上共有数十台虚拟机,EXSI连接一台HP EVA存储,所有虚拟机都存放在该EVA存储上。 其中一台虚拟机是数年前从物理机迁移过来的,其上部署了一个SQL SERVER数据库,该数据库存放了最近几年的数据。 …

【电子学会】2023年03月图形化四级 -- 判断亲和数

判断亲和数 对于正整数a和b(a>b),如果a除以b的余数为0,那么b是a的因数,例如6的因数为1,2,3,6。 亲和数,指两个正整数,彼此的全部因数之和(这里的因数不包括整数自己)与另一方相…

Qt_C++读写t5557卡复制HID卡源码

T5557卡是美国Atmel公司生产的多功能非接触式射频卡芯片,属于125KHz的低频卡,在国内有广大的应用市场。该芯片共有330bit(比特)的EPROM(分布为10个区块, 每个区块33bit)。0页的块0是被保留用于设置T5557操作模式的参数配置块。第0页第7块可以作用户数据块…

Qt5.9学习笔记-事件(三) 多线程和事件处理

⭐️我叫忆_恒心,一名喜欢书写博客的在读研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三…

OpenCV中的图像处理3.4-3.6(四)平滑化、形态学、图像梯度

目录 3.4 平滑化图像目标二维卷积 ( 图像滤波 )图像模糊(图像平滑)其他资源 3.5 形态学转换目标理论结构化元素 3.6 图像梯度目标理论代码一个重要的问题! 翻译及二次校对:cvtutorials.com 编辑者:廿瓶鲸(和鲸社区Siby团队成员) …

用 Bitmap 实现亿级海量数据统计

在移动应用的业务场景中,我们需要保存这样的信息:一个 key 关联了一个数据集合。 常见的场景如下: 给一个 userId ,判断用户登陆状态; 显示用户某个月的签到次数和首次签到时间; 两亿用户最近 7 天的签到…

【C++:模块3-------数组】

C:模块3-------数组 数组概念:数组特点:数组访问方法: 一维数组:1.1三种定义形式:(和C语言中一样)1.2一维数组数组名的作用:(1) 统计数组在内存中…

日常的性能测试工作

日常的性能测试工作 (1)在日常的测试工作时如何进行性能测试 日常的性能测试主要是从业务功能点中抽取具有并发特点的,高风险的、大数据量处理的业务,整理成测试用例,制定相应的指标,然后用工具或者手工进行性能测试并分析&#x…

MySQL HeatWave 被添加了机器学习,甲骨文认真了

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共…

基于javaweb的学生就业管理系统

一、简介 学生基业管理系统有三个角色:管理员、企业、学生 对学生信息管理、企业信息管理、求职信息管理 后端架构:spring springmvc mybatis 前端架构:jsp layui 系统环境:jdk1.8 | maven | mysql 二、主要功能 1. 登录…