自然语言处理---Transformer机制详解之Multi head Attention详解

自然语言处理---Transformer机制详解之Multi head Attention详解

news2025/4/28 6:55:22

1 采用Multi-head Attention的原因

原始论文中提到进行Multi-head Attention的原因是将模型分为多个头, 可以形成多个子空间, 让模型去关注不同方面的信息, 最后再将各个方面的信息综合起来得到更好的效果.
多个头进行attention计算最后再综合起来, 类似于CNN中采用多个卷积核的作用, 不同的卷积核提取不同的特征, 关注不同的部分, 最后再进行融合.
直观上讲, 多头注意力有助于神经网络捕捉到更丰富的特征信息.

2 Multi-head Attention的计算方式

Multi-head Attention和单一head的Attention唯一的区别就在于, 其对特征张量的最后一个维度进行了分割, 一般是对词嵌入的embedding_dim=512进行切割成head=8, 这样每一个head的嵌入维度就是512/8=64, 后续的Attention计算公式完全一致, 只不过是在64这个维度上进行一系列的矩阵运算而已.
在head=8个头上分别进行注意力规则的运算后, 简单采用拼接concat的方式对结果张量进行融合就得到了Multi-head Attention的计算结果.
Multi-Head Attention是利用多个查询，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分，然后再进行拼接。

3 Multi-Head Attention的作用

多头注意力的机制进一步细化了注意力层，通过以下两种方式提高了注意力层的性能：
- 扩展了模型专注于不同位置的能力。当多头注意力模型和自注意力机制集合的时候，比如翻译“动物没有过马路，因为它太累了”这样的句子的时候，想知道“它”指的是哪个词，如果能分析出来代表动物，就很有用。
- 为注意力层提供了多个“表示子空间”。对于多头注意力，不仅有一个而且还有多组Query/Key/Value权重矩阵，这些权重矩阵集合中的每一个都是随机初始化的。然后，在训练之后，每组用于将输入Embedding投影到不同的表示子空间中。多个head学习到的Attention侧重点可能略有不同，这样给了模型更大的容量。

4 小结

Transformer架构采用Multi-head Attention的原因.
- 将模型划分为多个头, 分别进行Attention计算, 可以形成多个子空间, 让模型去关注不同方面的信息特征, 更好的提升模型的效果.
- 多头注意力有助于神经网络捕捉到更丰富的特征信息.
Multi-head Attention的计算方式.
- 对特征张量的最后一个维度进行了分割, 一般是对词嵌入的维度embedding_dim进行切割, 切割后的计算规则和单一head完全一致.
- 在不同的head上应用了注意力计算规则后, 得到的结果张量直接采用拼接concat的方式进行融合, 就得到了Multi-head Attention的结果张量.
Multi-Head Attention的作用
- 扩展了模型专注于不同位置的能力
- 为注意力层提供了多个“表示子空间”

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1122788.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

高效使用python之xlwt库编辑写入excel表内容

高效使用python之xlwt库编辑写入excel表内容

头条号：科雷软件测试学习目录了解下电脑中的excel表格文件格式安装xlwt库 xlwt库写入表格内容 1 导入xlwt库 2 用一个图展示下xlwt常用的函数 3 往表格写入一些内容并保存 4 设置样式 1 先初始化XFStyle 2 设置字体font 3 设置边框 4 设置对齐方式 …

阅读更多...

word/ppt/excel出现错误代码：0x426-0x0

word/ppt/excel出现错误代码：0x426-0x0

一、问题描述突然打开Microsoft的软件时出现了这种错误二、解决办法按住winr，win就是键盘上四个方块组成的键。然后输入“control” 找到程序和功能，然后点击找到Microsoft Office 家庭和学生版2021-zh-cn 注：你的版本版本可能不是这个…

阅读更多...

Java IO输入输出流第15章

Java IO输入输出流第15章

Java I/O输入/输出流第15章 1.输入/输出流 Java I/O（输入/输出）流是用于在Java程序中处理输入和输出数据的机制。这是与文件、网络连接、键盘、屏幕等各种数据源和数据目标进行交互的重要方式。Java的I/O库提供了一组类来处理各种I/O操作，…

阅读更多...

【计算机网络笔记】TCP/IP参考模型基本概念，包括五层参考模型

【计算机网络笔记】TCP/IP参考模型基本概念，包括五层参考模型

系列文章目录什么是计算机网络？ 什么是网络协议？ 计算机网络的结构数据交换之电路交换数据交换之报文交换和分组交换分组交换 vs 电路交换计算机网络性能（1）——速率、带宽、延迟计算机网络性能（2）…

阅读更多...

概率论_概率公式中的分号(；)、逗号(,)、竖线(|)

概率论_概率公式中的分号(；)、逗号(,)、竖线(|)

1. 概率公式中的分号(;)、逗号(,)、竖线(|) ; 分号代表前后是两类东西，以概率P(x;θ)为例，分号前面是x样本，分号后边是模型参数。 , 逗号代表两者地位平等，代表与的关系 | 竖线代表 if，以条件概率P(A|B)为例&#xff0…

阅读更多...

【数据结构】String类对象的创建与字符串常量池的“神秘交易”

【数据结构】String类对象的创建与字符串常量池的“神秘交易”

作者主页：paper jie_博客本文作者：大家好，我是paper jie，感谢你阅读本文，欢迎一建三连哦。本文录入于《JAVA数据结构》专栏，本专栏是针对于大学生，编程小白精心打造的。笔者用重金(时间和精力…

阅读更多...

【码制】原码反码补码移码浮点数

【码制】原码反码补码移码浮点数

从C语言占位符到码值学C语言的时候一定会用到printf("%d",a); 有的课程称%d为“占位符”，非常形象：%d替a占位，输出的时候a的值会替换%d的内容。但也有课程称之为“转换规范”，官方称之为“format specifiers”格式说…

阅读更多...

Git最佳实践：git常用命令和原理

Git最佳实践：git常用命令和原理

Git 是一个开源的分布式版本控制系统。 Git 工作区、暂存区和版本库工作区：就是你在电脑里能看到的目录。暂存区：英文叫 stage 或 index。一般存放在 .git 目录下的 index 文件（.git/index）中，所以我们把暂存区有时…

阅读更多...

7.20 SpringBoot项目实战【图书详情-学生端】：图书信息 + 评论列表 + 是否收藏

7.20 SpringBoot项目实战【图书详情-学生端】：图书信息 + 评论列表 + 是否收藏

文章目录前言一、接口规划二、编写服务层三、编写数据访问层四、编写控制器五、PostMan测试1. getBook 根据id获取图书2. getBookCommentList 根据id获取图书详情 - 评论列表3. getFavoriteId 获取学生收藏了某图书的收藏id 最后前言学生的【借阅申请】审核通过以后&#x…

阅读更多...

nodejs+vue市民健身中心网上平台-计算机毕业设计

nodejs+vue市民健身中心网上平台-计算机毕业设计

市民健身中心网上平台分为用户界面和管理员界面，用户界面功能模块图如图1所示，管理员界面功能模块图如图2所示。目录摘要 I ABSTRACT II 目录 II 第1章绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章相关技术 3 2.1 nodejs…

阅读更多...

springboot+avue医院绩效考核系统源码

springboot+avue医院绩效考核系统源码

医院绩效考核系统是一种以人力资源管理为基础，选用适合医院组织机构属性的绩效理论和方法，基于医院战略目标，构建全方位的绩效考评体系，在科学、合理的绩效管理体系基础上，采用科学管理的方法，如平衡计分卡…

阅读更多...

C++前缀和算法：生成数组原理、源码及测试用例

C++前缀和算法：生成数组原理、源码及测试用例

本文涉及的基础知识点 C算法：前缀和、前缀乘积、前缀异或的原理、源码及测试用例包括课程视频动态规划，日后完成。题目给定三个整数 n、m 和 k 。考虑使用下图描述的算法找出正整数数组中最大的元素。请你构建一个具有以下属性的数组 arr &#…

阅读更多...

Amazon CodeWhisperer让力扣不再用力code!

Amazon CodeWhisperer让力扣不再用力code!

书接上文《爱编程 why not AI编程》，通过前文的对于Amazon CodeWhisperer的介绍、入门指南、相关课程以及【云上探索实验室】活动，各位读者们应该对于Amazon CodeWhisperer有了一些了解，那么作者今天将该通过本篇文章来介绍用Amazon CodeWhis…

阅读更多...

OpenCV官方教程中文版 —— Canny 边缘检测

OpenCV官方教程中文版 —— Canny 边缘检测

OpenCV官方教程中文版 —— Canny 边缘检测前言一、原理1.噪声去除2.计算图像梯度3.非极大值抑制4.滞后阈值二、OpenCV 中的 Canny 边界检测练习前言 OpenCV 中的 Canny 边缘检测 • 了解 Canny 边缘检测的概念 • 学习函数 cv2.Canny() 一、原理 Canny 边缘检测是一种…

阅读更多...

FreeRTOS深入教程（任务的引入及栈的作用）

FreeRTOS深入教程（任务的引入及栈的作用）

文章目录前言一、任务的引入二、深入理解C语言函数的调用1.ARM架构2.基础汇编指令3.函数运行流程分析三.保存现场的几种情况1.函数调用2.中断处理3.任务切换总结前言本篇文章开始带大家深入学习FreeRTOS，带大家学习什么是任务，并且深入学习栈的作用…

阅读更多...

Openssl数据安全传输平台008：业务数据分析+工厂方法

Openssl数据安全传输平台008：业务数据分析+工厂方法

文章目录 UML图1.1 客户端1.2 服务器端 UML图 1.1 客户端 // 准备要发送的数据 struct RequestMsg {//1 密钥协商 //2 密钥校验; // 3 密钥注销int cmdType; // 报文类型string clientId; // 客户端编号string serverId; // 服务器端编号string sign;string data; };1.2 服务器…

阅读更多...

USB学习(1)：USB基础之接口类型、协议标准、引脚分布、架构、时序和数据格式

USB学习(1)：USB基础之接口类型、协议标准、引脚分布、架构、时序和数据格式

连接计算机外围设备最简单的方法是通过USB(通用串行总线)。USB是即插即用接口，可以将扫描仪、打印机、数码相机、闪存驱动器等计算机外围设备连接到计算机上。本篇文章就来介绍一下USB的一些基础知识，包括。文章目录 1 接口类型和标准规范2 引脚分布3 …

阅读更多...

前端Vue——安装和遇到的问题记录

前端Vue——安装和遇到的问题记录

文章目录安装Node.js安装Vue需要的脚手架Vue Cli在PyCharm中开发Vue项目安装Node.js 下载地址：https://nodejs.cn/download/ 下载.Msi即可，然后安装，一直next WinR，cmd，node -v可以查看node的版本，v18.1…

阅读更多...

Deno 命令行界面

Deno 命令行界面

目录 1、命令行界面 2、脚本源 3、脚本参数 4、监听模式 5、完整性标记（lock files） 6、缓存和编译标记 7、运行时标记 7.1 类型检查标记 7.2 权限标记 7.2.1 权限 7.2.2 放心地运行不受信任的代码 7.2.3 权限列表 7.2.4 可配置权限文件…

阅读更多...

Vm虚拟机安装Linux（ubuntu18.04）系统教程（2023最新最详细）

Vm虚拟机安装Linux（ubuntu18.04）系统教程（2023最新最详细）

软件：Linux版本：18.0.4语言：简体中文大小：1.82G安装环境：VMware硬件要求：CPU2.0GHz 内存4G(或更高） 下载通道①丨百度网盘： 1.Vm虚拟机15.5下载链接： https://pan.baidu.…

阅读更多...

推荐文章

最新文章