深度学习：Self-Attention与Multi-heads Attention详解

news2025/4/10 10:27:06

深度学习：Self-Attention与Multi-heads Attention详解

Introduction
Self - Attention
Multi-Head Attention
Position- Encoding

Introduction

Transformer 最初是由 Ashish Vaswani等人提出的一种用以完成机器翻译的 Seq2Seq 学习任务的全新网络结构，它完全基于注意力机制来实现从序列到序列的建模。相比于以往 NLP 模型中使用 RNN 或者编码-解码结构，其具有计算复杂度小、并行度高、容易学习长程依赖等优势。Transformer 网络结构如图：
在这里插入图片描述

Self - Attention

我们在刚接触的Transformer的时候，首先遇到的难题是Self-attention这个模块：

在这里插入图片描述

从左下角看起，假设一个序列数据有x1、x2, 每个x是一个高维向量。然后通过fx，把 x Embedding成低维向量a1，a2，让后对a1，a2分别通过全连接层（对应的权重矩阵w）得到对应的q（query），k（key），v（value）。

首先简单的解释一下q k v的含义：
这就要看一下self attention的整体架构如下图：

在这里插入图片描述

其中A为1个序列数据，a为序列数据的4个元素，每个a都是一个向量。a为input，b为output
，其中b1为a1考虑了整个序列数据的结果，也就是说a1会与a1，a2，a3，a4 计算一个attention score（也可以叫做相关性）。

那么如何计算这个attention score呢？
假设a1要与其它的元素（包括a1本身）计算相关性，那么q就是a1，k就是被计算相关性的元素。
计算方法有很多种，我们主要列举两种：
在这里插入图片描述

分为dot product 和与 additive ，前者就是计算出q k后，做点乘（对应元素相乘在相加），然后得到q对所有k的相关性，然后经过softmax处理得到attention score，在大部分情况下我们都采用这种方法，后者则是做加法然后经过tanh激活得到。

我们得到一组attention score就表示q 与各个k的相似性，分数越高，相关性越大，就会dominate 对应的输出结果b。之后把attention score与value相乘，然后把所有结果相加得到结果b。

举例来说把序列A：={a1,a2}输入self attention模块，得到 b1，b2，其中b1表示a1考虑了整体输入的结果，也就是说在计算资源足够的情况下，这个架构不会因为序列过长而遗忘起始元素。

我们在看一下论文中的公式
在这里插入图片描述
这里只差根号dk没有解释过了，dk表示序列的长度，它的作用是为了防止数值过大，维持数值稳定性。

Multi-Head Attention

多头注意力与单头其实很相似，假设head为2，结构如下图：
在这里插入图片描述

假设q1 为（1，1，0，1），那么把均分为head个，把它们分配给每个head，

（实际是不同的head的所对应的q权重矩阵不同在这里插入图片描述）

得到 q11，q 12，其中第一个下标代表序列元素的索引，第二个下标代表head。 k v重复刚才的操作，
然后把head数相同的放在一起计算：

在这里插入图片描述

然后对结果执行concat操作。

在这里插入图片描述

最后在乘上矩阵W_o融合不同维度特征，它的作用类似于1 * 1卷积。

Position- Encoding

方法为直接在input上 add 位置编码。

分为两种方法：

公式编码

在这里插入图片描述
2. 可训练的位置编码

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/190146.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

nginx学习笔记9（小滴课堂）

nginx学习笔记9（小滴课堂）

业界主流高可用方案Linux虚拟服务器 LVS讲解这部分因为需要多台虚拟机，所以我先不实操。 Keepalived核心配置讲解 echo "" > keepalived.conf是清空文件中的内容。从机的优先级可以写的比master的优先级低一些。准备NginxLvsKeepAlive相关软件环境 …

阅读更多...

什么是最大子数组问题？

什么是最大子数组问题？

本文首发自「慕课网」，想了解更多IT干货内容，程序员圈内热闻，欢迎关注！ 作者| 慕课网精英讲师 JdreamZhang 最大子数组（Max Subarray）问题，是计算机科学与技术领域中一种常见的算法问题&#…

阅读更多...

CVE-2022-26135 Atlassian Jira Mobile Plugin SSRF漏洞分析

CVE-2022-26135 Atlassian Jira Mobile Plugin SSRF漏洞分析

漏洞描述 6月29日，Atlassian官方发布安全公告，在Atlassian Jira 多款产品中存在服务端请求伪造漏洞(SSRF)，经过身份验证的远程攻击者可通过向Jira Core REST API发送特制请求，从而伪造服务端发起请求，从而导致敏感信息…

阅读更多...

【青训营】规则引擎概述和入门

【青训营】规则引擎概述和入门

本文内容总结自字节跳动青年训练营第五届后端组一、规则引擎是什么规则引擎是一种嵌入在应用程序中的组件，实现了将业务决策从应用程序代码中分离出来，并且使用预定义语义模块编写业务决策。接受数据输入，解释业务规则，并且…

阅读更多...

Python接口测试实战5（上） - Git及Jenkins持续集成

Python接口测试实战5（上） - Git及Jenkins持续集成

本节内容接上节内容：在框架搭建好的基础上注册Github并新建仓库使用Git上传项目Jenkins的安装Jenkins接口测试项目的配置注册Github并新建仓库Git简介Git(读音为/gɪt/。)是一个开源的分布式版本控制系统版本控制： 对项目及代码记录每次提交和修改&#…

阅读更多...

【Docker】（六）使用network完成容器间的网络通信

【Docker】（六）使用network完成容器间的网络通信

1.前言本系列文章记录了从0开始学习Docker的过程，Docker系列历史文章： （一）基本概念与安装使用 （二）如何使用Docker发布一个SpringBoot服务 （三）使用registry远程镜像仓库管理镜像…

阅读更多...

12、特征值与特征向量

12、特征值与特征向量

目录一、特征值和特征向量的定义二、特征值和特征向量的相关函数三、特征值和特征向量的计算一、特征值和特征向量的定义假设A是一个nn的矩阵，A的特征值问题就是找到下面方程组的解： 其中，λ为标量，V为矢量，若…

阅读更多...

【堆的认识及其优先级队列】java代码实现，保姆级教程学习堆和优先级队列

【堆的认识及其优先级队列】java代码实现，保姆级教程学习堆和优先级队列

前言： 大家好，我是良辰丫💞💞⛽，我们又见面了，前面我们讲了用链表实现的二叉树，今天我们来接触堆的概念，堆是一种特殊的二叉树，只不过咱们的对底层原理是数组&#xff0c…

阅读更多...

大数据监控平台-Prometheus监控Hadoop

大数据监控平台-Prometheus监控Hadoop

简介本篇主要是使用jmx配合Prometheus监控大数据平台前提链接：https://pan.baidu.com/s/1c6nsjOKw4-a_Wqr82l0QhQ 提取码：yyds --来自百度网盘超级会员V5的分享先安装好Prometheus Flink(Pometheus监控)_顶尖高手养成计划的博客-CSDN博客_${en…

阅读更多...

金融实践 | 信创存储打造安全可控的金融数据底座

金融实践 | 信创存储打造安全可控的金融数据底座

本文刊登于《金融电子化》杂志 2023 年 1 月上，作者为中国出口信用保险公司信息科技部张倩，曲文非，庞松松，康达。 2022 年初，中国人民银行《金融科技发展规划（2022—2025 年）》和银保监会《关于…

阅读更多...

JAVA语言实验实验（二）

JAVA语言实验实验（二）

JAVA语言实验 :实验 （ 一 ） JAVA语言实验 :实验 （ 二 ） JAVA语言实验 :实验 （ 三 ） 一、实验目的 （1）熟悉 Java 图形界面的基本设计。 （2）熟悉 Java 界面的菜…

阅读更多...

【LeetCode每日一题】【2023/1/31】2319. 判断矩阵是否是一个 X 矩阵

【LeetCode每日一题】【2023/1/31】2319. 判断矩阵是否是一个 X 矩阵

文章目录2319. 判断矩阵是否是一个 X 矩阵方法1：直接遍历2319. 判断矩阵是否是一个 X 矩阵 LeetCode: 2319. 判断矩阵是否是一个 X 矩阵简单\color{#00AF9B}{简单}简单如果一个正方形矩阵满足下述全部条件，则称之为一个 X 矩阵 ： 矩阵对…

阅读更多...

spring boot文档阅读笔记——02

spring boot文档阅读笔记——02

spring boot文档阅读笔记——01 目录标题一、日志（一）slf4j logback（spring boot默认方式）1. 获取日志对象方式：2. 设置日志级别：3. 设置日志格式：4. 输出到日志文件：5. 日志文件设置…

阅读更多...

关于python的mediapipe库踩过的坑

关于python的mediapipe库踩过的坑

大家好，我是csdn的博主：lqj_本人这是我的个人博客主页：lqj_本人的博客_CSDN博客-微信小程序,前端,vue领域博主lqj_本人擅长微信小程序,前端,vue,等方面的知识https://blog.csdn.net/lbcyllqj?spm1000.2115.3001.5343 哔哩哔哩欢迎关注&…

阅读更多...

Nginx 常用配置汇总！

Nginx 常用配置汇总！

众所周知，Nginx 是 Apache服务不错的替代品。其特点是占有内存少，并发能力强，事实上 Nginx 的并发能力在同类型的网页服务器中表现较好，因此国内知名大厂例如：淘宝，京东，百度，新浪&a…

阅读更多...

1.10 golang 切片Slice

1.10 golang 切片Slice

1. 切片Slice 需要说明，slice 并不是数组或数组指针。它通过内部指针和相关属性引用数组片段，以实现变长方案。 1. 切片：切片是数组的一个引用，因此切片是引用类型。但自身是结构体，值拷贝传递。2. 切片的长度可以改变…

阅读更多...

零基础机器学习做游戏辅助第六课--猫狗数据集认识卷积神经网络（二）

零基础机器学习做游戏辅助第六课--猫狗数据集认识卷积神经网络（二）

一、初识卷积上一课我们已经将图像数据进行了预处理，这节课的重点就是学习卷积神经网络，到底什么是卷积，我们看图 input是我们输入的图像，Kernel是我们设置的3x3卷积核，卷积层将图像和卷积核进行计算提取特征输出神经元。

阅读更多...

代码随想录算法训练营第35天回溯算法 java :455.分发饼干 376. 摆动序列53. 最大子序和

代码随想录算法训练营第35天回溯算法 java :455.分发饼干 376. 摆动序列53. 最大子序和

文章目录贪心算法思路LeetCode 455.分发饼干题目详解LeetCode 376. 摆动序列题目详解思路示图LeetCode 53. 最大子序和题目详解思路示图总结贪心算法思路以局部最优带动全局最优 LeetCode 455.分发饼干题目详解我做的是采用优先满足胃口的思路。对每个孩子 i&#xff…

阅读更多...

【c#系列】PDF进行操作-浏览、分割、合并、插入、删除（2）

【c#系列】PDF进行操作-浏览、分割、合并、插入、删除（2）

这节我们主要实现缩小、旋转、打印、分割、合并、放大等功能 1、放大功能单击放大按钮，实现PDF放大预览，效果如下： 设计代码： System.Windows.Forms.ToolStripButton FangDaBT_Tool;FangDaBT_Tool new System.Windows.Form…

阅读更多...

GBase GCDW云数仓阿里云版免费试用来了！

GBase GCDW云数仓阿里云版免费试用来了！

GBase GCDW云原生数据仓库（GCDW）在阿里云计算巢上提供免费试用了！简单 3 步，即可获得一个免费试用的GCDW服务实例，您可以定制该服务实例的云主机规格和数据库计算服务节点数等实例参数，该免费试用支持的数据…

阅读更多...

推荐文章

最新文章