真的有被Transformer多头注意力惊艳到…

news2024/12/25 18:42:43

在这篇文章中,我们将深入探讨 Transformer 的核心部分-多头注意力(Multi-head Attention)。

这个机制能让 Transformer 同时从多个角度理解数据,提高处理信息的能力和效率。

01、Transformer 中如何使用注意力机制

Transformer 在三个关键部分运用了注意力机制:

  • 编码器的自注意力: 输入序列对自己进行聚焦。

  • 解码器的自注意力: 目标序列对自己进行聚焦。

  • 解码器的编码器 - 解码器注意力: 目标序列关注输入序列。

注意力机制的输入参数 —— 查询(Query),键(Key)和值(Value)

注意力层通过三个参数接收输入:查询(Query),键(Key)和值(Value)。这三个参数结构类似,序列中的每个词条都通过一个向量来表示。

(1)编码器自注意力

输入序列首先经过输入嵌入(Input Embedding)和位置编码(Position Encoding)处理,为序列中的每个词条生成了包含意义和位置信息的编码表示。

这些表示分别作为查询(Query),键(Key)和值(Value)的输入,送入第一个编码器中的自注意力模块。

自注意力模块基于这些输入,为输入序列中的每个词条生成一个新的编码表示,其中融合了相应的注意力得分。

随着序列通过编码器堆栈,每个编码器中的自注意力模块都会对词条表示进一步加入自己的注意力得分。

(2)解码器自注意力

在解码器部分,目标序列通过输出嵌入(Output Embedding)和位置编码(Position Encoding)处理后,为每个词生成了既包含意义又包含位置信息的编码表示。

这些表示作为查询(Query),键(Key),和值(Value)的输入,送入第一个解码器的自注意力模块中。

此模块针对目标序列中的每个词产生一个新的编码表示,其中也融入了相应的注意力得分。

通过层标准化(Layer Norm)处理后,这些表示被用作第一个解码器中的编码器 - 解码器注意力的查询(Query)参数。

(3)编码器 - 解码器注意力

同时,堆栈中最后一个编码器的输出被送入编码器 - 解码器注意力的值(Value)和键(Key)参数中。

因此,编码器 - 解码器注意力同时获得了来自解码器自注意力的目标序列表示和来自编码器堆栈的输入序列表示。

它进而产生了一种新的表示,这种表示不仅包含了目标序列每个词的注意力得分,也融合了来自输入序列的注意力得分。

随着序列通过解码器堆栈,每个自注意力和编码器 - 解码器注意力模块也会为每个词的表示增加自己的注意力得分。

02、多头注意力

在 Transformer 中,注意力模块会并行地重复进行多次计算,每一次计算都被称为一个 “注意力头”。

注意力模块将查询(Query),键(Key)和值(Value)参数分成 N 个部分,每部分独立通过一个注意力头进行处理。所有这些相似的注意力计算后来被合并,形成最终的注意力得分。

这种多头注意力机制赋予了 Transformer 强大的能力,能够对每个词条编码多种关系和细微的差别。

为了深入了解数据在 Transformer 内部是如何处理的,我们不妨具体看一看在训练 Transformer 进行翻译时,注意力模块是如何工作的。

以我们的训练数据中的一个样本为例,这个样本包括一个输入序列(英文的 “You are welcome”)和一个目标序列(西班牙语的 “De nada”)。

03、注意力机制的关键超参数

影响数据维度的有三个主要的超参数:

  • 嵌入尺寸(Embedding Size): 这是嵌入向量的宽度,在我们的示例中为 6。这个维度在整个 Transformer 模型中保持一致,有时也被称为 “模型尺寸”。

  • 查询尺寸(Query Size,与键(Key)和值(Value)的尺寸相同): 这是用于生成查询、键和值矩阵的三个线性层的权重尺寸,在我们的示例中为 3。

  • 注意力头的数量: 在我们的示例中,我们使用了 2 个注意力头。

除此之外,还有一个批量大小(Batch size)参数,它表示样本的数量。

04、输入层

输入嵌入(Input Embedding)和位置编码(Position Encoding)层会生成一个形状为(样本数量,序列长度,嵌入尺寸)的矩阵。

这个矩阵随后被送入堆栈中第一个编码器的查询(Query),键(Key)和值(Value)。

为了简化展示,我们在图示中将忽略批量尺寸,专注于其它维度。

05、线性层

对于查询(Query),键(Key)和值(Value),有三个独立的线性层,每个层都有自己的权重。

输入数据通过这些线性层,生成 Q(查询),K(键)和 V(值)矩阵。

06、将数据分配到各个注意力头

现在,数据被分配到多个注意力头中,使每个头可以独立处理数据。

但需要理解的关键点是,这种分配只是在逻辑上进行的。查询、键和值并不会物理上分割成为每个注意力头一个的独立矩阵。

对于查询、键和值,分别使用单一的数据矩阵,其中每个注意力头逻辑上分配有矩阵的不同部分。

同样,也不存在为每个注意力头单独设置的线性层。所有的注意力头共享相同的线性层,但只操作于数据矩阵的 “各自” 的逻辑部分。

(1)按注意力头逻辑划分线性层的权重

通过在注意力头之间均匀分配输入数据和线性层权重,可以完成这种逻辑分割。

我们可以通过选择适当的查询尺寸来实现这一点:查询尺寸 = 嵌入尺寸 / 注意力头的数量。

在我们的例子里,这就是为什么查询尺寸是 6 除以 2,即 3 的原因。尽管层的权重(和输入数据)是一个整体的矩阵,但我们可以想象它是每个注意力头的独立层权重 “组合在一起”。

因此,所有注意力头的计算可以通过一个矩阵运算来完成,而无需多个独立的运算。

这不仅使计算更高效,还保持了模型的简洁性,因为它减少了需要的线性层的数量,同时依然实现了独立注意力头的强大功能。

(2)重塑 Q、K 和 V 矩阵

线性层输出的 Q、K 和 V 矩阵被重新整形,以包括一个明确的注意力头维度。现在,每一块 “切片” 都对应着每个头的一个矩阵。

接着,这个矩阵通过交换头维度和序列维度再次进行重塑。虽然在图示中没有表示批量维度,但 Q 的维度现在变成了(Batch、Head、Sequence、Query size)即(批量、头、序列、查询尺寸)。

在下面的图示中,我们可以看到我们示例中的 Q 矩阵在经过线性层处理后分割的整个过程。

最后一个阶段主要用于可视化 —— 虽然 Q 矩阵是一个单一的矩阵,但我们可以将它理解为每个注意力头逻辑上分开的 Q 矩阵。

Q 矩阵划分为注意力头

现在我们可以开始计算注意力得分了。

07、为每个头计算注意力得分

目前我们有了三个矩阵:Q,K 和 V,它们分布在不同的注意力头上。这些矩阵将被用于计算注意力得分。

我们将展示单个注意力头的计算过程,这里只涉及最后两个维度(序列和查询尺寸),而忽略前两个维度(批量和头)。

从本质上讲,我们可以想象我们正在观察的计算过程在每个头和批量中的每个样本上都在进行(尽管实际上,它们是作为一个整体的矩阵操作进行的,而不是循环)。

第一步是进行 Q 和 K 矩阵之间的矩阵乘法。

接着,向结果中加入一个掩码值。在编码器的自注意力机制中,这个掩码用于隐藏填充值,确保它们不参与注意力得分的计算。

在解码器的自注意力和编码器 - 解码器注意力中使用的掩码会有所不同,我们稍后将在过程中讨论这一点。

现在的结果通过除以查询尺寸的平方根来缩放,然后应用 Softmax 函数。

随后,进行 Softmax 输出和 V 矩阵之间的另一次矩阵乘法。

在编码器自注意力中,完整的注意力得分计算过程如下所示:

08、将每个头的注意力得分合并

现在我们得到了每个注意力头的独立注意力得分,接下来需要将它们合并成一个统一的得分。这个合并操作实际上是分割操作的逆过程。

这个过程通过重新调整结果矩阵的形状来消除头维度。

具体步骤如下:

  • 通过交换头维度和序列维度来重新调整注意力得分矩阵的形状。也就是说,矩阵的形状从(批量、头、序列、查询尺寸)转变为(批量、序列、头、查询尺寸)。

  • 通过重塑为(批量、序列、头 * 查询尺寸)来折叠头维度,从而有效地将每个头的注意力得分向量串联成一个整体的注意力得分。

由于嵌入尺寸 = 头 * 查询尺寸,因此合并后的得分维度为(批量、序列、嵌入尺寸)。

在下图中,我们可以看到示例得分矩阵的合并过程:

09、端到端的多头注意力

综合这些步骤,我们得到了多头注意力机制的端到端流程。

10、多头分割促进更深层次的理解

嵌入向量用于捕捉单词的含义。在多头注意力机制中,我们看到输入(和目标)序列的嵌入向量在逻辑上分布在多个头中。这意味着什么呢?

这意味着嵌入向量的不同部分可以学习每个单词的不同意义方面,尤其是它与序列中其他单词的关联。这使得 Transformer 能够更丰富、更深入地解读序列。

虽然这可能不是一个现实的例子,但它有助于我们建立一种直觉。比如说,嵌入向量的一个部分可能专注于捕捉名词的 “性别属性”(如男性、女性、中性),而另一个部分则可能关注名词的 “数目属性”(如单数与复数)。

这在翻译过程中是重要的,因为在很多语言中,动词的使用取决于这些因素。

11、解码器自注意力和掩蔽

解码器自注意力的工作原理与编码器自注意力类似,区别在于它作用于目标序列的每个单词上。

同样,掩蔽机制用于屏蔽目标序列中的填充词。

12、编码器 - 解码器注意力和掩蔽

编码器 - 解码器注意力从两个不同的来源接收输入。因此,不同于编码器自注意力仅计算输入词汇间的相互作用,以及解码器自注意力计算目标词汇间的相互作用,编码器 - 解码器注意力是计算每个目标词汇与每个输入词汇之间的相互作用。

因此,在注意力得分结果中的每个单元都对应于一个 Q(即目标序列中的单词)与所有 K(即输入序列中的单词)和所有 V(即输入序列中的单词)之间的交互。

同样,掩蔽机制在目标输出中遮蔽了后续的单词,这一点在本系列的第二篇文章中已经有了详细的解释。

13、结论

希望这篇文章能帮助你对 Transformer 中注意力模块的作用有一个清晰的认识。当我们将其与前面介绍的 Transformer 的整体端到端流程结合起来时,我们就完整地理解了 Transformer 架构的详细操作。

我们现在已经明白理解了 Transformer 的功能。但我们还没有完全回答为什么 Transformer 的注意力机制会执行它所进行的计算。

为什么它要使用查询(Query),键(Key)和值(Value)这些概念,为什么它要进行我们刚才看到的矩阵乘法?

我们大致可以理解为 “它捕捉了每个单词与序列中其他单词之间的关系”,但这究竟意味着什么?它是如何使 Transformer 的注意力机制能够理解序列中每个单词的微妙之处的?

这是一个有趣的问题,一旦我们弄清楚了这个问题,我们就能真正理解 Transformer 架构的精妙之处了。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2203353.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[数据结构]带头双向循环链表的实现与应用

文章目录 一、引言二、链表的基本概念1、链表是什么2、链表与顺序表的区别3、带头双向循环链表 三、带头双向循环链表的实现1、结构体定义2、初始化3、销毁4、显示5、增删查改 四、分析带头双向循环链表1、存储方式2、优点3、缺点 五、总结1、练习题2、源代码 一、引言 链表作…

修复PDF打印速度慢

详细问题: 当您尝试将 PDF 文件打印到本地或网络打印机时,打印需要很长时间,因为发送打印作业后,打印机开始打印的速度非常慢,在打印任务中可以看到打印传输的数据在缓慢增长。 从其他程序打印时也不会出现打印速度慢…

c++的web框架Restbed介绍及在嵌入式Linux下的移植详解

随着物联网和嵌入式设备的普及,开发高性能的网络服务变得愈发重要。Restbed是一个用于构建RESTful APIs的轻量级C框架,因其简洁而强大的特性,成为开发者的热门选择。本文将介绍Restbed框架及其在嵌入式Linux平台上的移植方法。 一、Restbed框…

东方博宜 1176. 素数问题

东方博宜 1176. 素数问题 #include<iostream> using namespace std; int main() { int n ;while(cin >> n && n!0) {int count_n ;count_n 0 ;int k ;for( k 1 ; k < n ; k){int count_k ;count_k 0 ;int j ;for( j 2 ; j < k ; j){if (k % j …

基于SSM的大学生勤工助学管理系统(含源码+sql+视频导入教程+文档+PPT)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于SSM的大学生勤工助学管理系统1拥有三种角色&#xff1a;管理员、学生和用工部门&#xff0c;具体功能如下 1.1 背景描述 基于SSM框架&#xff08;SpringSpring MVCMyBatis&#xff09…

Java微信支付接入(1) - API V3 引入支付参数

1.定义微信支付相关参数 wxpay.properties 文件 这个文件定义了之前我们准备的微信支付相关的参数&#xff0c;例如商户号、APPID、API秘钥等等 # 微信支付相关参数 # 商户号 wxpay.mch-id1558950191 # 商户API证书序列号 wxpay.mch-serial-no34345964330B66427E0D3D28826C49…

HTB:Base[WriteUP]

目录 连接至HTB服务器并启动靶机 1.Which two TCP ports are open on the remote host? 2.What is the relative path on the webserver for the login page? 3.How many files are present in the /login directory? 4.What is the file extension of a swap file? …

DeepACO:用于组合优化的神经增强蚂蚁系统解决TSP问题的代码阅读

总体概括 DeepACO与普通ACO不同的是将问题输入实例输入到一个训练的网络中&#xff0c;将网络训练成为一个类似于专家知识的模块&#xff0c;可以生成相应的启发式矩阵网络&#xff0c;从而省去相应的专家知识。 其中在训练网络的代码中&#xff1a; 是进行监督式训练通过trai…

虚幻引擎GAS入门学习笔记(一)

虚幻引擎GAS入门(一) Gameplay Ability System&#xff08;GAS&#xff09; 是一个模块化且强大的框架&#xff0c;用于管理虚幻引擎中的游戏玩法逻辑。它的核心组成部分包括 Gameplay Ability&#xff08;定义和执行能力&#xff09;、Gameplay Effect&#xff08;应用和管理…

数字安全新时代:聚焦关键信息基础设施安全保障——The Open Group 2024生态系统架构·可持续发展年度大会盛大来袭

在全球数字化转型的浪潮中&#xff0c;关键信息基础设施&#xff08;Critical Information Infrastructure&#xff0c;简称CII&#xff09;的安全保障已成为各国政府和企业共同关注的焦点。随着技术的飞速发展和网络威胁的日益复杂&#xff0c;如何构建高效、灵活且安全的数字…

“Flash闪存”基础 及 “SD NAND Flash”产品的测试介绍

目录 一、“FLASH闪存”是什么&#xff1f; 1. 简介 2. 分类 3. 特点 4. 虚拟化 二、SD NAND Flash 1. 概述 2. 特点 3. 引脚分配 4. 数据传输模式 5. SD NAND寄存器 6. 通电图 7. 参考设计 三、STM32测试例程 1. 初始化 2. 单数据块测试 3. 多数据块测试 4.…

SSD | (一)SSD综述

文章目录 &#x1f4da;SSD综述&#x1f407;SSD基本结构&#x1f407;SSD与HDD&#x1f407;SSD基本工作原理⭐SSD请求处理流程⭐SSD主要组成模块⭐SSD读写操作 &#x1f407;SSD产品核心指标⭐基本信息⭐性能指标⭐数据可靠性和寿命⭐功耗 &#x1f4da;可计算存储 &#x1f…

VueRouter前端路由

文章目录 VueRouter前端路由VueRouter 简介安装vuerouter配置router文件子路由路由重定向 VueRouter前端路由 VueRouter 简介 安装vuerouter npm install vue-router4yarn add vue-router4配置router文件 import { createRouter, createWebHistory } from vue-router; impor…

k8s--二进制包部署及常见报错解决方法

部署流程 所有基础流程见此教程&#xff0c;很详细&#xff1a; 从零搭建k8s集群 - 许大仙 - 博客园 (cnblogs.com) 记得在写配置文件时细心点&#xff0c;注意修改自己的ip地址&#xff0c;以及看在哪个主机上操作 这里记得写自己的token 常见报错及解决方法 我只在下边讲…

GDPU Vue前端框架开发 ecmascript6初步使用

前端框架基础&#xff0c;打造你的前端应用。 箭头函数 使用箭头函数实现求多个数的和&#xff0c;可以有一个参数&#xff0c;也可以有多个或零个参数。 let sum (...numbers) > {return numbers.reduce((acc, curr) > acc curr, 0);};let asum(); let bsum(1); let…

实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B(多模态)

一、简介 VLLM 是一种高效的深度学习推理库&#xff0c;通过PagedAttention算法有效管理大语言模型的注意力内存&#xff0c;其特点包括24倍的吞吐提升和3.5倍的TGI性能&#xff0c;无需修改模型结构&#xff0c;专门设计用于加速大规模语言模型&#xff08;LLM&#xff09;的…

生成对抗网络(GAN,Generative Adversarial Network)

生成对抗网络&#xff08;GAN&#xff0c;Generative Adversarial Network&#xff09;是一种深度学习模型&#xff0c;由两部分组成&#xff1a;生成器&#xff08;Generator&#xff09;和判别器&#xff08;Discriminator&#xff09;。生成器的目标是生成逼真的样本&#x…

Xinstall品牌揭秘:如何成为App拉新的行业翘楚?

在移动互联网时代&#xff0c;App作为连接用户与服务的桥梁&#xff0c;其重要性不言而喻。然而&#xff0c;随着市场竞争的加剧&#xff0c;App拉新&#xff08;即吸引新用户下载并使用App&#xff09;的难度也在逐渐增大。传统的营销方式往往面临着成本高、效率低、用户留存差…

理解PID(零)——什么是PID

PID控制器是一种广泛用于各种工业控制场合的控制器&#xff0c;它结构简单&#xff0c;可以根据工程经验整定参数Kp,Ki,Kd. 虽然现在控制专家提出了很多智能的控制算法&#xff0c;比如神经网络&#xff0c;模糊控制等&#xff0c;但是PID仍然被广泛使用。常见的PID控制器有位置…

视频怎么转gif动图?5个简单转换方法快来学(详细教程)

相信大家在社交平台上会经常看到一些有趣的gif动图表情包&#xff0c;有些小伙伴就会问&#xff1a;这些GIF动图是如何制作的呢&#xff1f;一般GIF动图表情包可以用视频来制作&#xff0c;今天小编就来给大家分享几个视频转成GIF动图的方法&#xff0c;相信通过以下的几个方法…