简单理解Transformer注意力机制

news2025/1/11 19:51:10

这篇文章是对《动手深度学习》注意力机制部分的简单理解。

生物学中的注意力

生物学上的注意力有两种,一种是无意识的,零一种是有意识的。如下图1,由于红色的杯子比较突出,因此注意力不由自主指向了它。如下图2,由于有意识的线索是想要读书,即使红色杯子比较突出,注意力依旧指向了书籍。

图一 

图二 

卷积层、全连接层、池化层就好像无意识的注意力,总是指向突出的特征;注意力机制有区别于此,它包含了有意识的注意力。

在注意力的背景下,有意识线索(想读书)被称为Query,无意识线索(杯子、书等)被称为Key,感官的输入(视觉接收到的无意识线索)称为Value,我们的目标是,通过有意识线索(Query)的引导,将注意力放到权重较大的输入(Value)上。

点积注意力

为什么相似度能衡量权重大小?直观来讲,我们在预测一个结果时,通过尽可能的了解与我们相似的人或事情,便对结果有了大致把握。想读书和书的相似度要比和水杯的高,因此注意力引导在书本而不是水杯。

至于为什么除以根号d?可以参考下面的解释。

图三 

最后将得到的权重矩阵B与输入V点积,其结果为n×v维的矩阵,即每个查询通过权重矩阵B对输入V进行加权平均,得到预测的结果。这种加权平均,可以看作一种对输入信息的过滤或者是对输入信息的聚合。对,同池化层的作用,注意力机制可以看作一种带有意识线索的、有权重的池化层,它不会像最大池化层只留下明显的特征,也不会像平均池化层一视同仁的处理,而是根据查询,有轻重的保留特征。

目前为止,经过感性与理性的认识,应该大致清楚QKV各含义,李沐老师在视频里将了另一个更直观的例子帮助理解。

假设有一个人想要了解自己到新公司的薪资(Query), 他可以先了解在公司中其它人的情况(Key),其中与他具有相似技术、学历等特征的人权重当然比较大,反之则会小,那么通过对这些人的薪资(Value)做加权平均,可以估计得到我们想要(Query)的薪资(Value)。

点积自注意力

一般来说,Query,Key,Value 可以不相同,即使Key和Value相同是容易理解的。比如,上面的例子,Value仅指薪资,或者Value与key相同,薪资作为Key的一个属性,这都不妨碍得到想要的结果。但在Transformer的自注意力中,QKV均相同,Query是输入的tokens,Value也是输入的tokens,计算相似度矩阵也是在输入的tokens之间。因此,注意力计算的结果使得每个token融合了其它tokens的信息,实现全局信息交互,当然更多的是自己的信息。

多头自注意力

普遍认为的是,多头意味着有多组自注意力,多组QKV参数,多组参数学习token不同的特征部分,使得学习具有多样性,从而均衡一组QKV可能产生的偏差,当然多头自注意力也使得每组参数空间变小。

也有工作[2]认为,多层单头和多头都可以学习到不同子空间特征,但是多头训练更具有稳定性。如24层16头transformer(BERT-large)和384层单头transformer的总注意头数相同,模型尺寸大致相同,但是多头自注意力使得网络层数更浅,有利于训练。

参考

注意力机制 — 动手学深度学习 2.0.0 documentation (d2l.ai)

[2106.09650] Multi-head or Single-head? An Empirical Comparison for Transformer Training (arxiv.org)

简单理解注意力机制 - 知乎 (zhihu.com)

推荐文章

《Attention is All You Need》浅读(简介+代码) - 科学空间|Scientific Spaces (kexue.fm) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/495332.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

讯飞星火认知大模型 VS CHATGPT3.5

2023年5月6日,科大讯飞(002230.SZ)宣布将于当日举行“讯飞星火认知大模型”成果发布会。 与其他厂商的大模型发布相比,本次发布会具有三个特点:1.全程真机互动,现场实测、现场体验;2.技术先进性不是笼统表达&#xff…

Java的自定义注解

java元注解和自定义注解的区别 Java的自定义注解是一种元数据,可以应用于类、方法、字段等程序元素上,以提供额外的信息或指示。 自定义注解包括注解声明、元注解、运行时处理器三个部分。注解声明指定了注解的名称、作用域、成员等信息;元注…

IP-GUARD如何通过网络控制策略禁止应用程序联网?

如何通过网络控制策略禁止应用程序联网? 可以在控制台-高级-网络控制中,添加以下策略: 动作:“禁止” 应用程序:填写要禁止的程序(以QQ示例) 如何禁止没有安装客户端的电脑访问客户端电脑? 可以给所有客户端设置只允许客户端电脑访问的网络控制策略; 在控制台左边的…

Unity使用Sqlite3

环境 Unity:Unity2021.3.6f1c1 OS:Window10 64 Plugins:Mono.Data.Sqlite、Sqlite 插件准备 Sqlite3官方网址 Sqlite3有x64和x86版本,根据发布的架构使用不同版本的Sqlite3。 该文档使用x64版本,发布架构为64位。 Mono.Data.Sqlite 使用Unity Hub打开…

搜索旋转排序数组

题目链接 搜索旋转排序数组 题目描述 注意点 nums 中的每个值都 独一无二题目数据保证 nums 在预先未知的某个下标上进行了旋转 解答思路 因为本题数组基本递增(仅在某个位置进行旋转),可以看作由两个递增的数组组合而成,所以…

OPenGL笔记--创建一个3D场景

文章目录 一、前言二、效果展示三、详细流程3.1、World.txt文件规则3.2、加载World.txt3.3、绘制场景3.4、交互 四、详细代码五、举一反三 一、前言 通过前面的学习,基本掌握了怎么绘制图形,使用纹理,接下来就来创建一个3D场景。 基本原理 …

Unity 软性管的实现

概述 因近期项目有要求使用到水管这种软性管的模拟,该篇主要说明软管的实现和应用,参考自:unity3D---实现柔软水管(蛇的移动)效果一(无重力)_unity 软管_ayouayouwei的博客-CSDN博客 效果 实现…

B/S医院手术麻醉管理系统源码:麻醉知情同意书模板

麻醉知情同意书模板 姓名:​ 性别:​ 年龄:​ 科别:​ 床号:​ 住院号:​ 疾病介绍和治疗建议: 医生已告知我因​手术,而接受麻醉。 1.麻醉作用的产生主要是利用麻醉药使中枢神经系统或神经中某些部位受到抑制的结果,临床麻醉的主要任务是: 2.为…

webpack 的打包流程

1.webpack 的打包流程 从以上5个方面来分析Webpack的打包流程: 初始化参数:这一步会从我们配置的webpack.config.js中读取到对应的配置参数和shell命令中传入的参数进行合并得到最终打包配置参数。 开始编译:这一步我们会通过调用webpack()方…

计算机网络基础知识(二)—— 什么是Ip地址、Mac地址、网关、子网掩码、DNS

文章目录 01 | Ip地址02 | Mac地址03 | 网关04 | 子网掩码05 | DNS06 | 总结 初次接触网络时,只知道电脑连接网线,就可以打开4399玩小游戏,可以登录QQ和朋友聊天; 再次接触网络时,知道了怎么查看自己电脑的网络情况&am…

06 - 5 生产者消费者模式

架构演进 介绍 同步调用变成异步调用生产数据与消费数据分离协调不同处理速度 生产者 系统运转的动力为下一个环节产生待处理的工作/数据与消费者的关系 重点在如何将数据发送到容器对消费者无依赖不关注消费者的how/when 发送顺序 消费者 容器 平衡 与EDA对比 消费策略 优点…

我发布了自己第一个由ChatGPT辅助开发的开源项目goattribute

需求产生 前两天在工作过程中又遇到了一直以来困惑我的一个问题,就是Go配置项的管理问题。 在开发一个新项目的时候,往往涉及到配置项的管理。个人小项目可能会通过配置文件来传入、环境变量来传入,也可能通过命令行参数来传入,公…

代码随想录 LeetCode数组篇 长度最小的子数组

文章目录 (中等)209. 长度最小的子数组(中等)904. 水果成篮(困难)76. 最小夫覆盖子串 (中等)209. 长度最小的子数组 我的思路:双指针p和q,滑动窗口的思想 每…

牛客练习赛111 D青蛙兔子的约会

题目链接 示例1 输入 3 3 4 10 1 2 2 4 5 1 1 3 5 11 1 1 输出 YES NO NO 说明 第一问,青蛙晚上向右跳1次,白天无法与兔子相遇。青蛙向右跳2次,也就是2a6的距离,白天兔子向左跳1次,可以相遇。所以在跳[1,2]次中&#…

app持续交付实战

app持续交付实战 一、学习目标二、优势三、子任务拆分四、环境依赖1、安卓 SDK2、安卓设备(真机 or 模拟器)3、Appium 自动化测试4、JDK5、Python3环境6、allure-commandline工具7、allure插件 五、实战任务:串行执行 Jenkins Pipeline 项目1…

Python学习之批量转换图片格式和统一图片尺寸

前言 大家在工作的时候是不是都会接触到很多的图片,为了满足不同的需求: 兼容性:不同设备和应用程序可能支持不同的图片格式。通过转换图片格式,可以确保在各种设备和应用程序中都能够正确地显示图片。 文件大小:不…

基于matlab 从接收脉冲中提取波形参数

一、前言 现代飞机通常随身携带雷达警告接收器 (RWR)。RWR检测到雷达发射,并在雷达信号照射到飞机上时警告飞行员。RWR不仅可以检测雷达发射,还可以分析截获的信号并编目信号来自哪种雷达。此示例显示了 RWR 如何估计截获脉冲的参…

10倍速度开发贪吃蛇游戏之AI辅助

今天就来聊聊AI代码辅助神器,即便是零基础也能上手,因为实在是太强了,这以后叫程序员们怎么活啊!话不多说,直接上神器 我用的是cursor,其实目前AI辅助代码不止cursor,还有微软家的copilot X这个根植于gith…

JVM-01-JVM知识

1-JVM内存模型 Java开发人员一般情况下,使用过程中,不用关注内存的申请和释放,得益于JVM自动内存分配机制,但是其实是个双刃剑,这可以提升Java开发的效率,但是弱化了开发人员内存管理意识,系统容…

四元数快速入门【Quaternion】

四元数(Quaternion)是用于旋转和拉伸向量的数学运算符。 本文提供了一个概述,以帮助理解在空间导航等应用程序中对四元数的需求。 推荐:用 NSDT场景设计器 快速搭建3D场景。 可以通过多种方式在空间中准确定位、移动和旋转物体。 …