论文阅读【5】Attention Is All You Need

news2025/4/4 23:13:58

1.概述

1.1 论文相关

  • 题目:注意你所有需要的(Attention Is All You Need)
  • 发表时间:2017
  • 出版:NIPS
  • 原文地址:经典模型了,网上一搜就能搜索到
  • 代码:

1.2 动机

在这里插入图片描述

因为循环神经网络通常是沿着符号输入输出序列的位置来考虑计算,将这些位置与计算时间中的步骤对齐,它们生成一系列隐藏状态 h t h_t ht,作为前一个隐藏状态 h t − 1 h_{t−1} ht1和位置t的输入的函数。这种固有的顺序让训练示例不能使用并行计算,让序列长度成为了关键,因为容量极限限制了每个batch输入的示例。
因此作者就提出了一种新的模型Transformer,这种模型避免了循环而是完全依赖于注意力机制在输入输出之间绘制全局关系,并且Transformer模型允许并行计算,在机器翻译上也取得突出的成绩。

2 算法

2.1 自注意力机制

  • 对于输入的数据,你的关注点是什么?
  • 如何才能让计算机关注到这些有价值的信息?

self-attention在对自己进行编码的时候,每个词都是句子当中的一部分,但是在融合语义信息的时候方法也不是一样的,因为每个词语在其中的权重不同,不仅只考虑自己当前这个词,还要考虑全局的信息。
比如下面这两句话:
在这里插入图片描述
第一句话中的it指代的是animal,第二句话中指代的是street,两句话中的it所指代的内容不一样,所以他在编码的时候考虑的权重也是不一样的。

2.2 self-attention计算方法

在这里插入图片描述
selef-attention的计算方法,结合上图进行分析:

  • 第一步:对输入的单词进行一个编码转换成一个四维的向量
  • 第二步:如何提取特征,第一个词要考虑这两个词对自己做了什么贡献,然后重新的进行向量编码,因此设置了3个矩阵:Queries,keys,values,借助这三个矩阵,对词语编码的时候怎么考虑到上下文。其实也就是三个权重参数。

那么这三个矩阵是有什么作用呢?见下图:
在这里插入图片描述

  1. Q:query,要查询与每个词之间的关系
  2. K:key,等着被查
  3. V:value,实际的特征信息
    X与 W q W^q Wq矩阵相乘得到了 q 1 q_1 q1, q 2 q_2 q2l两个特征,X与 W k W^k Wk矩阵相乘得到了 k 1 k_1 k1, k 2 k_2 k2l两个特征,X与 W v W^v Wv矩阵相乘得到了 v 1 v_1 v1, v 2 v_2 v2两个特征。
  • 第三步:每一个词的Q会与每一个Q计算得分
    在这里插入图片描述
    然后计算每一个词与上下文之间的关系权重:
    1)q与k的内积表示有多匹配,因为如果两个向量没有关系就是垂直,垂直内积为0,如果不垂直,则内积绝对不为0.
    2)输入两个向量得到一个分值
    例如要查找第一个词与它自己的关系,就用 q 1 ∗ k 1 q_1*k_1 q1k1得到一个关系值,查第一个词与第二个词之间的关系,则就用 q 1 ∗ k 2 q_1*k_2 q1k2到到关系值。
  • 第四步:softmax进行归一化
    然后使用softmax对这些关系权重进行归一化得到当前单词的与每个单词的权重,然后将权重与v相乘得到了它的编码。
    在这里插入图片描述
    如上图:则 x 1 x_1 x1的编码为0.13* v 1 v_1 v1+0.87* v 2 v_2 v2+0.0* v 3 v_3 v3
    每一个词的会跟整个序列中的每一个K计算得分,然后基于得分再分配特征。
    在这里插入图片描述
    小结:
    Attention整体计算流程:
  • 每个词的Q会跟每-个K计算得分
  • Softmax后就得到整个加权结果
  • 此时每个词看的不只是它前面的序列
  • 而是整个输入序列
  • 同一时间计算出所有词的表示结果
    在这里插入图片描述

2.3 多头机制

通过不同的head得到多个特征表示的,将所有特征拼接到一起,可以通过再一层全连接来降低维度,一般设置8个头。
在这里插入图片描述
多头注意力机制的执行过程:
在这里插入图片描述
多头注意里机制不同的注意力结果不同,得到的特征向量的表达式有也不同。
在这里插入图片描述

2.4 位置编码和多层堆叠

多层堆叠
上面是经过一次self-attention得到的结果,随后输出的还是向量,既然是向量那我们还可以继续对他进行一次self-attention,这也就是多层堆叠。
在这里插入图片描述
位置信息编码
在self- attention中每个词都会考虑整个序列的加权,所以其出现位置并不会对结果产生什么影响,相当于放哪都无所谓,但是这跟实际就有些不符合了,我们希望模型能对位置有额外的认识。
本文中的位置编码使用的是余弦周期进行编码的。
在这里插入图片描述
层级归一化(layerNormlize)
首先了解一下batch-Normlize,如下图中一个batch有四个数据,然后把一个batch的某一层的特征按照batch的维度,让他均值为0,标出差为1.
在这里插入图片描述
这里加上了一个layerNormlize,目的就是让它训练的更稳定更快。
在这里插入图片描述
** 残差连接**
因为一个参数经过多层的堆叠之后,进行层级归一化的效果不一定是最完美的,于是就做了2手准备,看看是经过多层堆叠的效果最好呢还是直接经过一个self-attention的效果好,然后对比结果,那个结果好就选择那个,这个就叫做残差连接,其实就是做两手准备。
在这里插入图片描述

2.5 Decoder

** Decoder aattention**
解码的过程需要用到解码器的Q去查询编码器中的K和V,总之得把编码器中的训练的信息要用起来。
在这里插入图片描述
** mask机制**
Decoder预测结果是基于前面一个词预测下一个词,那么既然是预测下一个词,那就不能提前知道这个词,所有就把他mask掉,相当于遮住,然后让他自己预测。
在这里插入图片描述

4. 实验及结果

4. 总结

后面再继续完善

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/24586.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Poison Ink: Robust and Invisible Backdoor Attack 论文笔记

1. 论文信息 论文名称Poison Ink: Robust and Invisible Backdoor Attack作者Jie Zhang(中国科学技术大学)会议/出版社IEEE Transactions on Image Processingpdf📄在线pdf 2. introduction 文章提出了一种新的攻击方式称为“Poison Ink”…

CRF条件随机场

文章目录定义转移概率 & 发射概率损失函数单条路径的求解viterbi解码贪婪算法维特比算法参考解读定义 CRF:condition random field 解决序列预测问题。比如TTS的前端分词,实体命名识别等。 转移概率 & 发射概率 发射分数:将输入预测…

PPT 最后一页写什么结束语既得体又能瞬间提升格调?

谢邀!我只分享一个现下最流行的方法,绝对让尾页逼格满满!罗永浩雷军都在用的「金句法」。 提到这份方法,你可能会觉得很陌生,但你一定见过这样的页面: 这样的页面还有很多,多是以一句话收尾&…

LeetCode刷题(python版)——Topic81. 搜索旋转排序数组 II

一、题设 已知存在一个按非降序排列的整数数组 nums &#xff0c;数组中的值不必互不相同。 在传递给函数之前&#xff0c;nums 在预先未知的某个下标 k&#xff08;0 < k < nums.length&#xff09;上进行了 旋转 &#xff0c;使数组变为 [nums[k], nums[k1], ..., nu…

简单网络管理协议SNMP

SNMP一、 网络管理基本概念网络管理主要构件管理站被管设备网络管理协议SNMP&#xff08;简单网络管理协议&#xff09;协议组成二、管理信息结构SMI功能被管对象的命名被管对象的数据类型编码方法三、管理信息库MIB定义要点四、SNMP基于UDP服务两种基本管理功能机制探询trap五…

期末复习 C语言再学习

作者&#xff1a;小萌新 专栏&#xff1a;期末复习 作者简介&#xff1a; 大二学生 希望能和大家一起进步 本篇博客介绍&#xff1a; 考试周临近 没时间学新知识了 回顾C语言知识 一. 常量和字符串 1. 常量的四种表示方式 字面常量 这个很简单 字面意义上的常量就是了 比如…

跳表和散列表

一、跳表 复杂度&#xff1a;O(logn)&#xff1b; 跳表的更新&#xff1a;插入数据时&#xff0c;可以选择将这个数据插入到部分索引中&#xff0c;可以选择一个随机函数&#xff0c;产生随机数K&#xff0c;边将索引添加到第一到第K级索引中。 Redis为何选择跳表来实现有序集…

冯·诺依曼体系概括总结

文章目录我们常见的计算机&#xff0c;如笔记本。我们不常见的计算机&#xff0c;如服务器&#xff0c;大部分都遵守冯诺依曼体系。 截至目前&#xff0c;我们所认识的计算机&#xff0c;都是由一个个的硬件组件组成 输入单元&#xff1a;包括键盘, 鼠标&#xff0c;扫描仪, …

Java笔记(JUnit、反射、注解)

一、JUnit单元测试 1. JUnit的介绍 JUnit是一个Java语言的单元测试工具。有了它我们在开发阶段就可以对自己编写的功能模块进行单元测试&#xff08;就是一块一块去测试&#xff09;&#xff0c;看看是否达到具体预期&#xff08;这样小Bug我们自己就能解决&#xff09;。 黑盒…

敏感词检测库ToolGood.Words中 WordsHelper类使用简介

C#开源敏感词检测库ToolGood.Words中的类WordsHelper为文本辅助操作类&#xff0c;支持繁体简体互换、全角半角互换、数字转成中文大写、拼音操作等功能&#xff0c;本文对照参考文献1&#xff0c;对该类的用法进行简要介绍。   WordsHelper类中主要的辅助函数如下表所示&…

基于SVM的航空发动机故障诊断系统设计

目录 第1关&#xff1a;准备实验数据 任务描述&#xff1a; 相关知识&#xff1a; 一、获取数据&#xff1a; 二、读取数据集&#xff1a; 三、如何找出对应的数据列&#xff1a; 编程要求&#xff1a; 测试说明&#xff1a; 第二关&#xff1a;数据预处理 任务描述&…

python习题002--字符串处理

目录 一&#xff0c;题目展示&#xff1a; 二&#xff0c;题目解答 a&#xff09;判断两个字符串是否相等 b)忽略大小写判断两个字符串是否相等 c,d)判断字符串是否以指定的字符串开始或者是结尾 e&#xff09; 获取字符串的长度 f&#xff09; 字符串切片&#xff0c…

认定省级专精特新的条件

之前报省级专精特新的一个条件是先认定市级专精特新&#xff0c;但是打算2023年申报省级专精特新的企业就不需要先申请市级的专精特新了&#xff0c;那是可以直接申请省级专精特新吗&#xff1f;并不是&#xff01; 接下来打算申请2023年省级专精特新的企业需要先认定山东省创…

18.5.4 分布式恢复

文章目录18.5.4 分布式恢复18.5.4.1 分布式恢复的连接18.5.4.1.1 为分布式恢复端点选择地址18.5.4.1.2 分布式恢复的压缩18.5.4.1.3 用于分布式恢复的复制用户18.5.4.1.4 分布式恢复的 SSL 和身份验证18.5.4.2 分布式恢复的克隆18.5.4.2.1 克隆的先决条件18.5.4.2.2 克隆的阈值…

VsCode配置Kotlin运行环境

目录 需求 前置条件 步骤 问题 一 二 结果 需求 设备上有一个 Android Studio 但是太大了, 于是就想着用 VS Code 配置一个轻量级的,而且 VS Code里面好多插件我用着也比较舒服. 前置条件 Java JDK1.8 或者 11 别的版本没试过 有基于Android Studio 的 Kotlinc的环…

c++ - 第12节 - 模板进阶

1.非类型模板参数 模板参数分为类型形参与非类型形参类型形参&#xff08;可以认为是虚拟类型&#xff09;&#xff1a;出现在模板参数列表中&#xff0c;跟在class或者typename之类的参数类型名称。非类型形参&#xff08;可以认为是常量&#xff09;&#xff1a;用一个常量作…

带命名空间的arxml读取

一、前言 读取带命名空间的arxml,最好的方式是创建一个字典来存放你自己的前缀并在搜索函数中使用它们: 二、解读如下ns.xml文件: <?xml version"1.0" encoding"UTF-8"?> <AUTOSAR xmlns"http://autosar.org/schema/r4.0" xmlns:xsi…

365天深度学习训练营-第7周:咖啡豆识别

目录 一、前言 二、我的环境 三、代码实现 四、VGG-16框架 五、LeNet5模型 六、模型改进 一、前言 >- **&#x1f368; 本文为[&#x1f517;365天深度学习训练营](https://mp.weixin.qq.com/s/xLjALoOD8HPZcH563En8bQ) 中的学习记录博客** >- **&#x1f366; 参考…

基于STM32G431嵌入式学习笔记——四、LED+KEY+LCD综合练习(基于第12届蓝桥杯显示部分题目)

在学习了前三节LED、LCD、KEY基本操作后&#xff0c;我们就已经成功掌握蓝桥杯必考的三大样内容了&#xff0c;本节以第12届蓝桥杯显示部分内容进行综合练习&#xff1a; 一、真题引入 1.功能概述 2.LCD显示界面 &#xff08;1&#xff09;车位显示界面 &#xff08;2&#…

PostgreSQL数据库缓冲区管理器——本地缓冲区管理

本地缓冲区管理器(local buffer manager)为temporary表&#xff08;无需WAL-logged或checkpointed&#xff09;进行快速缓冲区管理&#xff0c;API定义在src/backend/storage/buffer/localbuf.c中。 获取LocalBuffer 初始化 首先解释temp_buffers GUC参数&#xff0c;其用于…