Attention Is All You Need(中文版)

news2024/12/24 8:12:19

目录

1 简介

2 背景

3 模型结构

3.1 编码器和解码器

3.2 注意力机制

3.2.1 缩放的点积注意力机制

3.2.2 多头注意力机制

3.2.3 Transformers中的注意力机制

3.3 基于位置的前馈神经网络

3.4 词嵌入和 softmax

3.5 位置编码

4 为什么选择自注意力机制

5 训练

5.1 硬件和时间

5.2 优化器

5.3 正则化

6 结论


Attention Is All You Need

摘要

  主流的序列转换模型都是基于复杂的循环神经网络或卷积神经网络,且都包含一个encoder和一个decoder。表现最好的模型还通过attention机制把encoder和decoder联接起来。我们提出了一个新的、简单的网络架构 — Transformers
. 它只基于单独的attention机制,完全避免使用循环和卷积。在两个翻译任务上表明,我们的模型在质量上更好,同时具有更高的并行性,且训练所需要的时间更少。我们的模型在 WMT2014 英语-德语的翻译任务上取得了28.4的BLEU评分。在现有的表现最好模型的基础上,包括整合模型,提高了2个BLEU评分。在WMT2014英语-德语的翻译任务上,我们的模型在8个GPU上训练了3.5天(这个时间只是目前文献中记载的最好的模型训练成本的一小部分),创造了单模型的SOTA结果,BLEU分数为41.8,通过在大量和少量训练数据上所做的英语选区分析工作的成功,表明Transformer能很好的适应于其它任务。

1 简介

       RNN,LSTM,GRU,Gated Recurrent Neural Networks,在序列建模和转换任务上已牢固确立为最先进的方法,比如语言模型和机器翻译。此后,许多努力继续推动循环语言模型和编码器-解码器架构的界限。

       循环模型通常沿输入和输出序列的符号位置考虑计算。将位置与计算时间的步骤对齐,它们生成一系列隐藏状态 ht,作为先前隐藏状态 ht−1 和位置 t 输入的函数。这种固有的顺序性质阻碍了训练样本中的并行化,这在较长的序列长度下变得至关重要,因为内存约束会限制了样本的批处理。最近的工作通过因式分解技巧和条件计算在计算效率方面取得了显着的提高,同时也提高了后者的模型性能。然而顺序计算的基本约束仍然存在。

       在各种任务中,注意力机制已成为引人注目的序列建模和转导模型中必不可少的一个组成部分,它允许对依赖性进行建模,而不考虑它们在输入或输出序列中的距离。然而,在除少数情况外的所有情况下,这种注意力机制会与循环网络结合使用。

       在这项工作中,我们提出了Transformer,这是一种避免使用循环模型的架构,而是完全依靠注意力机制来绘制输入和输出之间的全局依赖关系。Transformer 允许实现更多的并行化,并且在八个 P100 GPU 上训练短短 12 小时后,翻译质量达到了一个新的水平。

2 背景

       减少序列计算的目标也成就了 Extended Neural GPU [16],ByteNet[18],和ConvS2S[9]的基础,它们都使用了卷积神经网络作为基础模块,并行计算所有输入和输出位置的隐藏表示。在这些模型中,将来自两个任意输入或输出位置的信号关联起来所需的操作数,随位置间的距离而增长,ConvS2S为线性增长,ByteNet为对数增长。这使得学习远距离位置之间的依赖性变得更加困难。 在Transformer中,这种情况被减少到了常数次操作,虽然代价是由于平均注意力加权位置信息降低了有效分辨率,如第3.2节所述,我们用多头注意力机制抵消这种影响。

  self-attention,有时也叫做内部注意力,是一种注意力机制,它将一个序列的不同位置联系起来,以计算序列的表示。self-attention 已经成功的运用到了很多任务上,包括阅读理解、抽象摘要、语篇蕴涵和学习任务无关的句子表征等。

  已经被证明,端到端的记忆网络使用循环attention机制替代序列对齐的循环,在简单的语言问答和语言建模任务中表现良好。

  然而,据我们所知,Transformer是第一个完全依赖于self-attetion来计算其输入和输出表示而不使用序列对齐的RNN或卷积的转换模型,在下面的章节中,我们将描述Transformer,motivate ,self-attention,并讨论它相对于[17,18]和[9]等模型的优势。

3 模型结构

       大多数有竞争力的序列转换模型都有encoder-decoder结构。这里,encoder将符号表示的输入序列( x 1 , . . . , x n ) (x_1,...,x_n)(x1​,...,xn​)映射成一个连续表示的序列z = ( z 1 , . . . , z n ) z = (z_1,...,z_n)z=(z1​,...,zn​)。给定z zz,解码器以一次生成一个字符的方式生成输出序列( y 1 , . . . , y m ) (y_1,...,y_m)(y1​,...,ym​) 。在每一步,模型都是自回归的,在生成下一个字符时,将先前生成的符号作为附加输入。

  Transformer遵循这个总体架构,使用堆叠的self-attention层、point-wise和全连接层,分别用于encoder和decoder,如图1的左半部分和右半部分所示。

3.1 编码器和解码器

       Encoder:encoder由N(N=6)个完全相同的layer堆叠而成,每层有两个子层。第一层是multi-head self-attention机制,第二层是一个简单的、位置全连接的前馈神经网络。我们在两个子层的每一层后采用残差连接,接着进行layer normalization。也就是说,每个子层的输出是L a y e r N o r m ( x + S u b l a y e r ( x ) ) LayerNorm(x + Sublayer(x))LayerNorm(x+Sublayer(x)),其中S u b l a y e r ( x ) Sublayer(x)Sublayer(x) 是由子层本身实现的函数。为了方便这些残差连接,模型中的所有子层以及embedding层产生的输出维度都为d_{model}=512。

       Decoder: decoder也由N(N=6)个完全相同的layer堆叠而成.除了每个编码器层中的两个子层之外,解码器还插入第三个子层,该子层对编码器的输出执行multi-head attention操作,与encoder相似,我们在每个子层的后面使用了残差连接,之后采用了layer normalization。我们也修改了decoder 中的 self-attention 子层,以防止当前位置信息中被添加进后续的位置信息。这种掩码与偏移一个位置的输出embedding相结合, 确保对第 i 个位置的预测 只能依赖小于 i 的已知输出。

3.2 注意力机制

       Attention机制可以描述为将一个query和一组key-value对映射到一个输出,其中query,keys,values和输出均是向量。输出是values的加权求和,其中每个value的权重 通过query与相应key的兼容函数来计算。

Figure 2: (left) Scaled Dot-Product Attention. (right) Multi-Head Attention consists of several attention layers running in parallel.

3.2.1 缩放的点积注意力机制

     我们称我们的特殊attention为Scaled Dot-Product Attention(Figure 2)。输入由query、d k d_kdk​的key和d v d_vdv​的value组成。我们计算query和所有key的点积,再除以d k \sqrt{d_k}dk​​,然后再通过softmax函数来获取values的权重。

  在实际应用中,我们把一组query转换成一个矩阵Q,同时应用attention函数。key和valuue也同样被转换成矩阵K和矩阵V。我们按照如下方式计算输出矩阵:

       additive attention和dot-product(multi-plicative) attention是最常用的两个attention 函数。dot-product attention除了没有使用缩放因子 \frac{1}{\sqrt{d_{k}}} 外,与我们的算法相同。Additive attention使用一个具有单隐层的前馈神经网络来计算兼容性函数。尽管在理论上两者的复杂度相似,但是在实践中dot-product attention要快得多,而且空间效率更高,这是因为它可以使用高度优化的矩阵乘法代码来实现。

     当dk​的值较小时,这两种方法性能表现的相近,当dk​比较大时,addtitive attention表现优于 dot-product attention。我们认为对于大的dk​,点积在数量级上增长的幅度大,将softmax函数推向具有极小梯度的区域。为了抵消这种影响,我们对点积扩展 \frac{1}{\sqrt{d_{k}}}​倍。

3.2.2 多头注意力机制

     相比于使 d_{model} ​维度的queries,keys,values执行一个attention函数,我们发现使用不同的学习到的线性映射把queries, keys 和 values线性映射到d_{k}d_{k}​ 和 d_{v}​维度h次是有益的。在queries,keys和values的每个映射版本上,我们并行的执行attention函数,生成d_{v}维输出值。它们被拼接起来再次映射,生成一个最终值,如 Figure 2 中所示。

   Multi-head attention允许模型把不同位置子序列的表示都整合到一个信息中。如果只有一个attention head,它的平均值会削弱这个信息。

        在这项工作中,我们采用 h=8 个并行attention层或head。 对每个head,我们使用 d_{k} = d_{v} = d_{model} / h = 64。 由于每个head尺寸上的减小,总的计算成本与具有全部维度的单个head attention相似。

3.2.3 Transformers中的注意力机制

multi-head attention在Transformer中有三种不同的使用方式:

  • 在encoder-decoder attention层中,queries来自前面的decoder层,而keys和values来自encoder的输出。这使得decoder中的每个位置都能关注到输入序列中的所有位置。 这是模仿序列到序列模型中典型的编码器—解码器的attention机制。
  • encoder包含self-attention层。 在self-attention层中,所有的key、value和query来自同一个地方,在这里是encoder中前一层的输出。 encoder中的每个位置都可以关注到encoder上一层的所有位置。
  • 类似地,decoder中的self-attention层允许decoder中的每个位置都关注decoder层中当前位置之前的所有位置(包括当前位置)。 为了保持解码器的自回归特性,需要防止解码器中的信息向左流动。我们在scaled dot-product attention的内部 ,通过屏蔽softmax输入中所有的非法连接值(设置为 −∞)实现了这一点。

3.3 基于位置的前馈神经网络

       除了encoder子层之外,我们的encder和decoder中的每个层还包含一个全连接的前馈网络,该网络分别单独应用于每一个位置。这包括两个线性转换,中间有一个ReLU激活。
 

  尽管线性变换在不同位置上是相同的,但它们在层与层之间使用不同的参数。 它的另一种描述方式是两个内核大小为1的卷积。 输入和输出的维度为 d_{model} = 512,内部层的维度为d_{ff}​ = 2048。

3.4 词嵌入和 softmax

       与其他序列转换模型类似,我们使用学习到的嵌入词向量 将输入字符和输出字符转换为维度为d_{model}的向量。我们还使用普通的线性变换和softmax函数将decoder输出转换为预测的下一个词符的概率。在我们的模型中,两个嵌入层之间和pre-softmax线性变换共享相同的权重矩阵,类似于。 在嵌入层中,我们将这些权重乘以\sqrt{d_{model}}。​​

3.5 位置编码

     由于我们的模型不包含循环或卷积,为了让模型利用序列的顺序信息,我们必须加入序列中关于字符相对或者绝对位置的一些信息。 为此,我们在encoder和decoder堆栈底部的输入嵌入中添加“位置编码”。 位置编码和嵌入的维度d_{model}相同,所以它们两个可以相加。有多种位置编码可以选择,例如通过学习得到的位置编码和固定的位置编码。

Table1:Maximum path lengths, per-layer complexity and minimum number of sequential operations for different layer types. n is the sequence length, d is the representation dimension, k is the kernel size of convolutions and r the size of the neighborhood in restricted self-attention.

       在这项工作中,我们使用不同频率的正弦和余弦函数:

       其中pos 是位置,i 是维度。也就是说,位置编码的每个维度对应于一个正弦曲线。波长形成了从2π到10000·2π的几何数列。我们之所以选择这个函数,是因为我们假设它可以让模型很容易地通过相对位置来学习,因为对任意确定的偏移k,  PE_{pos+k}可以表示为PE_{pos}的线性函数。

  我们还尝试使用预先学习的positional embeddings来代替正弦波,发现这两个版本产生了几乎相同的结果 (see Table 3 row (E))。我们之所以选择正弦曲线,是因为它允许模型扩展到比训练中遇到的序列长度更长的序列。

4 为什么选择自注意力机制

        self-attention层比recurrent layer和convolutional layer具有更小的总计算复杂度、可以并行化的计算量和更短的最大路径长度。此外,self-attention层还可以产生更多可解释的模型,每个attention head可以清楚地学习执行不同的任务,并表现出与句子的句法和语义结构相关的行为。

5 训练

5.1 硬件和时间

       在一台具有8个 NVIDIA P100 gpu的机器上训练我们的模型。对于paper中描述的使用超参数的基础模型,每个训练步骤大约需要0.4秒。

5.2 优化器

        使用Adam优化器,其中β1 = 0.9, β2 = 0.98及ϵ= 10-9。我们根据以下公式在训练过程中改变学习率:

这对应于在第一次warmup_steps 步骤中线性地增加学习速率,并且随后将其与步骤数的平方根成比例地减小。 我们使用 warmup_steps = 4000。

5.3 正则化

       训练中采用三种正则化:

       Residual Dropout 我们在对每个子层的输出上执行dropout操作,这个操作在additive操作(子层的输出加上子层的输入)和 normalized操作之前。 此外,在编码器和解码器堆栈中,我们将丢弃应用到嵌入和位置编码的和。 对于基础模型,我们使用P_{drop} = 0.1​ 丢弃率。

       Label Smoothing 在训练过程中,我们采用了值 \varepsilon _{ls} = 0.1的标签平滑。这会影响ppl,因为模型学习到了更多的不确定性,但提高了准确率和BLEU评分。

6 结论

        本文介绍了Transformer模型,它是第一个完全基于attention的序列转换模型,用multi-headed self-attention取代了encoder-decoder架构中最常用的recurrent layers。对于翻译任务,Transformer比基于循环或卷积层的体系结构训练更快,并在WMT 2014英语-德语和WMT 2014英语-法语翻译任务中取得了最好的结果。未来,我们计划将Transformer扩展到涉及输入和输出模式的其他任务,并研究局部的、受限的attention机制,以有效地处理图像、音频和视频等大型输入和输出。同时,我们的另一个研究目标是让生成具有更少的顺序性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1072437.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深眸科技自研AI视觉分拣系统,实现物流行业无序分拣场景智慧应用

在机器视觉应用环节中,物体分拣是建立在识别、检测之后的一个环节,通过机器视觉系统对图像进行处理,并结合机械臂的使用实现产品分类。 通过引入视觉分拣技术,不仅可以实现自动化作业,还能提高生产线的生产效率和准确…

java案例25:批量操作文件管理器

思路: 编写文件管理器,实现文件的批量操作。具体功能: 1.用户输入指令1,代表“指定关键字检索文件”, 此时需要用户输入检索的目录和关键字, 系统在用户指定的目录下检索出文件名中包含关键字的文件 并将其…

抢先知:公抓抓 信息挖掘工具

随着经济全球化进程的加速,企业在不断发展和壮大,同时也在不断地适应市场的变化。在这个过程中,企业信息的及时获取和掌握变得至关重要。那么,最新企业信息哪里找呢?在这里介绍几个路径,可以参考&#xff0…

蓝桥杯每日一题2023.10.9

题目描述 成绩统计 - 蓝桥云课 (lanqiao.cn) 题目分析 学会使用四舍五入函数round #include<bits/stdc.h> using namespace std; int s1, s2; int main() {int n, x;cin >> n;for(int i 1; i < n; i ){cin >> x; if(x > 60)s1 ;if(x > 85)s2 ;…

GD32F103 硬件SPI通信

1. SPI的通信原理 SPI既可以做主机也可以做从机。 当做主机时。MOSI&#xff0c;SCK,CS都是作为输出。 而作为从机时。MOSI&#xff0c;SCK,CS都是作为输入。 所以SPI的硬件电路应该实现这样的功能。 2. GD32/STM32的SPI框图 1. GD32框图 如下图做主机的数据流向&#xf…

华为HCIP安全 VPN学习笔记 密码学基础:基本框架介绍

0.学习密码学的目的与方法 作为一个工程师&#xff0c;你不需要像科学家一样掌握密码学的整个开发过程。 为了保障安全性&#xff0c;密码学发展出不同的模块&#xff0c;解决了不同的问题&#xff0c;数据的安全性也在这个过程中不断提升。而加密只是其中众多模块之一。其他…

JAVA毕业设计098—基于Java+Springboot的在线教育课程视频(源码+数据库)

基于JavaSpringboot的在线教育课程视频(源码数据库)098 一、系统介绍 本系统分为管理员、教师、用户三种角色(角色菜单可自行分配) 用户功能&#xff1a; 注册、登录、课程搜索、视频观看、课程资料发布、资料浏览、用户中心、我的发布、通知信息、密码修改 教师功能&…

母婴店怎么在微信小程序卖东西

随着互联网的发展&#xff0c;微信小程序已经成为一种新型的电商模式&#xff0c;它无需下载安装&#xff0c;使用方便&#xff0c;不占用手机内存&#xff0c;让购物变得更加简单便捷。母婴店也可以通过微信小程序来销售产品&#xff0c;拓宽销售渠道&#xff0c;增加销售额。…

Docker Mysql实战:docker compose 搭建Mysql

1、docker-compose-mysql文件准备 进入/home/docker目录&#xff0c;新建docker-compose-mysql.yml文件&#xff0c;内容如下&#xff1a; version: 3.0 services:mysql:image: "mysql:5.7"container_name: "mysql"environment:MYSQL_ROOT_PASSWORD: &q…

还原回收站的文件需要管理员权限怎么办

案例分享&#xff1a;无意中删除一些文件至回收站&#xff0c;却无法还原&#xff0c;提示“您需要权限来执行此操作”。怎么办&#xff0c;请大侠指点&#xff1f; ——当我们意外地删除了文件并将其放入回收站时&#xff0c;我们通常可以轻松地将其还原。然而&#xff0c;有…

Springboot+vue的企业OA管理系统(有报告),Javaee项目,springboot vue前后端分离项目。

演示视频&#xff1a; Springbootvue的企业OA管理系统&#xff08;有报告&#xff09;&#xff0c;Javaee项目&#xff0c;springboot vue前后端分离项目。 项目介绍&#xff1a; 本文设计了一个基于Springbootvue的前后端分离的企业OA管理系统&#xff0c;采用M&#xff08;m…

如何正确操作封箱机

前文跟大家分享过封箱机错误操作三案例&#xff0c;那么封箱机到底如何才能正确操作呢&#xff1f;今天就和您分享一下如何正确操作封箱机。 1、确定正确的电源电压进行接入。目前国内封箱机均采用220v 50hz电源电压&#xff0c;但也有一些定制型设备可能使用380v电源&#xff…

vue建项目

vue3 create-vue 建vue3项目 vscode里改点东西&#xff0c;首先vetur禁用&#xff0c;这个是vue2的&#xff0c;下volar pinia持久化插件&#xff1a;npm i pinia-plugin-persistedstate 配eslint、prettier 在.eslintrc.cjs里配 rules: {// prettier专注于代码的美观度 (格…

Go 团队发布组织 / 构建 Go module 的官方指南

导读Go 团队发布了一份官方指南&#xff0c;帮助开发者更规范地组织 / 构建 Go module。 刚接触 Go 的开发者常见问题之一是&#xff0c;“就文件和文件夹的组织布局而言&#xff0c;如何组织我的 Go 项目&#xff1f;”。这份指南就是提供建议来帮助回答这个问题。其中包括针对…

2023年中国CEM-1型覆铜板产量、需求量及行业销售收入分析[图]

CEM-1指覆铜板的一种&#xff0c;以玻纤布半固化片与纸基半固化片层压铜箔达到固化后形成的板材&#xff0c;属于复合型基材&#xff0c;CEM-1能用来制作频率特性要求高的PCB&#xff0c;如电视机的调谐器、电源开关、超声波设备、计算机电源和键盘&#xff0c;也可以用于电视机…

解决扬声器异常

之前使用的是PulseAudio PulseAudio 是默认的音频服务器和音频框架&#xff0c;因此大多数应用程序通过 PulseAudio 来处理音频 但也有一些应用程序直接使用 ALSA&#xff08;Advanced Linux Sound Architecture&#xff09;来与音频硬件交互。在这些情况下&#xff0c;ALSA …

[GYCTF2020]Ezsqli 绕过or information_schema 无列名注入

https://www.cnblogs.com/h0cksr/p/16189749.html https://www.gem-love.com/ctf/1782.html 说好的ez.... 我们开始吧 首先就直接进行抓包 看回显 然后开始正常的测试 报错了 这里的 or过滤的绕过 我们可以使用 ^ 或者 || 我喜欢用 || 所以继续构造 发现了 就是目前这种…

JavaScript——数据类型、类型转换

数据类型 计算机世界中的万事万物都是数据。 计算机程序可以处理大量的数据&#xff0c;为什么要给数据分类? 更加充分和高效的利用内存也更加方便程序员的使用数据 基本数据类型 number 数字型 JavaScript中正数、负数、小数等统一称为number JS是弱数据类型&#xff0…

基于SpringBoot的篮球论坛系统

基于SpringBoot的篮球论坛系统~ 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringBootMyBatisVue工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 前台界面 登录界面 管理员界面 摘要 基于Spring Boot的篮球论坛系统代表了一个现代社交网络应…

iPhone序列号查询的4个常用方法,赶快get起来!

苹果手机序列号是每台设备的唯一标识符。就像每个人都拥有自己的身份证一样&#xff0c;序列号则是每台苹果手机的身份证明。 通过查询iPhone序列号&#xff0c;我们可以得知手机的产地、生产日期&#xff0c;以及机型等信息&#xff0c;还可以查验手机是否被激活&#xff0c;…