论文阅读笔记：Attention is All You Need

news2026/2/12 1:08:42

论文标题：Attention is All You Need

1.摘要

2.前言

3.模型结构

自注意力机制

多头自注意力机制

注意力机制在Transformer中的应用

1.摘要

过去最优的模型是带有attention连接的encoder-decoder模型，本文提出了一个名为Transformer的神经网络框架，Transformer基于注意力机制，完全不需要循环和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更高，同时更易于并行化，并且训练的时间更短。

2.前言

RNN,LSTM,GRU等模型在机器翻译上取得了优异的效果。循环语言模型沿着时间步计算，产生一个序列的隐藏状态ht。将前一个时刻的ht-1和t时刻的输入输入到模型，这种序列的设计天然地阻碍了并行训练。这在较长的序列长度时训练速度变得至关重要，因为内存限制了示例之间的批处理。

Attention允许对依赖性进行建模，而不考虑它们在输入或输出序列的距离。Self-Attention是一种注意力机制，它将单个序列的不同位置联系起来，以便计算序列的表示

基于循环注意力机制的端到端记忆网络（Encoder-Decoder with Attention），而不是序列对齐的循环，已被证明在简单的语言问答和语言建模任务中表现良好。

3.模型结构

大多数有竞争力的语言模型有encoder-decoder架构，输入为序列，表示为

输入序列

Encoder将序列转换为隐藏状态表示z

Decoder在每个时间步将隐藏状态转换输出序列

Transformer的Encoder-Decoder模块结构均为堆积的多层Self-Attention模块、全连接模块，和残差模块。其模型结构如图1，左侧为Encoder,右侧为Decoder。

Encoder: 6层网络，并在每层使用残差连接，然后进行层归一化。每层均有两个子层：多头自注意力机制，求点积的全连接层。6层网络中的每一层可以表示为，每层的隐藏层维度dmodel = 512。

Decoder: 使用相同的6层。除了每个编码器层中的两个子层之外，解码器还插入第三个子层，该子层对编码器堆积的输出执行多头注意力。Decoder每层之间用残差连接，之后使用LayerNorm。除此之外，作者还修改了解码器中的第三个子层自注意力子层，以防止位置关注后续位置。（防止特征泄露，预测t时刻的词不应该看到Enocder中t+1之后的特征），作者使用了mask机制。

灰色部分为i位置之后的mask

Mask的解释：想让当前decoder layer的每一个位置，能处理上一层decode layer的每一个位置。但为了不发生信息穿越，decoder layer做self-attention时，不应该注意到自己之后的位置（因为自己之后的位置此时并没有输出任何东西）。

具体做法是，直接把蒙版区的attention矩阵的值设为负无穷。表示对该区域的注意力为负无穷! Softmax之后对应区域的权重会趋向于0。

注意，置为负无穷发生在softmax之前。

参考：https://blog.csdn.net/w55100/article/details/94460352

自注意力机制

图2中左图为标度点积注意力，右图为并行的多图注意力。自注意力机制以序列的每个词特征作为输入，将每个词乘以WQ、Wk、Wv三个权重矩阵，这样做的目的是为了增强模型的表达能力。得到Q(查询向量)、K(key匹配向量)、V(Value值向量)；在得到每个词的Q\K\V表示后，就可以取计算词与词之间的自注意力机制。

什么是自注意力机制？

计算每个词i与其他词j之间的权重αij，然后用αij乘以对应的值向量Vj，得到词i的加权表示。文中使用的是矩阵乘法的形式

使用1√d 的目的是做归一化，d是的向量维度。在点积之后，qk得到的是一个标量，q与所有k的点积可以形成一个向量，随着d维度的增加，这里有些qk对的点积会非常大，而有些会很小，一个向量中的数据分布是不均匀的。

经过softmax之后，会把qk点积大的维度进一步放大，计算的数值也会变得非常大，数值可能溢出。而qk点积小的缩小，对于qk点小的维度softmax之后会出现梯度消失。

因此，使用1√d将q,k向量的点积分布做归一化，将数据的分布差异缩小，抵消softmax梯度消失现象。

Softmax函数：一文详解Softmax函数 - 知乎

https://zhuanlan.zhihu.com/p/41571249

SoftMax函数的输出，加上log不影响函数的单调性，为pi添加log运算

Pi正确类别对应的输出节点的概率，我们希望pi越大越好（0<pi<1）。通常情况下是使用梯度下降法来迭代求解，因此只需要为log pi加上负号变成损失函数，-log pi越小越好。

进一步处理得到SoftMax损失函数

交叉熵损失（由极大似然推导得到）

多头自注意力机制

作者发现将查询q,键k和值v用不同的线性变化k次到dq,dk,dv是有益的。然后再h组q,k,v上并行地执行自注意力函数，产生dv维度的值向量，将h个dv维度的值向量进行拼接，然后做线性变化，得到最终的值向量。

多头注意力允许模型注意到不同位置的不同表示的子空间。文中使用8(h=8)个自注意力头,每个注意力头将q,k,v映射到dq\dk\dv=64

注意力机制在Transformer中的应用

Encoder-Decoder Attention中，queries来自上一层decoder的输出，key和value来自Encoder的输出
Encoder中包含了自注意力层，在一个自注意力层中，querie,key,values都来自相同的位置，当前层的每个位置可以attened到上一层的所有位置。

FNN(x) = Max(0,W1Z+B)W2 + b2

参数共享, encoder的input Embeddings和Decoder的input Embedding、以及pre-softmax线性变化这三部分共享参数