Transformer详解学习

1. Transformer 原理

1.1 Transformer整体结构

Transformer的结构图，拆解开来，主要分为图上4个部分，其中最重要的就是2和3Encoder-Decoder部分，对咯，Transformer是一个基于Encoder-Decoder框架的模型。
接下来我将按照1，2，3，4的顺序逐步介绍上图中Transformer的网络结构，这样既能够弄清楚结构原理，又能够方便理解Transformer模型的工作流程。

1.2 Transformer的inputs 输入

Transformer输入是一个序列数据，还是以上篇中提到的"Tom chase Jerry" 翻译成中文"汤姆追逐杰瑞"为例：
Encoder 的 inputs就是"Tom chase Jerry" 分词后的词向量。可以是任意形式的词向量，如word2vec，GloVe，one-hot编码。

假设上图中每一个词向量都是一个512维的词向量。

我们注意到，输入inputs embedding后需要给每个word的词向量添加位置编码positional encoding，为什么需要添加位置编码呢？
首先咱们知道，一句话中同一个词，如果词语出现位置不同，意思可能发生翻天覆地的变化，就比如：我欠他100W 和他欠我100W。这两句话的意思一个地狱一个天堂。可见获取词语出现在句子中的位置信息是一件很重要的事情。但是咱们的Transformer 的是完全基于self-Attention地，而self-attention是不能获取词语位置信息地，就算打乱一句话中词语的位置，每个词还是能与其他词之间计算attention值，就相当于是一个功能强大的词袋模型，对结果没有任何影响。（一会儿在介绍Encoder的时候再详细说明）所以在我们输入的时候需要给每一个词向量添加位置编码。

问题又来了，这个positional encoding怎么获取呢？
1.可以通过数据训练学习得到positional encoding，类似于训练学习词向量，google在之后的bert中的positional encoding便是由训练得到地。
2.《Attention Is All You Need》论文中Transformer使用的是正余弦位置编码。位置编码通过使用不同频率的正弦、余弦函数生成，然后和对应的位置的词向量相加，位置向量维度必须和词向量的维度一致。过程如上图，PE（positional encoding）计算公式如下：

解释一下上面的公式：
pos表示单词在句子中的绝对位置，pos=0，1，2…，例如：Jerry在"Tom chase Jerry"中的pos=2；dmodel表示词向量的维度，在这里dmodel=512；2i和2i+1表示奇偶性，i表示词向量中的第几维，例如这里dmodel=512，故i=0，1，2…255。
至于上面这个公式是怎么得来地，其实不重要，因为很有可能是作者根据经验自己造地，而且公式也不是唯一地，后续google在bert中的positional encoding也没有再使用这种方法而是通过训练PE，说明这种求位置向量的方法还是存在一定问题地。

为什么是将positional encoding与词向量相加，而不是拼接呢？

拼接相加都可以，只是本身词向量的维度512维就已经蛮大了，再拼接一个512维的位置向量，变成1024维，这样训练起来会相对慢一些，影响效率。两者的效果是差不多地，既然效果差不多当然是选择学习习难度较小的相加了。

Transformer 的 Decoder的输入与Encoder的输出处理方法步骤是一样地，一个接受source数据，一个接受target数据，对应到上面例子里面就是：Encoder接受英文"Tom chase Jerry"，Decoder接受中文"汤姆追逐杰瑞"。只是在有target数据时也就是在进行有监督训练时才会接受Outputs Embedding，进行预测时则不会接收。

1.3 Transformer的Encoder

看上图第2部分 Encoder block。Encoder block是由6个encoder堆叠而成，Nx=6。上图2中的灰框部分就是一个encoder的内部结构，从图中我们可以看出一个encoder由Multi-Head Attention 和全连接神经网络Feed Forward Network构成。

Multi-Head Attention：

首先回顾一下self-attention，假如输入序列是"Thinking Machines"，x1，x2就是对应地"Thinking"和"Machines"添加过位置编码之后的词向量，然后词向量通过三个权值矩阵 $W^{Q},W^{K},W^{V}$ 转变成为计算Attention值所需的Query，Keys，Values向量。

因为咱们再实际使用中，每一个样本，也就是每一条序列数据都是以矩阵的形式输入地，故可以看到上图中，X矩阵是由"Tinking"和"Machines"词向量组成的矩阵，然后跟过变换得到Q，K，V。假设词向量是512维，X矩阵的维度是(2,512)， $W^{Q},W^{K},W^{V}$ 均是(512,64)维，得到的Query，Keys，Values就都是(2,64)维。

得到Q，K，V之后，接下来就是计算Attention值了。
步骤1： 输入序列中每个单词之间的相关性得分，上篇中说过计算相关性得分可以使用点积法，就是用Q中每一个向量与K中每一个向量计算点积，具体到矩阵的形式： $Score = Q\cdot K^{T}$ ,socre是一个(2,2)的矩阵。
步骤2： 对于输入序列中每个单词之间的相关性得分进行归一化，归一化的目的主要是为了训练时梯度能够稳定。 $score = score / \sqrt{d_{k}}$ ，dk就是K的维度，以上面假设为例，dk=64
步骤3： 通过softmax函数，将每个单词之间的得分向量转换成[0,1]之间的概率分布，同时更加凸显单词之间的关系。经过softmax后，score转换成一个值分布在[0,1]之间的(2,2)α概率分布矩阵
步骤4： 根据每个单词之间的概率分布，然后乘上对应的Values值，α与V进行点积， $Z=softmax(score)\cdot V$ ，V的为维度是(2,64)，(2,2)x(2,64)最后得到的Z是(2,64)维的矩阵
整体的计算图如下：

说了这么多好像都只是在说self-attention，那么Multi-Head Attention呢？

Multi-Head Attention 很简单，就是在self-attention的基础上，对于输入的embedding矩阵，self-attention只使用了一组 $W^{Q},W^{K},W^{V}$ 来进行变换得到Query，Keys，Values。而Multi-Head Attention使用多组 $W^{Q},W^{K},W^{V}$ 得到多组Query，Keys，Values，然后每组分别计算得到一个Z矩阵，最后将得到的多个Z矩阵进行拼接。Transformer里面是使用了8组不同的 $W^{Q},W^{K},W^{V}$

从上图中可以看到，在经过Multi-Head Attention得到矩阵Z之后，并没有直接传入全连接神经网络FNN，而是经过了一步：Add＆Normalize。

Add＆Normalize：

Add

Add，就是在Z的基础上加了一个残差块X，加入残差块X的目的是为了防止在深度神经网络训练中发生退化问题，退化的意思就是深度神经网络通过增加网络的层数，Loss逐渐减小，然后趋于稳定达到饱和，然后再继续增加网络层数，Loss反而增大。

Normalize

为什么要进行Normalize呢？
在神经网络进行训练之前，都需要对于输入数据进行Normalize归一化，目的有二：1，能够加快训练的速度。2.提高训练的稳定性。

为什么使用Layer Normalization（LN）而不使用Batch Normalization（BN）呢？

先看图，LN是在同一个样本中不同神经元之间进行归一化，而BN是在同一个batch中不同样本之间的同一位置的神经元之间进行归一化。
BN是对于相同的维度进行归一化，但是咱们NLP中输入的都是词向量，一个300维的词向量，单独去分析它的每一维是没有意义地，在每一维上进行归一化也是适合地，因此这里选用的是LN。

Feed-Forward Networks

全连接层公式如下：

FFN(x)=max(0,xW1+b1)W2+b2

这里的全连接层是一个两层的神经网络，先线性变换，然后ReLU非线性，再线性变换。
这里的x就是我们Multi-Head Attention的输出Z，还是引用上面的例子，那么Z是(2,64)维的矩阵，假设W1是(64,1024)，其中W2与W1维度相反(1024,64)，那么按照上面的公式：
FFN(Z)=(2,64)x(64,1024)x(1024,64)=(2,64)，我们发现维度没有发生变化，这两层网络就是为了将输入的Z映射到更加高维的空间中(2,64)x(64,1024)=(2,1024)，然后通过非线性函数ReLU进行筛选，筛选完后再变回原来的维度。

然后经过Add＆Normalize，输入下一个encoder中，经过6个encoder后输入到decoder中，至此Transformer的Encoder部分就全部介绍完了，搞懂了Encoder那么Decoder就so easy啦，基本上结构和Encoder差不多，接下来咱们就进入Decoder部分吧~

1.4 Transformer的Decoder

看上图第3部分 Decoder block。Decoder block也是由6个decoder堆叠而成，Nx=6。上图3中的灰框部分就是一个decoder的内部结构，从图中我们可以看出一个decoder由Masked Multi-Head Attention，Multi-Head Attention 和全连接神经网络FNN构成。比Encoder多了一个Masked Multi-Head Attention，其他的结构与encoder相同，那么咱们就先来看看这个Masked Multi-Head Attention。

Transformer Decoder的输入

Decoder的输入分为两类：
一种是训练时的输入，一种是预测时的输入。
训练时的输入就是已经对准备好对应的target数据。例如翻译任务，Encoder输入"Tom chase Jerry"，Decoder输入"汤姆追逐杰瑞"。
预测时的输入，一开始输入的是起始符，然后每次输入是上一时刻Transformer的输出。例如，输入""，输出"汤姆"，输入"汤姆"，输出"汤姆追逐"，输入"汤姆追逐"，输出"汤姆追逐杰瑞"，输入"汤姆追逐杰瑞"，输出"汤姆追逐杰瑞"结束。

Masked Multi-Head Attention

与Encoder的Multi-Head Attention计算原理一样，只是多加了一个mask码。mask 表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask，分别是 padding mask 和 sequence mask。为什么需要添加这两种mask码呢？

1.padding mask
什么是 padding mask 呢？因为每个批次输入序列长度是不一样的也就是说，我们要对输入序列进行对齐。具体来说，就是给在较短的序列后面填充 0。但是如果输入的序列太长，则是截取左边的内容，把多余的直接舍弃。因为这些填充的位置，其实是没什么意义的，所以我们的attention机制不应该把注意力放在这些位置上，所以我们需要进行一些处理。
具体的做法是，把这些位置的值加上一个非常大的负数(负无穷)，这样的话，经过 softmax，这些位置的概率就会接近0！

2.sequence mask
sequence mask 是为了使得 decoder 不能看见未来的信息。对于一个序列，在 time_step 为 t 的时刻，我们的解码输出应该只能依赖于 t 时刻之前的输出，而不能依赖 t 之后的输出。因此我们需要想一个办法，把 t 之后的信息给隐藏起来。这在训练的时候有效，因为训练的时候每次我们是将target数据完整输入进decoder中地，预测时不需要，预测的时候我们只能得到前一时刻预测出的输出。

在Encoder中的Multi-Head Attention也是需要进行mask地，只不过Encoder中只需要padding mask即可，而Decoder中需要padding mask和sequence mask。
那么具体怎么做呢？也很简单：产生一个上三角矩阵，上三角的值全为0。把这个矩阵作用在每一个序列上，就可以达到我们的目的。

Add＆Normalize也与Encoder中一样，接下来就到了Decoder中第二个Multi-Head Attention，这个Multi-Head Attention又与Encoder中有一点点不一样。

基于Encoder-Decoder 的Multi-Head Attention

Encoder中的Multi-Head Attention是基于Self-Attention地，Decoder中的第二个Multi-Head Attention就只是基于Attention，它的输入Query来自于Masked Multi-Head Attention的输出，Keys和Values来自于Encoder中最后一层的输出。

第一个Masked Multi-Head Attention是为了得到之前已经预测输出的信息，相当于记录当前时刻的输入之间的信息的意思。第二个Multi-Head Attention是为了通过当前输入的信息得到下一时刻的信息，也就是输出的信息，是为了表示当前的输入与经过encoder提取过的特征向量之间的关系来预测输出。

经过了第二个Multi-Head Attention之后的Feed Forward Network与Encoder中一样，然后就是输出进入下一个decoder，如此经过6层decoder之后到达最后的输出层。

1.5 Transformer的输出

Output如图中所示，首先经过一次线性变换，然后Softmax得到输出的概率分布，然后通过词典，输出概率最大的对应的单词作为我们的预测输出。

1.6 Transformer优缺点

Transformer虽然好，但它也不是万能地，还是存在着一些不足之处，接下来就来介绍一下它的优缺点：
优点：
1.效果好
2.可以并行训练，速度快
3.很好地解决了长距离依赖的问题
缺点：
1.完全基于self-attention，对于词语位置之间的信息有一定的丢失，虽然加入了positional encoding来解决这个问题，但也还存在着可以优化的地方。

Transformer是非常有潜力的模型，在Transformer基础上后来又衍生出来了BERT和GPT这两个NLP神器，而且依旧还存在着许多可以优化的地方。

原文链接：https://blog.csdn.net/Tink1995/article/details/105080033