Transformer学习笔记（一）

一、预训练

1、图像领域的预训练

通过 ImageNet 数据集我们训练出一个模型 A
由于 CNN 的浅层学到的特征通用性特别强，我们可以对模型 A 做出一部分改进得到模型 B（两种方法）：
1. 冻结：浅层参数使用模型 A 的参数，高层参数随机初始化，浅层参数一直不变，然后利用领导给出的 30 张图片训练参数
2. 微调：浅层参数使用模型 A 的参数，高层参数随机初始化，然后利用领导给出的 30 张图片训练参数，但是在这里浅层参数会随着任务的训练不断发生变化

2、预训练的思想

对于一个具有少量数据的任务 A，首先通过一个现有的大量数据搭建一个 CNN 模型 A，由于 CNN的浅层学到的特征通用性特别强，因此在搭建一个 CNN 模型 B，其中模型 B 的浅层参数使用模型 A 的浅层参数，模型 B 的高层参数随机初始化，然后通过冻结或微调的方式利用任务 A 的数据训练模型 B，模型 B 就是对应任务 A 的模型。

二、语言模型

1、统计语言模型

统计语言模型的基本思想就是计算条件概率，公式如下：

2、神经网络语言模型

神经网络语言模型则引入神经网络架构来估计单词的分布，并且通过词向量的距离衡量单词之间的相似度，因此，对于未登录单词，也可以通过相似词进行估计，进而避免出现数据稀疏问题。

三、词向量

1、one-hot编码

把单词用向量表示，是把深度神经网络语言模型引入自然语言处理领域的一个核心技术

缺点：对于独热表示的向量，如果采用余弦相似度计算向量间的相似度，可以明显的发现任意两者向量的相似度结果都为 0，即任意二者都不相关，也就是说独热表示无法解决词之间的相似性问题。

2、word embedding

由于独热表示无法解决词之间相似性问题，这种表示很快就被词向量表示给替代了，这个时候在神经网络语言模型中出现的一个词向量 C(wi)，对的，这个 C(wi) 其实就是单词对应的 Word Embedding 值，也就是词向量。

上图所示有一个 V×m 的矩阵 Q，这个矩阵 Q包含 V 行，V 代表词典大小，每一行的内容代表对应单词的 Word Embedding 值。

只不过 Q的内容也是网络参数，需要学习获得，训练刚开始用随机值初始化矩阵 Q，当这个网络训练好之后，矩阵 Q 的内容被正确赋值，每一行代表一个单词对应的 Word embedding 值。

四、word2vec模型

Word2Vec 有两种训练方法：

第一种叫 CBOW，核心思想是从一个句子里面把一个词抠掉，用这个词的上文和下文去预测被抠掉的这个词；
第二种叫做 Skip-gram，和 CBOW 正好反过来，输入某个单词，要求网络预测它的上下文单词。

Word2Vec 和 NNLM 不一样，NNLM 的主要任务是要学习一个解决语言模型任务的网络结构，语言模型就是要看到上文预测下文，而 Word Embedding只是 NNLM 无心插柳的一个副产品；但是 Word2Vec 目标不一样，它单纯就是要 Word Embedding 的，这是主产品，所以它完全可以随性地这么去训练网络。

五、自然语言处理的预训练模型

1、

那个Word Embedding矩阵Q其实就是网络 Onehot 层到 embedding 层映射的网络参数矩阵。

使用 Word Embedding 等价于把 Onehot 层到 embedding 层的网络用预训练好的参数矩阵 Q 初始化了。这跟前面讲的图像领域的低层预训练过程其实是一样的，区别无非 Word Embedding 只能初始化第一层网络参数，再高层的参数就无能为力了。

六、RNN和LSTM

1、RNN

传统的神经网络无法获取时序信息，然而时序信息在自然语言处理任务中非常重要

RNN 解决了时序依赖问题，但这里的时序一般指的是短距离的，首先我们先介绍下短距离依赖和长距离依赖的区别：

短距离依赖：对于这个填空题 “我想看一场篮球____”，我们很容易就判断出 “篮球” 后面跟的是 “比赛”，这种短距离依赖问题非常适合 RNN。
长距离依赖：对于这个填空题 “我出生在中国的瓷都景德镇，小学和中学离家都很近，……，我的母语是____”，对于短距离依赖，“我的母语是” 后面可以紧跟着 “汉语”、“英语”、“法语”，但是如果我们想精确答案，则必须回到上文中很长距离之前的表述 “我出生在中国的瓷都景德镇”，进而判断答案为 “汉语”，而 RNN 是很难学习到这些信息的。

2、RNN的梯度消失问题

如果 W的主特征值小于 1，梯度便会消失；如果 W的特征值大于 1，梯度便会爆炸。

3、LSTM

4、LSTM解决RNN梯度消失问题

LSTM 遗忘门值 f可以选择在 [0,1] 之间，让 LSTM 来改善梯度消失的情况。也可以选择接近 1，让遗忘门饱和，此时远距离信息梯度不消失；也可以选择接近 0，此时模型是故意阻断梯度流，遗忘之前信息。

另外需要强调的是LSTM搞的这么复杂，除了在结构上天然地克服了梯度消失的问题，更重要的是具有更多的参数来控制模型；通过四倍于RNN的参数量，可以更加精细地预测时间序列变量。

七、ELMo模型（网络结构采用了双层双向 LSTM）

1、ELMo的预训练

word embedding无法解决一词多义问题

ELMo 的本质思想是：我事先用语言模型学好一个单词的 Word Embedding，此时多义词无法区分，不过这没关系。在我实际使用 Word Embedding 的时候，单词已经具备了特定的上下文了，这个时候我可以根据上下文单词的语义再去调整单词的 Word Embedding 表示，这样经过调整后的 Word Embedding 更能表达在这个上下文中的具体含义，自然也就解决了多义词的问题了。所以 ELMo 本身是个根据当前上下文对 Word Embedding 动态调整的思路。

图中左端的前向双层 LSTM 代表正方向编码器，输入的是从左到右顺序的除了预测单词外 Wi 的上文 Context-before；右端的逆向双层 LSTM 代表反方向编码器，输入的是从右到左的逆序的句子下文Context-after；每个编码器的深度都是两层 LSTM 叠加。

也就是说，ELMo 的预训练过程不仅仅学会单词的 Word Embedding，还学会了一个双层双向的 LSTM 网络结构

2、ELMo的feature-base Pre-training

上图展示了下游任务的使用过程，比如我们的下游任务仍然是 QA 问题，此时对于问句 X：

我们可以先将句子 X 作为预训练好的 ELMo 网络的输入，这样句子 X 中每个单词在 ELMO 网络中都能获得对应的三个 Embedding；
之后给予这三个 Embedding 中的每一个 Embedding 一个权重 a，这个权重可以学习得来，根据各自权重累加求和，将三个 Embedding 整合成一个；
然后将整合后的这个 Embedding 作为 X 句在自己任务的那个网络结构中对应单词的输入，以此作为补充的新特征给下游任务使用。
对于上图所示下游任务 QA 中的回答句子 Y 来说也是如此处理。

至于为何这么做能够达到区分多义词的效果，原因在于在训练好 ELMo 后，在特征提取的时候，每个单词在两层 LSTM 上都会有对应的节点，这两个节点会编码单词的一些句法特征和语义特征，并且它们的 Embedding 编码是动态改变的，会受到上下文单词的影响，周围单词的上下文不同应该会强化某种语义，弱化其它语义，进而就解决了多义词的问题。

八、Attention

1、人类的视觉注意力

深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。

2、Attention的本质思想

虽然 LSTM 解决了序列长距离依赖问题，但是单词超过 200 的时候就会失效。Attention 机制可以更加好的解决序列长距离依赖问题，并且具有并行计算能力。

注意力模型从大量信息 Values 中筛选出少量重要信息，这些重要信息一定是相对于另外一个信息 Query 而言是重要的，我们要搭建一个注意力模型，我们必须得要有一个 Query 和一个 Values，然后通过 Query 这个信息从 Values 中筛选出重要信息。就是计算 Query 和 Values 中每个信息的相关程度。

3、Self Attention

每一个单词对应每一个单词都会有一个权重，这也是 Self Attention 名字的来源，即 Attention 的计算来源于 Source（源句）和 Source 本身，通俗点讲就是 Q、K、V 都来源于输入 X 本身。

4、Self Attention和RNN、LSTM的区别

RNN、LSTM：如果是 RNN 或者 LSTM，需要依次序列计算，对于远距离的相互依赖的特征，要经过若干时间步步骤的信息累积才能将两者联系起来，而距离越远，有效捕获的可能性越小。
Self Attention：
- 引入 Self Attention 后会更容易捕获句子中长距离的相互依赖的特征，因为 Self Attention 在计算过程中会直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来，所以远距离依赖特征之间的距离被极大缩短，有利于有效地利用这些特征；
- 除此之外，Self
  Attention 对于一句话中的每个单词都可以单独的进行 Attention 值的计算，也就是说 Self Attention 对计算的并行性也有直接帮助作用，而对于必须得依次序列计算的 RNN 而言，是无法做到并行计算的。

特点：无论句子序列多长，都可以充分捕获近距离上往下问中的任何依赖关系，进而可以很好的提取句法特征还可以提取语义特征；而且对于一个句子而言，每个单词的计算是可以并行处理的。

理论上 Self-Attention （Transformer 50 个左右的单词效果最好）解决了 RNN 模型的长序列依赖问题，但是由于文本长度增加时，训练时间也将会呈指数增长，因此在处理长文本任务时可能不一定比 LSTM（200 个左右的单词效果最好）等传统的 RNN 模型的效果好。

5、Masked Self Attention模型

而 mask 就是沿着对角线把灰色的区域用0覆盖掉，不给模型看到未来的信息

6、Muti-head Self Attention

Multi-Head Attention 就是把 Self Attention 得到的注意力值 Z切分成 n 个 Z1,Z2,⋯,Zn,⋯，然后通过全连接层获得新的 Z′.

优点：多头相当于把原始信息 Source 放入了多个子空间中，也就是捕捉了多个信息，对于使用 multi-head（多头） attention 的简单回答就是，多头保证了 attention 可以注意到不同子空间的信息，捕捉到更加丰富的特征信息。

九、Positon Embedding

1、在 Attention 和 RNN、LSTM 的对比中，我们说到 Attention 解决了长距离依赖问题，并且可以支持并行化，但是丢掉了输入X的序列顺序信息

位置编码公式：

有了位置编码，我们再来看看位置编码是如何嵌入单词编码的（其中 512 表示编码维度），通过把单词的词向量和位置向量进行叠加，这种方式就称作位置嵌入，如下图所示：

总而言之就是，某个单词的位置信息是其他单词位置信息的线性组合，这种线性组合就意味着位置向量中蕴含了相对位置信息。

十、Transformer

1、Transformer的结构

Transformer 也是一个 Seq2Seq 模型（Encoder-Decoder 框架的模型），左边一个 Encoders 把输入读进去，右边一个 Decoders 得到输出，如下所示：

第一眼看到上述的 Encodes-Decoders 框架图，随之产生问题就是 Transformer 中左边 Encoders 的输出是怎么和右边 Decoders 结合的。因为decoders 里面是有N层的，再画张图直观的看就是这样：

也就是说，Encoders 的输出，会和每一层的 Decoder 进行结合。

其中一层：

2、Encoder

3、Decoder

Decoders 也是 N=6 层，通过上图我们可以看到每层 Decoder 包括 3 个 sub-layers：

第一个 sub-layer 是 Masked multi-head self-attention，也是计算输入的 self-attention；
- 在这里，先不解释为什么要做 Masked，后面在 “Transformer 动态流程展示” 这一小节会解释
第二个 sub-layer 是 Encoder-Decoder Attention 计算，对 Encoder 的输入和 Decoder 的Masked multi-head self-attention 的输出进行 attention 计算；
- 在这里，同样不解释为什么要对 Encoder 和 Decoder 的输出一同做 attention 计算，后面在 “Transformer 动态流程展示” 这一小节会解释
第三个 sub-layer 是前馈神经网络层，与 Encoder 相同。

4、Transformer输出结果

从上图可以看出，Transformer 最后的工作是让解码器的输出通过线性层 Linear 后接上一个 softmax

其中线性层是一个简单的全连接神经网络，它将解码器产生的向量 A 投影到一个更高维度的向量 B 上，假设我们模型的词汇表是10000个词，那么向量 B 就有10000个维度，每个维度对应一个惟一的词的得分。
之后的softmax层将这些分数转换为概率。选择概率最大的维度，并对应地生成与之关联的单词作为此时间步的输出就是最终的输出。

十一、Transformer流程

1、为什么Decoder要做Mask

训练阶段：我们知道 “je suis etudiant” 的翻译结果为 “I am a student”，我们把 “I am a student” 的 Embedding 输入到 Decoders 里面，翻译第一个词 “I” 时
- 如果对 “I am a student” attention 计算不做 mask，“am，a，student” 对 “I” 的翻译将会有一定的贡献
- 如果对 “I am a student” attention 计算做 mask，“am，a，student” 对 “I” 的翻译将没有贡献
测试阶段：我们不知道 “我爱中国” 的翻译结果为 “I love China”，我们只能随机初始化一个 Embedding 输入到 Decoders 里面，翻译第一个词 “I” 时：
- 无论是否做 mask，“love，China” 对 “I” 的翻译都不会产生贡献
- 但是翻译了第一个词 “I” 后，随机初始化的 Embedding 有了 “I” 的 Embedding，也就是说在翻译第二词 “love” 的时候，“I” 的 Embedding 将有一定的贡献，但是 “China” 对 “love” 的翻译毫无贡献，随之翻译的进行，已经翻译的结果将会对下一个要翻译的词都会有一定的贡献，这就和做了 mask 的训练阶段做到了一种匹配

总结下就是：Decoder 做 Mask，是为了让训练阶段和测试阶段行为一致，不会出现间隙，避免过拟合

2、为什么Encoder给予Decoder的是K、V矩阵