现代 NLP：详细概述，第 1 部分：transformer

一、说明

近五年来，随着 BERT 和 GPT 等思想的引入，我们在自然语言处理领域取得了巨大的成就。在本文中，我们的目标是逐步深入研究改进的细节，并了解它们带来的演变。

二、关注就是你所需要的

2017 年，来自 Google Brains 的 Ashish Vaswani 与多伦多大学的同事一起提出了一种用于序列到序列任务（例如神经语言翻译和释义）的想法，该想法不同于现有的按时间步长的单字方法由 LSTM 和 RNN 实现。

检测到的 RNN 现有架构存在的问题是：

由于我们一次添加一个单词，在长序列的情况下，很难保留信息。在使用 RNN 和 LSTM 的编码器-解码器结构模型中，隐藏向量从一个时间戳传递到另一个时间戳。然后，在最后一步中，我们将最终的上下文向量传递给解码器。与序列的前几个单词相比，传递给解码器的隐藏上下文向量对最后几个单词的影响更大，因为信息会随着时间的推移而消失。
为了解决第一点提到的问题，引入了注意力机制。这表明在解码时，我们单独关注输入序列中的单词。输入序列中的每个单词都会获得一个特定的注意力权重向量，然后将该向量乘以单词向量以创建向量的加权和。但问题是，由于我们一次一步地执行此操作，计算时间太长，而且也没有完全消除信息丢失。

2.1 想法

变形金刚建议使用一种称为自注意力的概念。该模型将一次接收整个句子，然后使用自注意力来决定句子中其他单词在当前单词上下文中的重要性。因此，与常设循环架构相比，它具有以下优点：

在检测权重时，我们已经拥有了所有单词，因此不存在信息丢失的可能性，而且我们从双方都获得了上下文。也就是说，我们了解所选单词之前的单词和后面的单词，这有助于形成更好的上下文，而不是循环结构（Bi-LSTM 的情况除外）。
由于我们可以获得完整的句子，并且我们需要找到句子中每个单词的所有其他单词的重要性，因此我们可以对所有单词并行执行此操作。这节省了大量的处理时间并充分利用处理能力。

2.2 自注意力：构建块

自注意力机制试图找出其他单词对于特定单词的重要性，然后创建一个组合的上下文向量来表示该单词。基本上，这意味着，如果你在句子中选择一个单词，它与句子中其他单词的相关程度有多少？众所周知，单词定义了句子的上下文，而单词的含义往往取决于上下文。这是一种找出句子上下文和相关单词的方法。

单词及其与其他单词的对应重要性

为了实现这一点，它对句子中的每个输入单词嵌入 (xi) 使用三个向量，即查询 (Qi)、键 (Ki) 和值 (Vi)。根据论文，嵌入向量 x 的长度建议为 512。为了获得这些向量，首先定义三个权重矩阵：Wq、Wv 和 Wk。我们将每个输入词向量 Xi 与相应的权重矩阵相乘，以获得给定词的键、查询和值向量。

Qi = Xi * Wq

Vi = Xi * Wv

Ki = Xi * Wk

为了找出单词 xi 在单词 xj 的上下文中的重要性，我们需要找到单词 xi 对应的关键向量 Ki 与单词 xj 的查询向量 Qj 的标量点积。然后点积结果除以向量 Ki 维度的平方根，即 8，因为论文中给出的 k 维度为 64。正如论文所建议的，如果我们不除法，点积值就会太大，这会导致 softmax 值变得太陡，从而产生不利于平滑学习的不良梯度。

向量计算：其中Xi是输入词的嵌入，W是权重矩阵。

一旦我们找出了给定单词的所有单词的重要性，我们就对所有单词的结果使用 softmax。softmax 提供了所有单个单词的最终重要性，使得它们的总和为 1。接下来是单词的值 Vi 向量，我们将向量 Vi 与其相应的重要性相乘。直觉是创建单词表示的值向量，而重要性因素则为主题词的上下文赋予权重。如果一个单词与上下文单词没有关系，它的重要性值将非常非常低，因此最终的乘积向量将非常低，我们可以忽略它对任务的重要性。最后，我们取所有这些加权值向量的总和来创建该特定单词的最终上下文向量，该向量是我们从注意力块接收到的。

一个词的注意力计算

2.3 多头注意力

我们已经看到了注意力如何工作并为每个单词产生上下文向量。本文的作者使用了多头注意力，以获得无偏的复合上下文向量。他们使用了8个这样的注意力头，为一个单词提供了8个不同的上下文向量。这个想法是，因为每个内部重量矩阵（即WQ，WV和WK）都是随机初始化的，因此每个头部初始化点的变化可能有助于捕获上下文向量中的一系列不同特征。

最后，对于每个单词，我们都有8个上下文向量，我们将它们串联在一起以获取给定单词的代表性上下文向量。

所有关注的头脑都聚在一起

2.4 自我发挥的障碍：将所有这些结合在一起

到目前为止，我们讨论过的任何内容都是基于句子中的一个特定单词，但是我们确实需要考虑句子中的所有单词并使系统平行。

本文建议我们使用长度512的嵌入来表示句子中的每个单词。现在，我们已经知道，对于NLP任务，我们通常需要使用零盖来均衡句子长度。接下来，我们彼此堆叠所有512维词向量，并且由于句子中有固定的单词，我们会得到一个固定的维度2D向量来表示整个句子，这是通过整个注意力发送的。机制。

整体工作

一旦我们获得了所有单词的组合上下文向量，它就会乘以另一个权重矩阵，该矩阵集中学习并降低向量的维度。

三、变压器：体系结构

变压器架构

变压器还遵循标准编码器架构体系结构。为了简单，更好的学习，单词向量和层的输出的维度都保持在512。模型的学习是以自动回归的方式完成的，即，单词是一个一个人生成的，对于（t+1）单词的预测，我们将t字的输出附加到输入中，然后将其馈送到模型。

编码器：作者使用了带有2个子层的模块。第一层包含多头注意，我们在上面已经讨论过，第二个子层是完全连接的进料层。前馈层由2个连接的正常神经网络层组成。进料前层的输入和输出为尺寸512，但内部维度为2048，即，内部层中的节点数为2048。完全连接的图层使用Relu激活。作者还使用了加法和归一化层来平滑学习，并避免了我们在几个NLP和计算机视觉案例中看到的信息丢失。

因此，方程变为

output = norm（x + f（x）），其中x是输入，f（）是层的转换，可以是前馈或注意块。

编码器块中有6个这样的模块。

解码器：这与编码器块非常相似。这也有 6 个模块和类似的架构。唯一的区别是，除了已经存在的 2 个子层之外，解码器块还引入了第三个子层，这也是一个注意层，但输入被屏蔽，因此模型无法使用第 (t+1) 个时间戳单词作为输入，同时预测第 t 个单词。没有掩码的多头注意力子层从相应层的编码器获取值。因此，该层接收来自前一个解码器层和相应编码器层的输入。