机器学习课程学习周报七

文章目录

机器学习课程学习周报七
- 摘要
- Abstract
- 一、机器学习部分
- - 1.1 Transformer模型概述
  - 1.2 Transformer编码器
  - 1.3 Transformer解码器
  - - 1.3.1 自回归解码器
    - 1.3.2 非自回归解码器
  - 1.4 编码器-解码器注意力
  - 1.5 Transformer的训练过程
- 总结

摘要

本周的学习重点是Transformer模型，涵盖了其编码器和解码器的结构与功能。我详细探讨了自注意力机制、多头自注意力、残差连接、层归一化等核心概念。此外，还比较了自回归和非自回归解码器的优缺点，以及编码器-解码器注意力在信息传递中的作用。通过这些学习，我对Transformer在序列到序列任务中的应用有了更深入的理解。

Abstract

This week’s study focuses on the Transformer model, exploring the structure and functionality of its encoder and decoder. I delved into essential concepts such as self-attention mechanism, multi-head self-attention, residual connections, and layer normalization. Additionally, I compared the advantages and disadvantages of autoregressive and non-autoregressive decoders, and examined the role of encoder-decoder attention in information transfer. Through this study, I gained a deeper understanding of the Transformer’s application in sequence-to-sequence tasks.

一、机器学习部分

1.1 Transformer模型概述

在这里插入图片描述

一般的序列到序列模型会分成编码器（Encoder）和解码器（Decoder），编码器负责处理输入的序列，再把处理好的结果“丢”给解码器，由解码器决定要输出的序列。

1.2 Transformer编码器

在这里插入图片描述

如上图，编码器输入一排向量，输出另外一排向量。自注意力、循环神经网络、卷积神经网络都能输入一排向量，输出一排向量。Transformer的编码器使用的是自注意力，输入一排向量，输出另外一个同样长度的向量。下图左侧所示，编码器里面会分成很多的块（block），每一个块都是输入一排向量，输出一排向量。输入一排向量到第一个块，第一个块输出另外一排向量，以此类推，最后一个块会输出最终的向量序列。

在这里插入图片描述

Transformer编码器中的每个块并不是神经网络的一层，如上图右侧所示，在每个块里面，输入一排向量后做自注意力，考虑整个序列的信息，输出另外一排向量。接下来这排向量会“丢”到全连接网络网络里面，输出另外一排向量，这一排向量就是块的输出。

实际上在块中，操作更复杂。Transformer里面加入了残差连接（residual connection）的设计，如下图所示，

在这里插入图片描述

最左边的向量 $b$ 输入到自注意力层后得到向量 $a$ ，输出向量 $a$ 加上其输入向量 $b$ 得到新的输出。然后将得到的结果，做层归一化（layer normalization），层归一化会计算输入向量的平均值和标准差，具体归一化的计算公式如下：

${x'_i} = \frac{{{x_i} - m}}{\sigma }$

层归一化是对同一个特征、同一个样本里面不同的维度去计算均值跟标准差，接着做个归一化。而批量归一化（batch normalization）是对不同样本、不同特征的同一个维度去计算均值跟标准差。

现在回看Transformer的编码器结构，其中 $\times$ 表示重复 $N$ 次。首先，在输入的地方需要加上位置编码。如果只用自注意力，没有未知的信息，所以需要加上位置信息。多头自注意力就是自注意力的块。经过自注意力后，还要加上残差连接和层归一化。接下来还要经过全连接的前馈神经网络，接着再做一次残差连接和层归一化，这才是一个块的输出，这个块会重复 $N$ 次。原始的Transformer架构其实并不是一个最优的设计，可以有优化的空间。

1.3 Transformer解码器

解码器比较常见的称为自回归的（autoregressive）解码器，也有非自回归（non-autoregressive）解码器。

1.3.1 自回归解码器

以语音识别为例，把一段声音（“机器学习”）输入给编码器，输出会变成一排向量。接下来解码器产生语音识别的结果，解码器把编码器的输出先“读”进去。要让解码器产生输出，首先要先给它一个代表开始的特殊符号 $< BOS >$ ，即 Begin Of Sequence，这是一个特殊的词元（token），每一个词元都可以用一个独热向量来表示，其中一维是1，其他都是0。接下来解码器会将输出做一个softmax操作，得到的向量里面的分数是一个分布，该向量里面的值全部加起来，总和是 1。这个向量会给每一个中文字一个分，分数最高的中文字就是最终的输出。“机” 的分数最高，所以“机”就当做是解码器的第一个输出。

在这里插入图片描述

接下来把“机”当成解码器新的输入。根据两个输入：特殊符号 $< BOS >$ 和“机”，输出一个向量，假设“器” 的分数最高，“器”就是输出。解码器接下来会拿“器”当作输入，其看到了 $< BOS >$ 、“机”、“器”，可能就输出“学”。解码器看到 $< BOS >$ 、“机”、“器”、“学”，它会输出一个向量。这个向量里面“习” 的分数最高的，所以它就输出“习”。这个过程就反复地持续下去。

在这里插入图片描述

解码器的输入是它在前一个时间点的输出，其会把自己的输出当做接下来的输入，因此当解码器在产生一个句子的时候，它有可能看到错误的东西。如果解码器有语音识别的错误，它把机器的“器”识别错成天气的“气”，接下来解码器会根据错误的识别结果产生它想要产生的期待是正确的输出，这会造成误差传播（error propagation）的问题，一步错导致步步错，接下来可能无法再产生正确的词汇。

在这里插入图片描述

比较编码器和解码器的结构，我们可以发现其结构非常相似，在第1部分中，解码器使用了掩蔽自注意力（masked self-attention），掩蔽自注意力可以通过一个掩码（mask）来阻止每个位置选择其后面的输入信息。下图是原来的自注意力机制，输出要考虑完整的输入才能计算出结果，根据 ${a^1}$ 到 ${a^4}$ 所有的信息去输出 ${b^1}$ 。

在这里插入图片描述

如下图所示，掩蔽自注意力的不同点是不能再看右边的部分，产生 ${b^1}$ 时，只能考虑 ${a^1}$ 的信息；产生 ${b^2}$ 时，只能考虑 ${a^1}$ 和 ${a^2}$ 的信息；产生 ${b^3}$ 时，不能考虑 ${a^4}$ 的信息；产生 ${b^4}$ 的时候，可以用整个输入序列的信息。

为什么需要在注意力中加掩码?

一开始解码器的输出是一个一个产生的，所以是先有 ${a^1}$ 再有 ${a^2}$ ，再有 ${a^3}$ ，再有 ${a^4}$ 。这跟原来的自注意力不一样，原来的自注意力 ${a^1}$ 跟 ${a^4}$ 是一次整个输进去模型里面的。编码器是一次把 ${a^1}$ 跟 ${a^4}$ 都整个都读进去。但是对解码器而言，先有 ${a^1}$ 才有 ${a^2}$ ，然后才有 ${a^3}$ 和 ${a^4}$ 。

在这里插入图片描述

实际应用中输入跟输出长度的关系是非常复杂的，我们无法从输入序列的长度知道输出序列的长度，因此解码器必须决定输出的序列的长度。给定一个输入序列，机器可以自己学到输出序列的长度。所以需要特别准备一个特别的符号 $< EOS >$ 。产生完 “习”以后，再把“习”当作解码器的输入以后，解码器就要能够输出 $< EOS >$ ，解码器看到编码器输出的嵌入、 $< EOS >$ 、“机”、“器”、“学”、“习”以后，其产生出来的向量里面 $< EOS >$ 的概率必须是最大的，于是输出 $< EOS >$ ，整个解码器产生序列的过程就结束了。

1.3.2 非自回归解码器

在这里插入图片描述

自回归的模型是先输入 $< BOS >$ ，输出 ${w_1}$ ，再把 ${w_1}$ 当做输入，再输出 ${w_2}$ ，直到输出 $< EOS >$ 为止。非自回归的解码器输入的是一整排的词元，一次产生产生一排词元。比如输入4 个 $< BOS >$ 的词元到非自回归的解码器，它就产生4个中文的字。因为输出的长度是未知的，所以当做非自回归解码器输入的 $< BOS >$ 的数量也是未知的，一般有两种做法解决这个问题。

用分类器来解决这个问题。用分类器“吃”编码器的输入，输出是一个数字，该数字代表解码器应该要输出的长度。比如分类器输出4，非自回归的解码器就会“吃”4 个 $< BOS >$ 的词元，产生 4 个中文的字。
给编码器一堆 $< BOS >$ 的词元。假设输出的句子的长度有上限，绝对不会超过 300 个字。给编码器 300 个 $< BOS >$ ，就会输出 300 个字，输出 $< EOS >$ 右边的的输出就当它没有输出。

非自回归的解码器有很多优点。第一个优点是平行化。自回归的解码器输出句子的时候是一个一个字产生的，假设要输出长度一百个字的句子，就需要做一百次的解码。但是非自回归的解码器不管句子的长度如何，都是一个步骤就产生出完整的句子。所以非自回归的解码器会跑得比自回归的解码器要快。

另外一个优点是非自回归的解码器比较能够控制它输出的长度。在语音合成里面，非自回归解码器算是非常常用的。非自回归的解码器可以控制输出的长度，可以用一个分类器决定非自回归的解码器应该输出的长度。在做语音合成的时候，如果想要让系统讲快一点，就把分类器的输出除以 2，系统讲话速度就变 2 倍快。如果想要讲话放慢速度，就把分类器输出的长度乘 2 倍，解码器说话的速度就变 2 倍慢。

平行化是非自回归解码器最大的优势，但非自回归的解码器的性能往往都不如自回归的解码器。所以很多研究试图让非自回归的解码器的性能越来越好，去逼近自回归的解码器。要让非自回归的解码器跟自回归的解码器性能一样好，必须要使用非常多的技巧。

1.4 编码器-解码器注意力

编码器和解码器通过编码器-解码器注意力（encoder-decoder attention）传递信息，编码器-解码器注意力是连接编码器跟解码器之间的桥梁。

在这里插入图片描述

如下图，解码器中编码器-解码器注意力的键和值来自编码器的输出，查询来自解码器中前一个层的输出。具体做法为：编码器输入一排向量，输出一排向量 ${a^1}$ 、 ${a^2}$ 、 ${a^3}$ 。接下来解码器会输入一个 $< BOS >$ ，经过掩蔽自注意力得到一个向量。接下来把这个向量乘上一个矩阵，做一个变换（transform），得到一个查询 $q$ 。 ${a^1}$ 、 ${a^2}$ 、 ${a^3}$ 也都产生键： ${k^1}$ 、 ${k^2}$ 、 ${k^3}$ 。把 $q$ 跟 ${k^1}$ 、 ${k^2}$ 、 ${k^3}$ 去计算注意力的分数，得到 ${\alpha _1}$ 、 ${\alpha _2}$ 、 ${\alpha _3}$ ，接下来做softmax，得到了 ${{\alpha '}_1}$ 、 ${{\alpha '}_2}$ 、 ${{\alpha '}_3}$ ，然后按下式计算加权和 $v$ ，这个过程也称为Cross attention：

${{\alpha '}_1} \times {v^1} + {{\alpha '}_2} \times {v^2} + {{\alpha '}_3} \times {v^3}$

在这里插入图片描述

$v$ 接下来会“丢”给全连接网络，这个步骤中 $q$ 来自于解码器， $k$ 跟 $v$ 来自于编码器，该步骤就叫做编码器-解码器注意力，所以解码器就是凭借着产生一个 $q$ ，去编码器这边抽取信息出来，当做接下来的解码器的全连接网络的输入。

1.5 Transformer的训练过程

Transformer 应该要学到听到“机器学习”的声音信号，它的输出就是“机器学习”这四个中文字。把 $< BOS >$ 丢给编码器的时候，其第一个输出应该要跟“机”越接近越好。而解码器的输出是一个概率的分布，这个概率分布跟“机”的独热向量越接近越好。因此我们会去计算标准答案（Ground Truth）跟分布之间的交叉熵，希望该交叉熵的值越小越好。

在这里插入图片描述

在训练的时候，每一个输出跟其对应的正确答案都有一个交叉熵，因此希望这些交叉熵的总和越小越好。解码器输出的不是只有“机器学习”这四个中文字还要输出 $< EOS >$ ，所以解器的最终第五个位置输出的向量跟 $< EOS >$ 的独热向量的交叉熵越小越好。

在训练的时候，告诉解码器在已经有 $< BOS >$ 、“机”的情况下，要输出“器”，有 $< BOS >$ 、“机”、“器”的情况下输出“学”，有 $< BOS >$ 、“机”、“器”、“学”的情况下输出“习”，有 $< BOS >$ 、“机”、“器”、“学”、“习”的情况下，输出 $< EOS >$ 。在解码器训练的时候，在输入的时候给它正确的答案，这称为教师强制（teacher forcing）。