李宏毅深度学习-自注意力机制

输入是向量序列的情况

在图像识别的时候，假设输入的图像大小都是一样的。但如果问题变得复杂，如图6.2所示，输入是一组向量，并且输入的向量的数量是会改变的，即每次模型输入的序列长度都不一样，这个时候应该要怎么处理呢？我们通过具体的例子来讲解处理方法。

第一个例子是文字处理，假设网络的输入是一个句子，每一个句子的长度都不一样（每个句子里面词汇的数量都不一样）。如果把一个句子里面的每一个词汇都描述成一个向量，用向量来表示，模型的输入就是一个向量序列，而且该向量序列的大小每次都不一样（句子的长度不一样，向量序列的大小就不一样）。

将词汇表示成向量最简单的做法是独热编码，创建一个很长的向量，该向量的长度跟世
界上存在的词汇的数量是一样多的。假设英文是十万个词汇，创建一个十万维的向量，每一
个维度对应到一个词汇，如式(6.1)所示。但是这种表示方法有一个非常严重的问题，它假设
所有的词汇彼此之间都是没有关系的。cat 和 dog 都是动物，它们应该比较像；cat 是动物，
apple 是植物，它们应该比较不像。但从独热向量中不能看到这件事情，其里面没有任何语义
的信息。

除了独热编码，词嵌入（word embedding）也可将词汇表示成向量。词嵌入使用一个向量来表示一个词汇，而这个向量是包含语义信息的。如图6.3所示，如果把词嵌入画出来，所有的动物可能聚集成一团，所有的植物可能聚集成一团，所有的动词可能聚集成一团等等。词嵌入会给每一个词汇一个向量，而一个句子就是一组长度不一的向量。
在这里插入图片描述
接下来举一些把一个向量的序列当做输入的例子。如图6.4 所示，一段声音信号其实是一组向量。我们会把一段声音信号取一个范围，这个范围叫做一个窗口（window），把该窗口里面的信息描述成一个向量，这个向量称为一帧（frame）。通常这个窗口的长度就是25毫秒。为了要描述一整段的声音信号，我们会把这个窗口往右移一点，通常移动的大小是10毫秒。

Q：为什么窗口的长度是25毫秒，窗口移动的大小是10毫秒？
A：前人帮我们调好了。他们尝试了大量可能的值，这样得到的结果往往最理想。

总之，一段声音信号就是用一串向量来表示，而因为每一个窗口，他们往右移都是移动10 毫秒，所以一秒钟的声音信号有 100 个向量，所以一分钟的声音信号就有这个 100 乘以60，就有 6000 个向量。所以语音其实很复杂的。一小段的声音信号，它里面包含的信息量其实是非常可观的，所以声音信号也是一堆向量。

在这里插入图片描述
一个图（graph）也是一堆向量。社交网络是一个图，在社交网络上面每一个节点就是一个人。每一个节点可以看作是一个向量。每一个人的简介里面的信息（性别、年龄、工作等等）都可以用一个向量来表示。所以一个社交网络可以看做是一堆的向量所组成的。药物发现（drugdiscovery）跟图有关，如图 6.5 所示，一个分子也可以看作是一个图。如果把一个分子当做是模型的输入，每一个分子可以看作是一个图，**分子上面的每一个球就是一个原子，每个原子就是一个向量。每个原子可以用独热向量来表示，**比如氢、碳、氧的独热向量表示如式(6.2) 所示。

H=[1,0,0,0,0,…]
C=[0,1,0,0,0,…]
O=[0,0,1,0,0,…]

如果用独热向量来表示每一个原子，一个分子就是一个图，它就是一堆向量。

在这里插入图片描述

类型 1：输入与输出数量相同

模型的输入是一组向量，它可以是文字，可以是语音，可以是图。而输出有三种可能性，第一种可能性是每一个向量都有一个对应的标签。如图6.6所示，当模型看到输入是4个向量的时候，它就要输出4个标签。如果是回归问题，每个标签是一个数值。如果是分类问题，每个标签是一个类别。但是在类型1的问题里面，输入跟输出的长度是一样的。模型不需要去烦恼要输出多少的标签，输出多少的标量。反正输入是4个向量，输出就是4个标量。这是第一种类型。

什么样的应用会用到第一种类型的输出呢？举个例子，如图6.7所示，在文字处理上，假设我们要做的是词性标注（Part-Of-Speech tagging，POS tagging）。机器会自动决定每一个词汇的词性，判断该词是名词还是动词还是形容词等等。这个任务并不是很容易，举个例子，现在有一个句子：Isawasaw，这句话的意思是我看到一个锯子，第二个saw是名词锯子。所以机器要知道，第一个saw是个动词，第二个saw是名词，每一个输入的词汇都要有一个对应的输出的词性。这个任务就是输入跟输出的长度是一样的情况，属于第一个类型的输出。如果是语音，一段声音信号里面有一串向量。每一个向量都要决定它是哪一个音标。这不是真正的语音识别，这是一个语音识别的简化版。如果是社交网络，给定一个社交网络，模型要决定每一个节点有什么样的特性，比如某个人会不会买某个商品，这样我们才知道要不要推荐某个商品给他。以上就是举输入跟输出数量一样的例子，这是第一种可能的输出。
在这里插入图片描述

类型 2：输入是一个序列，输出是一个标签

第二种可能的输出如图6.8所示，整个序列只需要输出一个标签就好

举例而言，如图6.9 所示，输入是文字，比如情感分析。情感分析就是给机器看一段话，模型要决定说这段话是积极的（positive）还是消极的（negative）。情感分析很有应用价值，假设公司开发的一个产品上线了，想要知道网友的评价，但又不可能一则一则地分析网友的留言。而使用情感分析就可以让机器自动去判别当一则贴文里面提到某个产品的时候，它是积极的还是消极的，这样就可以知道产品在网友心中的评价。给定一整个句子，只需要一个标签（积极的或消极的）。如果是语音，机器听一段声音，再决定是谁讲的这个声音。如果是图，比如给定一个分子，预测该分子的亲水性。
在这里插入图片描述

类型 3：序列到序列

还有第3个可能的输出：我们不知道应该输出多少个标签，机器要自己决定输出多少个标签。如图6.10所示，输入是N 个向量，输出可能是N′个标签。N′是机器自己决定的。这种任务又叫做序列到序列的任务。翻译就是序列到序列的任务，因为输入输出是不同的语言，它们的词汇的数量本来就不会一样多。真正的语音识别输入一句话，输出一段文字，其实也是一个序列到序列的任务。

自注意力的运作原理

特点

我们就先只讲第一个类型：输入跟输出数量一样多的状况，以序列标注（sequencelabeling）为例。序列标注要给序列里面的每一个向量一个标签。要怎么解决序列标注的问题呢？直觉的想法就是使用全连接网络。如图6.11所示，虽然输入是一个序列，但可以不要管它是不是一个序列，各个击破，把每一个向量分别输入到全连接网络里面得到输出。这种做法有非常大的瑕疵，以词性标注为例，给机器一个句子：Isawasaw。对于全连接网络，这个句子中的两个saw 完全一模一样，它们是同一个词汇。既然全连接网络输入同一个词汇，它没有理由输出不同的东西。但实际上，我们期待第一个saw要输出动词，第二个saw要输出名词。但全连接网络无法做到这件事，因为这两个saw是一模一样的。有没有可能让全连接网络考虑更多的信息，比如上下文的信息呢？这是有可能的，如图6.12所示，把每个向量的前后几个向量都“串”起来，一起输入到全连接网络就可以了。
在这里插入图片描述

在语音识别里面，我们不是只看一帧判断这个帧属于哪一个音标，而是看该帧以及其前后5个帧（共11个帧）来决定它是哪一个音标。所以可以给全连接网络一整个窗口的信息，让它可以考虑一些上下文，即与该向量相邻的其他向量的信息。如图6.13所示。但是这种的方法还是有极限的，如果有某一个任务不是考虑一个窗口就可以解决的，而是要考虑一整个序列才能够解决，那要怎么办呢？有人可能会想说这个还不容易，把窗口开大一点啊，大到可以把整个序列盖住，就可以了。但是序列的长度是有长有短的，输入给模型的序列的长度，每次可能都不一样。如果要开一个窗口把整个序列盖住，可能要统计一下训练数据，看看训练数据里面最长序列的长度。接着开一个窗口比最长的序列还要长，才可能把整个序列盖住。但是开一个这么大的窗口，意味着全连接网络需要非常多的参数，可能不只运算量很大，还容易过拟合。如果想要更好地考虑整个输入序列的信息，就要用到自注意力模型。

自注意力模型的运作方式如图6.14 所示，自注意力模型会“吃”整个序列的数据，输入几个向量，它就输出几个向量。图6.14中输入4个向量，它就输出4个向量。而这4个向量都是考虑整个序列以后才得到的，所以输出的向量有一个黑色的框，代表它不是一个普通的向量，它是考虑了整个句子以后才得到的信息。接着再把考虑整个句子的向量丢进全连接网络，再得到输出。因此全连接网络不是只考虑一个非常小的范围或一个小的窗口，而是考虑整个序列的信息，再来决定现在应该要输出什么样的结果，这就是自注意力模型。
在这里插入图片描述
自注意力模型不是只能用一次，可以叠加很多次。如图6.15所示，自注意力模型的输出通过全连接网络以后，得到全连接网络的输出。全连接网络的输出再做一次自注意力模型，再重新考虑一次整个输入序列的数据，将得到的数据输入到另一个全连接网络，就可以得到最终的结果。

全连接网络和自注意力模型可以交替使用。全连接网络专注于处理某一个位置的信息，自注意力把整个序列信息再处理一次。

有关自注意力最知名的相关的论文是“Attention Is All You Need”。在这篇论文里面，谷歌提出了 Transformer 网络架构。其中最重要的模块是自注意力，就像变形金刚的火种源。有很多更早的论文提出过类似自注意力的架构，只是叫别的名字，比如叫Self-Matching。“Attention Is All You Need” 这篇论文将自注意力模块发扬光大。
在这里插入图片描述

基本原理

其输入是一串的向量，这个向量可能是整个网络的输入，也可能是某个隐藏层的输出，所以不用x来表示它，而用a来表示它，代表它有可能是前面已经做过一些处理，是某个隐藏层的输出。输入一组向量a，自注意力要输出一组向量b，每个b都是考虑了所有的a以后才生成出来的。b1、b2、b3、b4 是考虑整个输入的序列a1、a2、a3、a4 才产生出来的。
在这里插入图片描述
具体步骤如下：
1.以 $a^1$ 为例，根据 $a^1$ 这个向量，找出整个 sequence 中跟 $a^1$ 相关的其他向量 ⇒ 计算哪些部分是重要的，求出 $a^i$ 和 $a^1$ 的相关性（影响程度大的就多考虑点资讯），用 $\alpha$ 表示

在这里插入图片描述
2. 计算相关性：有点积和 additive 两种方法计算相关性，我们主要讨论点积这个方法。输入的两个向量分别乘不同的矩阵，左边这个向量乘上矩阵 $W^q$ 得到矩阵 q（query），右边这个向量乘上矩阵 $W^k$ 得到矩阵 k（key），再把 q 跟 k 做 dot product（点积），逐元素相乘后累加得到一个 scalar 就是相关性 $\alpha$
在这里插入图片描述
把 $a^1$ 乘上 $W^q$ 得到 q，叫做 Query（就像是搜寻相关文章的关键字，所以叫做 Query）

然后将 $a^i$ 都要乘 $W^q$ 得到 k，叫做 Key，把这个Query $q^1$ 和 Key $k^i$ 进行点积操作就得到 相关性 α（ α 叫做 Attention Score，表示 Attention计算出的 vector 之间的相关性）
在这里插入图片描述
attention score 还要经过一层 softmax 才能用于后续处理，其中 softmax 也可以换成其他的 activation function

3. 分别抽取重要信息，根据关联性作加权求和得到 $b^i$ （一次性并行计算出 $b^i$ ，不需要依次先后得出）
在这里插入图片描述

优点： $b^i$ 是并行计算得出

矩阵的角度表示 Self-attention 计算过程

① 计算 k，q，v （其中 $W^q$ 、 $W^k$ 和 $W^v$ 都是要学习的网络参数矩阵）
在这里插入图片描述
② 计算 α 并 Normalization

③ 计算 b

其中，

I 是 Self-attention 的 input（一排 vector），每个 vector 拼起来当作矩阵的 column
这个 input 分别乘上三个矩阵，得到 Q K V
接下来 Q 乘上 K 的 transpose,得到 A 。可能会做一些处理,得到 A’ ,叫做Attention Matrix ，生成 Q 矩阵就是为了得到 Attention 的 score
A’ 再乘上 V，就得到 O，O 就是 Self-attention 这个 layer 的输出

多头注意力

自注意力有一个进阶的版本——多头自注意力（multi-head self-attention）。多头自注意力的使用是非常广泛的，有一些任务，比如翻译、语音识别，用比较多的头可以得到比较好的结果。至于需要用多少的头，这个又是另外一个超参数，也是需要调的。为什么会需要比较多的头呢？在使用自注意力计算相关性的时候，就是用q去找相关的k。但是相关有很多种不同的形式，所以也许可以有多个q，不同的q负责不同种类的相关性，这就是多头注意力。

特点

使用多个 q k v 组合，不同的 q k v 负责不同种类的相关性

例如在下图中，一共有2类， 1类的放在一起算，2类的放在一起算。相关性变多了，所以参数也增加了，原来只需要三个 W 矩阵，现在需要六个 W 矩阵
在这里插入图片描述

计算步骤

先把 a 乘上一个矩阵得到 q

再把 q 乘上另外两个矩阵，分别得到 $q^1$ 跟 $q^2$ ，代表有两个 head；同理可以得到 $k^1$ ， $k^2$ ， $v^1$ ， $v^2$

同一个 head 里的 k q v 计算 b.

在这里插入图片描述
将各个 head 计算得到的 $b^i$ 拼接，通过一个 transform得到 $b^i$ ，然后再送到下一层去

位置编码

讲到目前为止，自注意力层少了一个也许很重要的信息，即位置的信息。对一个自注意力层而言，每一个输入是出现在序列的最前面还是最后面，它是完全没有这个信息的。有人可能会问：输入不是有位置1、2、3、4吗？但1、2、3、4是作图的时候，为了帮助大家理解所标上的一个编号。对自注意力而言，位置1、位置2、位置3跟位置4没有任何差别，这四个位置的操作是一模一样的。但是这可能会有一个问题：位置的信息被忽略了，而有时候位置的信息很重要。

每个向量所处的“位置”需要被编码

方法：每个位置用一个 vector $e^i$ 来表示它是 sequence 的第 i 个。加和到原向量中。
在这里插入图片描述

自注意力与卷积神经网络对比

自注意力还可以被用在图像上。到目前为止，在提到自注意力的时候，自注意力适用的范围是输入为一组向量的时候。一张图像可以看作是一个向量序列，如图6.36所示，一张分辨率为5×10 的图像（图6.36a）可以表示为一个大小为5×10×3 的张量（图6.36b），3 代表RGB 这3个通道（channel），每一个位置的像素可看作是一个三维的向量，整张图像是5 ×10 个向量。所以可以换一个角度来看图像，图像其实也是一个向量序列，它既然也是一个向量序列，完全可以用自注意力来处理一张图像。
在这里插入图片描述
CNN 可以看成简化版的 self-attention，CNN 就是只计算感受域中的相关性的self-attention。

CNN：感知域（receptive field）是人为设定的，只考虑范围内的信息
Self-attention：考虑一个像素和整张图片的信息 ⇒ 自己学出“感知域”的形状和大小

结论：
CNN 就是 Self-attention 的特例，Self-attention 只要设定合适的参数，就可以做到跟 CNN 一模一样的事情
self attention 是更 flexible 的 CNN
⇒ self-attention需要更多的数据进行训练，否则会欠拟合；否则CNN的性能更好

Self-attention 它弹性比较大,所以需要比较多的训练资料,训练资料少的时候,就会 overfitting
而 CNN 它弹性比较小,在训练资料少的时候,结果比较好,但训练资料多的时候,它没有办法从更大量的训练资料得到好处

在这里插入图片描述

自注意力与循环神经网络对比

对 RNN 来说，最终的输出要考虑最左边一开始的输入 vector，意味着必须要把最左边的输入存到 memory 里面并且在计算过程中一直都不能够忘掉，一路带到最右边，才能够在最后一个时间点被考虑（依次按顺序输出）
对 Self-attention 可以在整个 sequence 上非常远的 vector之间轻易地抽取信息（并行输出，速度更快，效率更高）

在这里插入图片描述

自注意力与图神经网络对比

在 Graph 上面，每一个 node 可以表示成一个向量
node 之间是有相连的，每一个 edge 标志着 node 跟 node 之间的关联性
比如：在做Attention Matrix 计算的时候，只需计算有 edge 相连的 node
因为这个 Graph 往往是人为根据某些 domain knowledge 建出来的，已知这两个向量彼此之间没有关联（图矩阵中对应结点 i 与结点 j 之间没有数值），就没有必要再用机器去学习这件事情

在这里插入图片描述