引言

上一节对注意力分数 $(\text{Attention Score})$ 这个概念进行了总结。本节将基于缩放点积注意力机制 $(\text{Scaled Dot-Product Attention})$ 这种注意力分数的计算模式，介绍自注意力机制。

回顾：缩放点积注意力机制

缩放点积注意力机制的核心思路在于：使用内积描述刻意信息与无意信息之间的关联关系(相似性关系)。
关于‘刻意信息’、‘无意信息’的概念详见注意力机制基本介绍

已知包含 $N$ 个向量的查询矩阵 $\mathcal Q$ (刻意信息)与无意信息的 $\mathcal M$ 个键值对 $\{(\mathcal K_j,\mathcal V_j)\}_{j=1}^{\mathcal M}$ ，并且各向量维数表示为：
其中 $\mathcal K,\mathcal V$ 分别表示 $\text{Keys,Values}$ 组成的矩阵，它们的元素数量 $(\mathcal M)$ 相同;而 $\mathcal Q$ 中各元素的维数 $(d)$ 需要与 $\mathcal K$ 个元素维数大小相同，否则无法执行内积。
$\begin{cases} \mathcal Q \in \mathbb R^{N \times d} \\ \mathcal K_j \in \mathbb R^{1 \times d} \quad j=1,2,\cdots,\mathcal M \Rightarrow \mathcal K \in \mathbb R^{\mathcal M \times d} \\ \mathcal V_j \in \mathbb R^{1 \times v} \quad j =1,2,\cdots,\mathcal M \Rightarrow \mathcal V \in \mathbb R^{\mathcal M \times v} \end{cases}$
基于缩放点积注意力机制的注意力分数 $a(\mathcal Q,\mathcal K)$ 表示如下：
$a(\mathcal Q,\mathcal K) = \left[\frac{\mathcal Q\mathcal K^T}{\sqrt{d}}\right]_{N \times \mathcal M}$
其中 $a(\mathcal Q,\mathcal K)$ 返回的 $\times \mathcal M$ 矩阵中的每一个元素均描述：某查询向量 $\mathcal Q_i(i=1,2,\cdots,N) \in \mathbb R^{1 \times d}$ 与某个 $\mathcal K_j(j=1,2,\cdots,\mathcal M) \in \mathbb R^{1 \times d}$ 之间的内积结果；而 $\sqrt{d}$ 的作用是约束内积结果的解空间，使注意力分数结果对参数的敏感度降低。
对注意力分数做归一化 $(\text{Softmax})$ 处理，再与对应 $\mathcal V_j(j=1,2,\cdots,\mathcal M)$ 作内积运算：
$\begin{aligned} f [\mathcal Q,(\mathcal K_1,\mathcal V_1),(\mathcal K_2,\mathcal V_2)\cdots,(\mathcal K_{\mathcal M},\mathcal V_{\mathcal M})] & = \text{Softmax}[a(\mathcal Q,\mathcal K)] \cdot \mathcal V_{\mathcal M \times v} \end{aligned}$

自注意力机制

归纳一下之前出现的注意力机制：

关于 $\text{Seq2seq}$ ，它的注意力机制中查询向量 $\text{Query}$ 和 $\text{Keys}$ 分别来自于独立的循环神经网络 $(\text{Decoder,Encoder})$ ；并且 $\text{Keys,Values}$ 均来自于同一个事物：
$\text{Keys,Values} \Rightarrow \mathcal H_{Bi} = \left\{[h_{\mathcal L;j},h_{\mathcal R;\mathcal T+1-j}]\right\}_{j=1}^{\mathcal T}$
关于 $\text{Nadaraya-Watson}$ 核回归，它的注意力机制中查询向量指的是训练集 $\mathcal D$ 之外的陌生样本 $x$ ；而 $\text{Keys,Values}$ 分别描述训练集 $\mathcal D$ 中的特征与标签信息 $x^{(i)},y^{(i)}(i=1,2,\cdots,N)$ 。很明显， $\text{Keys,Values}$ 之间同样存在显式的关联关系。

关于 $\text{Keys,Values}$ 在各模型的注意力机制中关联性都很强；但作为执行相关性(相似性)计算的双方： $\text{Query,Keys}$ ，上述两种注意力机制似乎都有意地区分它们。

而自注意力机制 $(\text{Self-Attention})$ 的核心在于：将特征既作为 $\text{Query}$ ,也作为 $\text{Keys}$ ,也作为 $\text{Values}$ 进行运算，三者在内容上没有区别。通过这种方式对序列抽取特征。

给定一个长度为 $\mathcal T$ 的序列： $\mathcal X = (x_1,x_2,\cdots,x_{\mathcal T})^T$ ，并且序列中的每个元素 $x_t(t=1,2,\cdots,\mathcal T)$ 均有 $d$ 维向量进行特征表示：
$\begin{cases} x_t \in \mathbb R^{1 \times d} \quad t=1,2,\cdots,\mathcal T \\ \mathcal X \in \mathbb R^{\mathcal T \times d} \end{cases}$

关于 $x_t$ 的注意力信息 $y_t$ 表示如下：
其中元素 $x_t$ 需要与序列中的所有元素 $x_1,x_2,\cdots,x_{\mathcal T}$ 计算注意力分数。
$\begin{aligned} y_t \in \mathbb R^{1 \times d} & = f[\mathcal Q = x_t,(\mathcal K_1 = x_1,\mathcal V_1 = x_1),\cdots,(\mathcal K_{\mathcal T} = x_{\mathcal T},\mathcal V_{\mathcal T} = x_{\mathcal T})] \\ & = \text{Softmax} \left\{\left[\frac{x_t \mathcal X^T}{\sqrt{d}}\right]_{1 \times \mathcal T}\right\} \cdot [\mathcal X]_{\mathcal T \times d} \end{aligned}$
同理，将完整序列 $\mathcal X \in \mathbb R^{\mathcal T \times d}$ 作为输入，它的注意力信息 $\mathcal Y$ 表示如下：
注意：这里的 $\text{Softmax}$ 对各行的 $\mathcal T$ 个元素做归一化，而不是对 $\begin{aligned}\left[\frac{\mathcal X \mathcal X^T}{\sqrt{d}}\right]_{\mathcal T \times \mathcal T}\end{aligned}$ 整体做归一化。
$\mathcal Y \in \mathbb R^{\mathcal T \times d} = \text{Softmax} \left\{\left[\frac{\mathcal X \mathcal X^T}{\sqrt{d}}\right]_{\mathcal T \times \mathcal T}\right\} \cdot [\mathcal X]_{\mathcal T \times d}$
这种操作与循环神经网络结构有些许相似：给定一个长度为 $\mathcal T$ 的序列，自注意力操作后同样返回一个长度为 $\mathcal T$ 的输出。在不额外添加 $\text{Query,Keys,Values}$ 的情况下，我们可以直接使用自注意力来处理序列。

关于自注意力的流程图表示如下：
如果仅仅从‘自注意力’执行过程的角度观察，感觉自注意力的输出信息并不像是一个序列信息。在循环神经网络系列中如 $\text{LSTM}$ ， $\text{GRU}$ ,之所以认为它们各时刻的输出信息是‘序列信息’，是因为它们的各时刻输出中均包含上一时刻的信息：
$\begin{cases} \text{RNN : } h_{t+1} = \text{Tanh} \left(\mathcal W_{h_t \Rightarrow h_{t+1}} \cdot h_t + \mathcal W_{x_t \Rightarrow h_{t+1}} \cdot x_t +b_{h}\right) \\ \quad \\ \text{LSTM : } \mathcal C_t = f_t * \mathcal C_{t-1} + i_t * \widetilde{\mathcal C}_t \end{cases}$
在下面的‘位置编码’部分进行解答。
自注意力机制——图形描述

自注意力机制与 $\text{RNN,CNN}$ 的对比

简单介绍：卷积神经网络处理序列信息的原理

事先说明：卷积神经网络 $(\text{Convolutional Neural Network,CNN})$ 同样可以执行序列运算。在卷积神经网络处理图像数据过程中，通常将图像数据描述为 $[\text{Width,Height,Channels}]$ 的张量格式。
其中 $\text{Width,Height,Channel}$ 分别表示图像的宽、高、通道数。

而在处理序列数据中，可以将序列数据(例如文本序列)描述为 $[\text{BatchSize},\text{MaxLength},\text{Embedding}]$ 的张量格式。在卷积核的选择过程中，由于 $\text{BatchSize}$ 内不同文本序列之间相互独立，因而卷积核的格式被限制为 $[\text{WindowSize},1]$ 的大小格式。其中 $\text{WindowSize}$ 表示覆盖序列信息的窗口大小。
其中 $\text{BatchSize,MaxLength,Embedding}$ 分别表示该批次中的序列数量、最大序列长度、序列中各元素的向量表示维数。

在算法八股系列——卷积函数中介绍过单层卷积神经网络的模型结构。其结构图表示如下：
该图左侧表示‘卷积核大小’为 $3$ 的卷积神经网络结构;右侧则表示相同输入大小 $(5)$ 的全连接神经网络结构。
卷积神经网络VS注意力机制
虽然右侧图描述的是全连接神经网络结构，但我们可以将其视作自注意力机制的网络结构。原因在于：在自注意力机制中，每个元素均要与序列中的所有元素计算注意力分数。

同理，对应循环神经网络的网络结构表示如下：
该图看起来像‘隐马尔可夫模型’的概率图结构。这里简化了很多，需要注意的是，这里的这里的蓝色点既表示各时刻的序列信息，也表示输出信息。
循环神经网络——网络结构

从计算复杂度的角度观察

三结构中计算复杂度最小的自然是循环神经网络结构。原因在于：序列中的每个元素仅需执行一次前馈计算，就可得到对应时刻的输出结果。因此它的计算复杂度为： $\mathcal O(\mathcal T * d^2)$ 。
其中 $\mathcal T$ 表示序列长度; $d$ 表示序列各元素的维数信息。在循环神经网络中，共经历两个层：隐藏层 $h_t(t=1,2,\cdots,\mathcal T)$ 和输出层 $\mathcal O_t(t=1,2,\cdots,\mathcal T)$ 。关于序列中的每个输入元素，每一层都是关于输入与对应权重矩阵的线性运算。因此是 $\mathcal T \times d \times d$ 。

其次是卷积神经网络，它的计算复杂度表示为： $\mathcal O(\mathcal K*\mathcal T*d^2)$

卷积神经网络与循环神经网络的差别在于：序列中的各元素可能不止执行了一次运算。这取决于‘窗口大小’ $(\text{WindowSize})$ 与步长 $\text{Step}$ 之间的关系。
其中 $\mathcal K$ 表示窗口大小。如果 $\mathcal K < \text{Step}$ ,这意味着序列中某些元素在不同的窗口中连续地重复出现。如果执行了 $\text{Padding}$ 操作，导致输出大小与输入大小相同，最终执行的序列长度是 $\mathcal K \times \mathcal T$ 。
其中卷积核的大小是 $\mathcal K \times d$ ,并且它的输出结果也包含 $d$ 个维度(通道数)(和自注意力机制相比，输出大小相同，为公平起见)，这意味着包含 $d$ 个卷积核。因此最终的复杂度是 $\mathcal K * \mathcal T * d^2$ 。

最终最慢的是自注意力机制，它的计算复杂度表示为： $\mathcal O(\mathcal T^{2}* d)$
由于自注意力机制需要序列中每个元素之间均执行一次内积运算，因此是 $\mathcal T \times \mathcal T$ 次线性运算。而每次内积运算均包含 $d$ 次运算。因此是 $\mathcal T^2 * d$ 。

位置编码

在上面介绍自注意力机制时，觉得它并不像一个序列信息。是因为：我们仅仅是记录了目标词与序列中各个词之间的关联关系(相似性关系)，但并没有记录序列信息(序列中各元素的相对位置/上下文位置关系)
补充：卷积神经网络处理序列数据时，其生成的输出内包含‘序列信息’。其原因是：卷积核在移动过程中，遵循某一方向移动。而移动过程中卷积核内的参数会学习序列信息。

这会产生什么效果 $?$ 依然拿序列 $\mathcal X = (x_1,x_2,\cdots,x_{\mathcal T})^T$ 为例，这会导致：序列中某元素 $x_t$ 与序列中所有元素 $x_1,x_2,\cdots,x_{\mathcal T}$ 之间的相似性关系 $a(x_t,x_j)(j=1,2,\cdots,\mathcal T)$ 是离散的。也就是说，将序列中的元素打乱顺序 $\Rightarrow$ 并不会影响其相似性结果。
但相反，一个文本句子打乱顺序后，就可能不是一个正确的文本句子了。

而位置编码 $(\text{Position Encoding})$ 就是加入位置信息的一种方式。这种编码的特点在于：它并不作用在模型内部，而是单独计算出来，直接作用在输入内(让输入自身存在位置信息)。其具体做法表示如下：

已知输入数据 $\mathcal X \in \mathbb R^{\mathcal T \times d}$ ，对应的位置编码矩阵 $\mathcal P \in \mathbb R^{\mathcal T \times d}$ (张量大小与 $\mathcal X$ 相同)，并执行对应元素相加操作，并将该结果重新作为自注意力机制的输入；

$\mathcal P$ 内元素的计算方式表示如下：
$\begin{cases} \begin{aligned} \mathcal P_{i,2j} & = \sin \left(\frac{i}{10000^{\frac{2j}{d}}}\right) \\ \mathcal P_{i,2j+1} & = \cos \left(\frac{i}{10000^{\frac{2j}{d}}}\right) \end{aligned} \end{cases}$
其中 $\mathcal P_{i,2j}$ 表示编码矩阵 $\mathcal P$ 中第 $i$ 行、第 $2 j$ 列的元素值， $\mathcal P_{i,2j+1}$ 同理。这里选择若干个行、列作为例子，对应代码表示如下：

import math
import matplotlib.pyplot as plt

def PositionEncoding(i,j,d=64):
    if j % 2 == 0:
        return math.sin(i / (10000 ** ((2 * j) / d)))
    else:
        return math.cos(i / (10000 ** ((2 * j) / d)))

def DrawPicture():
    j = [6,7,8,9]
    LineStyleList = ["-","--","-.",":"]
    i = [k for k in range(60)]
    for Index,Elem in enumerate(j):
        print(Elem)
        Res = list()
        jList = [Elem for _ in range(len(i))]
        for _,(Elemi,Elemj) in enumerate(zip(i,jList)):
            Res.append(PositionEncoding(Elemi,Elemj))
        plt.plot(i,Res,label="Col "+ str(Elem),linestyle=LineStyleList[Index])
    plt.legend()
    plt.show()

if __name__ == '__main__':
    DrawPicture()

对应函数图像表示如下：
其中关于序列中各元素的'特征表示'维数 $d$ 设置为 $64$ 。
位置编码示例
从该函数图像中可以看出：横坐标表示序列长度编号 $1,2,\cdots,\mathcal T$ ，纵坐标表示函数的映射区间。
每一条函数图像表示同一维度的位置特征在序列 $\mathcal X$ 中的各元素 $x_1,x_2,\cdots,x_{\mathcal T}$ 的映射信息。能够看出，即便是同一维度的信息在序列不同位置的映射结果也存在不同程度的差异。

为什么要设计成这种形式呢 $?$ 上面描述的是对向量特征表示的 $6, 7, 8, 9$ 维度的位置信息，发现各维度图像的周期总是会出现因错位而产生的少许差异，并且特征维度 $d$ 的数值越大，这个差异就越不明显(细致)：
下图表示 $d = 1024$ 时的对应图像。
d=1024时的图像信息
当然，这里选择的是 $6, 7, 8, 9$ 四个连续维数在 $d = 1024$ 维度下的效果，如果将其设置为 $32, 64, 128, 256$ 四个维数，各维数的周期差异会更加明显：
32,64,128,256的维数差异图像
而这些周期性差异并非是完全不重合的，而是存在一些重合的点。为了更方便理解，我们可以观察如下例子：关于 $0 - 7$ 的二进制编码。
关于十进制数 $0 - 7$ 的二进制编码表示如下：
0-7的二进制编码
二进制的特点很简单：逢二进一。如果将这里每一个十进制数看作是由 $3$ 个特征表示的编码结果，来观察各特征(每一列)的变化情况：
对应图像从左到右进行表示。
各特征的周期表示
很明显，由于逢二进一的原因，导致位数越高的特征周期越长(变化速度更慢)。并且它们同样存在部分重合的情况(上图中的红色框部分示例)。

并且十进制数的二进制表示，其特征仅仅是 ${0,1\}$ 内的离散特征，但这种特征可以保证每个十进制数均存在独一无二的位置编码；同理，可以将自注意力机制中位置编码的错位现象想象成位数的进化，对应的重合现象也是表示序列中的各元素 $x_1,x_2,\cdots,x_{\mathcal T}$ 在 $d$ 维特征空间中独一无二的特征信息重要的组成部分。
相比于二进制的离散信息，各维度的位置编码信息是使用函数表示的连续信息，它描述的信息更加丰富，因为我们设置的数据特征维数可能是任意大小的。