Transformer的前世今生 day05（Self-Attention、

news2025/10/14 14:40:36

Self-Attention

注意力机制：我们在看一幅图的时候，不会去看它的所有信息，相反我们倾向于看一些重点，并把我们的焦点放到这些重要信息上，过程如下：
首先：Q、K相乘求相似度，并做一个Scale缩放（避免未来做softmax的时候出现极端情况），然后通过softmax得到概率，并与V做乘加操作得到新的V’，这个V‘包含了原本的Q中跟K很相似，很重要的信息，也就是新的V’包含了注意力信息

Selft-Attention的关键点在于： $X_K$ $\approx$ $X_V$ $\approx$ $X_Q$ ，这三者同源，都来自于同一个输入X
步骤如下：
- 通过 $W^Q$ 、 $W^K$ 、 $W^V$ 三个矩阵来获取 $X_K$ $\approx$ $X_V$ $\approx$ $X_Q$ ：
之后的步骤和注意力机制一样
$q_1$ 和 $k_1$ 点乘， $q_1$ 和 $k_2$ 点乘得到相似度s
先做一个scale缩放，除 $\sqrt{d_k}$ ，再做softmax得到概率a
- 注意：由于 $x_1$ :Thinking和它本身显然要比和 $x_2$ :Machines更为相似，所以得到的概率也就更大
最后，将 $q_1$ 中和每个K点乘得到的的概率，和V相乘，并求总和，得到 $z_1$
- 而 $z_1$ 就是Thinking这个输入的新的V’，且包含了每一个单词和Thinking的相似度，包括Thinking本身。
- 换句话说：如果我们的输入 $x_1$ 为Thinking的初始词向量，那么我们通过Self-Attention得到的 $Z_1$ 仍然是Thinking的词向量，只不过这个词向量包含了Thinking Machines这句话中的每个词跟Thinking的相似度
使用Self-Attention的示例如下：
- 由于its和law、application相似，所以使用Self-Attention后得到的its词向量，会包含一定的law、application信息，即包含了一定的全局关系。
- 而如果不做自注意力机制，its的词向量就是单纯的its，没有任何的附加信息