attention 注意力机制学习笔记-GPT2

news2024/12/27 11:09:50

注意力机制

这可能是比较核心的地方了。

gpt2 是一个decoder-only模型，也就是仅仅使用decoder层而没有encoder层。

decoder层中使用了masked-attention 来进行注意力计算。在看代码之前，先了解attention-forward的相关背景知识。

在普通的self-attention 中，对于一个长为T的句子，对其中第t个单词。需要计算t和句子中所有T个单词的注意力。也就是使用词t的Q向量 $q_t$ 和 T中的所有单词的key向量 $k_j, 0<=j<=T$ 相乘。得到词t和句子中其他单词的注意力得分。

在这里插入图片描述

于是对于词t和当前句子S, 得到了注意力得分向量，而后对该向量使用softmax. 标准化的同时得到softmax后的注意力得分。

然后使用每个词对应的值向量与注意力得分相乘之后再求和
$(v_1, v_2, ..., v_T) \begin{pmatrix}score_{t1}\\score_{t2}\\... \\score_{tT}\end{pmatrix} = out_t$
这里要注意， $socre_{ti}$ 是一个标量值，但是 $v_t$ 是一个向量，长度和词嵌入向量长度相同，相加时，对每个向量位置元素对应相加。

在这里插入图片描述

对于masked-attention呢，实际上就是计算注意力得分时候，对第t个单词，仅仅计算0到t单词的注意力得分，t~T 部分的注意力得分不计算，计算softmaxs时t之后的部分以初值0代替。

在这里插入图片描述

multi-head attention

前面了解了attention基本知识，就很好理解多头注意力了。多头注意力实际上就是将单个Q,K,V向量，分裂为多个头，然后和self-attention一样流程计算每个头的注意力，最后得到一个输出向量，然后将多个头的输出向量拼接到一起，得到最后的输出结果。

在这里插入图片描述

比如，原本的一个向量长度为 $length_Q == length_K == length_V == 168$ 分裂为12个注意力头之后，每个注意力头的QKV向量长度为 $length_{Q_i} == length_{K_i} == length_{V_i} = 64, i \in [0,12]$ ，