【Transformer模型学习】第三篇：位置编码

文章目录

- - 0. 前言
  - 1. 为什么需要位置编码？
  - 2. 如何进行位置编码？
  - 3. 正弦和余弦位置编码
  - 4. 举个例子
  - - 4.1 参数设置
    - 4.2 计算分母项
    - 4.3 计算位置编码
    - 4.4 位置编码矩阵
  - 5. 相对位置信息
  - 6. 改进的位置编码方式——RoPE
  - - 6.1 RoPE的核心思想
    - 6.2 RoPE的优势
  - 7. 总结

0. 前言

按照国际惯例，首先声明：本文只是我自己学习的理解，虽然参考了他人的宝贵见解及成果，但是内容可能存在不准确的地方。如果发现文中错误，希望批评指正，共同进步。

本文是Transformer学习系列的第三篇文章：

第一篇：提出背景、模型架构及推理过程
第二篇：多头注意力机制
第三篇：位置编码（本篇）

本文将介绍Transformer的重要（难点）内容——位置编码。
在这里插入图片描述

1. 为什么需要位置编码？

在第一篇文章就说明过：Transformer的优点在于可以并行化处理序列，这是因为注意力机制的引入，使得输入或输出序列中的（各个token的）距离将不会影响模型的处理，即注意力机制是排列不变的。并行处理加上排列不变就会带来一个麻烦：模型无法直接感知输入序列中元素的位置信息。

与RNN相比，RNN可以通过其循环结构逐步处理序列中的每个元素，并将前一个时间步的隐藏状态传递到下一个时间步。这种机制使RNN能够自然地捕捉序列中的时间依赖关系和顺序信息。

所以，Transformer需要一种编码机制：让模型能够知道输入序列中的元素的位置信息，尤其是两个元素间的相对位置信息。

2. 如何进行位置编码？

“对一个序列中的元素进行位置编码”，这乍一看是个非常简单的任务，只要对其中所有元素进行编号[1, 2, 3…]不就行了吗？

但实际上，如此简单粗暴的位置编码方式是不可行的。主要是因为自然编号是离散的整数值，缺乏连续性和平滑性。自然编号的数值范围会随序列长度线性增长，导致训练不稳定，尤其是在长序列任务中。

因此，我们需要一种更聪明的位置编码，它要满足以下条件：

位置编码（Positional Encoding）在Transformer中起着至关重要的作用，它需要满足以下条件才能有效地为模型提供位置信息：

唯一性：每个位置的位置编码必须是唯一的，以便模型能够区分序列中不同位置的元素。
相对位置信息：位置编码应该能够捕捉到相对位置信息（如距离、方向等），而不仅仅是绝对位置。例如，模型应该能够知道“距离当前词3个位置的词”在哪里。
可扩展性：位置编码应该能够适应不同长度的序列，而不仅仅是训练时见过的序列长度。例如，模型在训练时可能只见过长度为100的序列，但在测试时可能需要处理长度为1000的序列。

3. 正弦和余弦位置编码

在Attention is All You Need 提出了一种位置编码方法——正弦和余弦位置编码。

位置编码是一个与词嵌入维度相同的向量，直接加到词嵌入上：假设词嵌入的维度为 $d_{\text{model}}$ ，那位置编码的维度也为 $d_{\text{model}}$ 。

对于位置 $p o s$ 和维度 $i$ ，位置编码的计算公式为：
$P_{pos, 2i} = \sin\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right)$
$P_{pos, 2i+1} = \cos\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right)$
其中：

$p o s$ ：序列中的位置索引（从0开始）。
$i$ ：维度索引（从0到 $d_{\text{model}}-1$ ）。
$d_{\text{model}}$ ：词嵌入的维度，例如设为512。
$10000$ ：一个超参数，用于控制波长。

4. 举个例子

我们通过一个更简单的例子来计算位置编码。假设我们有一个序列长度为2（即2个词），词嵌入维度为4（即每个词用一个4维向量表示）。我们将使用正弦和余弦位置编码公式来计算位置编码。

4.1 参数设置

序列长度 $seq_len = 2 \text{seq\_len} = 2$ 。
词嵌入维度 $d_{\text{model}} = 4$ 。
位置索引 $p o s = 0, 1$ 。
维度索引 $i = 0, 1$ （因为 $d_{\text{model}} = 4$ ，所以 $i$ 的取值范围是0到1）。

4.2 计算分母项

首先计算分母项 $div_term \text{div\_term}$ ：
$div_term = 1000 0 2 i d model \text{div\_term} = 10000^{\frac{2i}{d_{\text{model}}}}$
对于 $i = 0, 1$ ，计算结果如下：

当 $i = 0$ 时：
$div_term = 1000 0 0 4 = 1 \text{div\_term} = 10000^{\frac{0}{4}} = 1$
当 $i = 1$ 时：
$div_term = 1000 0 2 4 = 1000 0 0.5 = 100 \text{div\_term} = 10000^{\frac{2}{4}} = 10000^{0.5} = 100$

4.3 计算位置编码

对于每个位置 $p o s$ 和维度 $i$ ，计算正弦和余弦值。

位置 $p o s = 0$

偶数维度（ $2 i$ ）：
- $i = 0$ ：
  $P_{0, 0} = \sin\left(\frac{0}{1}\right) = \sin(0) = 0$
- $i = 1$ ：
  $P_{0, 2} = \sin\left(\frac{0}{100}\right) = \sin(0) = 0$
奇数维度（ $2 i + 1$ ）：
- $i = 0$ ：
  $P_{0, 1} = \cos\left(\frac{0}{1}\right) = \cos(0) = 1$
- $i = 1$ ：
  $P_{0, 3} = \cos\left(\frac{0}{100}\right) = \cos(0) = 1$
位置 $p o s = 0$ 的位置编码：
$P_0 = [0, 1, 0, 1]$

位置 $p o s = 1$

偶数维度（ $2 i$ ）：
- $i = 0$ ：
  $P_{1, 0} = \sin\left(\frac{1}{1}\right) = \sin(1) \approx 0.8415$
- $i = 1$ ：
  $P_{1, 2} = \sin\left(\frac{1}{100}\right) = \sin(0.01) \approx 0.0100$
奇数维度（ $2 i + 1$ ）：
- $i = 0$ ：
  $P_{1, 1} = \cos\left(\frac{1}{1}\right) = \cos(1) \approx 0.5403$
- $i = 1$ ：
  $P_{1, 3} = \cos\left(\frac{1}{100}\right) = \cos(0.01) \approx 0.9999$
位置 ( pos = 1 ) 的位置编码：
$P_1 = [0.8415, 0.5403, 0.0100, 0.9999]$

4.4 位置编码矩阵

将每个位置的位置编码组合起来，得到位置编码矩阵 $P$ ：
$\begin{bmatrix} 0 & 1 & 0 & 1 \\ 0.8415 & 0.5403 & 0.0100 & 0.9999 \\ \end{bmatrix}$

最终，将会把位置编码矩阵 $P$ 直接加到生成的词向量矩阵上。

5. 相对位置信息

前文我们说过：位置编码的重要性质之一是能捕获输入的相对位置信息，那正弦和余弦编码是如何获得相对位置信息的呢？

假设我们有两个位置 $p o s$ 和 $p o s + k$ ，它们的位置编码分别为 $P_{pos}$ 和 $P_{pos + k}$ 。我们需要分析它们之间的关系。

正弦和余弦函数是周期函数，具有以下性质：
$\sin(a + b) = \sin a \cos b + \cos a \sin b$
$\cos(a + b) = \cos a \cos b - \sin a \sin b$

根据以上三角函数和差化积关系，容易得出：

对于偶数维度（ $2 i$ ）：

$P_{pos + k, 2i} = P_{pos, 2i} P_{k, 2i+1} + P_{pos, 2i+1} P_{k, 2i}$
对于奇数维度（ $2 i + 1$ ）：

$P_{pos + k, 2i} = P_{pos, 2i+1} P_{k, 2i+1} - P_{pos, 2i} P_{k, 2i}$

6. 改进的位置编码方式——RoPE

RoPE（Rotary Positional Encoding）是一种创新的位置编码方法，旨在改进Transformer模型中位置信息的处理方式。与传统的绝对位置编码不同，RoPE通过旋转矩阵的方式将位置信息直接嵌入到词向量的计算过程中，特别是在自注意力机制中。

6.1 RoPE的核心思想

RoPE的基本思想是通过在计算Query和Key向量时动态地应用旋转矩阵来编码位置信息。这种方法允许模型不仅能够捕捉单词间的相对位置关系，还能保持对长距离依赖的有效建模能力。

具体来说，对于一个给定的位置 $p o s$ 和维度 $i$ ，RoPE会生成一个旋转角度 $\theta_{pos,i}$ ，然后使用这个角度对Query和Key向量进行旋转操作。旋转操作可以通过以下公式描述：

对于偶数维度 $i$ ：
$Q'_{pos,i} = Q_{pos,i} \cdot \cos(\theta_{pos,i}) - Q_{pos,i+1} \cdot \sin(\theta_{pos,i})$

$K'_{pos,i} = K_{pos,i} \cdot \cos(\theta_{pos,i}) - K_{pos,i+1} \cdot \sin(\theta_{pos,i})$
对于奇数维度(i)：
$Q'_{pos,i} = Q_{pos,i} \cdot \cos(\theta_{pos,i-1}) + Q_{pos,i-1} \cdot \sin(\theta_{pos,i-1})$
$K'_{pos,i} = K_{pos,i} \cdot \cos(\theta_{pos,i-1}) + K_{pos,i-1} \cdot \sin(\theta_{pos,i-1})$