位置编码--RPE

news2025/4/14 16:01:10

相对位置编码 (Relative Position Encoding, RPE)
1. 相对位置编码
相对位置编码是 Transformer 中的一种改进位置编码方式，它的主要目的是通过直接建模序列中元素之间的相对位置，而不是绝对位置，从而更好地捕捉序列元素之间的依赖关系，尤其在长序列或者具有较强依赖关系的任务中，能够展现出更好的性能。

在这里插入图片描述

3 相对位置编码的优点：
对长序列更有效：通过直接建模相对位置，它更容易捕捉到序列元素之间的相对关系，尤其适合长序列任务。
更加灵活：它比绝对位置编码更加灵活，因为它不仅关注每个位置的绝对位置，还能考虑元素间的位置差异。
减少了对位置信息的依赖：模型可以更加专注于元素间的相对关系，而不必依赖于绝对位置编码可能带来的固定模式。

4 相对位置编码的改进
在一些改进版本的 Transformer 模型中（如 Transformer-XL、T5 和 Reformer），相对位置编码的计算方式可能进一步优化，以适应更大规模的数据集和更长的序列。这些模型通过对注意力机制中位置编码的改动，提高了模型对长期依赖的建模能力，减少了计算和内存的开销。

5. 简单实现

import torch
import math


class RelativePositionEncoding:
    def __init__(self, max_len, d_model):
        """
        相对位置编码的初始化。
        :param max_len: 序列的最大长度
        :param d_model: 嵌入维度
        """
        self.max_len = max_len
        self.d_model = d_model
        # 初始化嵌入矩阵的大小为 [2*max_len-1, d_model]
        self.position_embeddings = torch.nn.Embedding(2 * max_len - 1, d_model)

    def forward(self, seq_len):
        """
        获取给定长度的相对位置编码。
        :param seq_len: 序列长度
        :return: 相对位置编码 (seq_len, seq_len, d_model)
        """
        # 生成相对位置的范围，范围为 [-max_len+1, max_len-1]
        range_ = torch.arange(-self.max_len + 1, self.max_len)

        # 计算位置差 [i - j]，即相对位置
        relative_positions = range_.unsqueeze(0) - range_.unsqueeze(1)

        # 由于嵌入矩阵的索引是从 0 开始的，因此需要将相对位置差加上 self.max_len - 1
        relative_positions = relative_positions + (self.max_len - 1)

        # 确保相对位置差不超过位置嵌入的最大索引
        relative_positions = torch.clamp(relative_positions, 0, 2 * self.max_len - 2)

        # 为每对相对位置差获取对应的嵌入
        relative_position_embeddings = self.position_embeddings(relative_positions)

        # 只取前 seq_len 个位置的相对位置编码
        return relative_position_embeddings[:seq_len, :seq_len, :]


# 示例
max_len = 19  # 序列最大长度
d_model = 16  # 嵌入维度
rel_pos_encoding = RelativePositionEncoding(max_len, d_model)

# 获取给定序列长度的相对位置编码
seq_len = 19  # 假设序列长度为 19
relative_pos = rel_pos_encoding.forward(seq_len)

# 打印相对位置编码
print(f"Relative Position Encoding shape: {relative_pos.shape}")  # 输出应为 (seq_len, seq_len, d_model)