相对位置嵌入和旋转位置编码

news2025/4/3 2:26:23

1. 相对位置嵌入:给注意力机制加“人际关系记忆”

像班级座位表

想象全班同学(序列的各个元素)坐成一个圈,老师(模型)要记住每个人之间的相对位置:

  • 传统方法:老师给每个座位贴绝对编号(第1排第2座…),但换教室就全乱了。
  • 相对位置法:老师只记“小红在小明左边3个位置”,无论坐哪都适用。
实际怎么用?
  • 计算注意力时,给“相邻近的词对”额外加分(比如相邻+1分,隔一个+0.5分)。
  • 优势:换个长文章也能用,因为只关心词之间的距离,不关心具体在第几行。

💡 一句话总结:不记绝对位置,只记谁和谁挨得近。


2. 旋转位置编码(RoPE):用“转盘子”游戏理解

像旋转餐桌

假设每个词是一个盘子,盘子上有菜(词的特征):

  1. 初始状态:所有盘子朝同一方向摆好。
  2. 旋转操作:第1个盘子转10°,第2个转20°…第N个转N×10°。
  3. 匹配度检查:两个盘子夹角越小(位置越近),菜的味道越搭配(注意力分数越高)。
为什么好用?
  • 自动适应长度:新加盘子继续转就行(第100个转1000°),不用重新设计。
  • 长文章神器:ChatGPT这类模型就用这个方法处理超长文本。

💡 一句话总结:每个词转不同角度,越近的词转的角度越相似。


一、相对位置嵌入(Relative Positional Embedding)

1. 核心思想

不直接编码绝对位置,而是通过键-值对之间的相对距离动态计算位置偏置,使模型能灵活处理任意长度序列。即通过可学习的相对位置偏置矩阵**,在注意力计算中显式注入位置信息。公式表示为:
Attention = Softmax ( Q K T d k + B ) V \text{Attention} = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}} + B\right)V Attention=Softmax(dk QKT+B)V
其中 B B B 是相对位置偏置矩阵, B i , j B_{i,j} Bi,j 表示位置 i i i j j j 之间的偏置。

2. 实现方式

以Swin Transformer为例:

class RelativePositionBias(nn.Module):
    def __init__(self, window_size, num_heads):
        super().__init__()
        # 定义可学习的相对位置偏置矩阵
        self.bias_table = nn.Parameter(
            torch.zeros((2 * window_size - 1) * (2 * window_size - 1), num_heads))
        
        # 生成相对位置索引
        coords = torch.arange(window_size)
        relative_coords = coords[:, None] - coords[None, :]  # [M, M]
        relative_coords += window_size - 1  # 转换为非负数
        self.register_buffer("relative_index", relative_coords)

    def forward(self):
        # 根据索引从表中取出偏置值 [M*M, num_heads]
        bias = self.bias_table[self.relative_index.view(-1)]
        return bias.view(1, self.relative_index.shape[0], 
                        self.relative_index.shape[1], -1)  # [1, M, M, num_heads]
3. 关键点
  • 窗口限制:通常限制最大相对距离(如Swin中 M = 7 M=7 M=7),减少参数量
  • 计算效率:偏置矩阵可预先计算并缓存
  • 变长支持:通过插值或截断适应不同长度

二、旋转位置编码(RoPE)

1. 核心思想

通过旋转矩阵将绝对位置信息融入query和key的向量表示中。给定位置 ( m ),旋转操作定义为:
f RoPE ( x , m ) = ( cos ⁡ m θ − sin ⁡ m θ sin ⁡ m θ cos ⁡ m θ ) ( x 0 x 1 ) f_{\text{RoPE}}(x, m) = \begin{pmatrix} \cos m\theta & -\sin m\theta \\ \sin m\theta & \cos m\theta \end{pmatrix} \begin{pmatrix} x_0 \\ x_1 \end{pmatrix} fRoPE(x,m)=(cosmθsinmθsinmθcosmθ)(x0x1)
其中 θ \theta θ是预设的频率基。

2. 完整实现

以LLaMA的实现为例:

def precompute_freqs_cis(dim: int, end: int, theta: float = 10000.0):
    # 预计算旋转角度 [seq_len, dim//2]
    freqs = 1.0 / (theta ** (torch.arange(0, dim, 2)[: (dim // 2)].float() / dim))
    t = torch.arange(end, device=freqs.device)
    freqs = torch.outer(t, freqs)  # [seq_len, dim//2]
    return torch.polar(torch.ones_like(freqs), freqs)  # 复数形式

def apply_rotary_emb(
    x: torch.Tensor,  # [batch, seq_len, num_heads, head_dim]
    freqs_cis: torch.Tensor
) -> torch.Tensor:
    # 将x转换为复数形式
    x_complex = torch.view_as_complex(
        x.float().reshape(*x.shape[:-1], 2, -1).transpose(-1, -2).contiguous()
    )
    # 应用旋转 [batch, seq_len, num_heads, head_dim//2]
    x_rotated = x_complex * freqs_cis
    # 转换回实数
    return torch.view_as_real(x_rotated).flatten(-2)
3. 数学特性
  • 距离衰减:注意力分数随相对距离 ∣ m − n ∣ |m-n| mn自然衰减
  • 线性可加性:满足 ⟨ f RoPE ( x , m ) , f RoPE ( x , n ) ⟩ = g ( m − n ) \langle f_{\text{RoPE}}(x,m), f_{\text{RoPE}}(x,n) \rangle = g(m-n) fRoPE(x,m),fRoPE(x,n)⟩=g(mn)
  • 长程衰减:高频维度(大 θ \theta θ)对远距离更敏感

三、对比总结

特性相对位置嵌入旋转位置编码
位置信息存储方式可学习的偏置矩阵预设的旋转角度
计算复杂度 O ( L 2 ) O(L^2) O(L2) O ( L ) O(L) O(L)
长度扩展性需插值或截断天然支持任意长度
显式相对位置通过旋转隐式包含
参数量随窗口大小增长零参数(仅计算)
典型应用Swin Transformer, T5LLaMA, GPT-J, PaLM

四、代码实现选择建议

  1. 图像处理:优先选择相对位置嵌入(适合局部注意力)

    # Swin Transformer风格
    attn = q @ k.transpose(-2, -1) + relative_bias
    
  2. 长文本处理:优先选择RoPE(适合全局注意力)

    # LLaMA风格
    q_rot = apply_rotary_emb(q, freqs_cis)
    k_rot = apply_rotary_emb(k, freqs_cis)
    attn = (q_rot @ k_rot.transpose(-2, -1)) * scaling_factor
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2324947.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity编辑器功能及拓展(1) —特殊的Editor文件夹

Unity中的Editor文件夹是一个具有特殊用途的目录,主要用于存放与编辑器扩展功能相关的脚本和资源。 一.纠缠不清的UnityEditor 我们Unity中进行游戏构建时,我们经常遇到关于UnityEditor相关命名空间丢失的报错,这时候,只得将报错…

REC一些操作解法

一.Linux命令长度突破 1.源码如下 <?php $param $_REQUEST[param];if ( strlen($param) < 8 ) {echo shell_exec($param); } 2.源码分析 echo执行函数&#xff0c;$_REQUEST可以接post、get、cookie传参 3.破题思路 源码中对参数长度做了限制&#xff0c;小于8位&a…

[AI绘图] ComfyUI 中自定义节点插件安装方法

ComfyUI 是一个强大的 AI 图像生成工具,支持自定义节点插件扩展其功能。本文介绍 ComfyUI 中安装自定义节点插件的三种方法,包括 Git Clone 方式、插件管理器安装方式,以及手动解压 ZIP 文件的方法,并分析它们的优缺点。 1. Git Clone 方法 使用 git clone 是最稳定且推荐…

【机械视觉】C#+VisionPro联合编程———【六、visionPro连接工业相机设备】

【机械视觉】C#VisionPro联合编程———【六、visionPro连接工业相机设备】 目录 【机械视觉】C#VisionPro联合编程———【六、visionPro连接工业相机设备】 前言&#xff1a; 连接步骤说明 一. 硬件连接 支持的相机接口类型&#xff1a; 连接步骤 2. 软件配置 Visio…

蓝桥杯 之 图论基础+并查集

文章目录 习题联盟X蓝桥幼儿园 图论基础 并查集 并查集&#xff0c;总的来说&#xff0c;操作分为三步初始化(每一个节点的父亲是自己)&#xff0c;定义union(index1,index2)函数&#xff0c;定义find(index)函数 并查集详细内容博客 习题 联盟X 联盟X 典型的求解连通分支…

C# .net ai Agent AI视觉应用 写代码 改作业 识别屏幕 标注等

C# net deepseek RAG AI开发 全流程 介绍_c# 向量处理 deepseek-CSDN博客 视觉多模态大模型 通义千问2.5-VL-72B AI大模型能看懂图 看懂了后能干啥呢 如看懂图 让Agent 写代码 &#xff0c;改作业&#xff0c;识别屏幕 标注等等。。。 据说是目前最好的免费图片识别框架 通…

15届蓝桥JavaB组 前6道题解

15届蓝桥JavaB组 前6道题解 报数游戏类斐波那契循环数分布式队列食堂最优分组星际旅行 报数游戏 import java.util.Scanner;//分析&#xff1a; //20和24的最小公倍数是120 //题目给出了前10个数&#xff0c;发现第10个数是120&#xff0c;说明每10个数出现一个公倍数 //第20个…

蓝桥杯 14 天 十五届蓝桥杯 数字诗意

static boolean kkk(long x) {if(x1)return true;else {// 初始化xx为1&#xff0c;用于计算2的幂long xx 1;// 循环60次&#xff0c;检查2的幂是否等于xfor (int i 1; i < 60; i) {xx * 2; // 每次将xx乘以2if (xx x) { // 如果xx等于x&#xff0c;说明x是2的幂&#xf…

MP4音视频格式

1.MP4 MP4是一种用于封装音视频/字幕/图片/章节信息等数据的多媒体容器格式&#xff0c;是MPEG-4系列的成员之一 2.文件结构 MP4由一层层的嵌套Box&#xff08;atom&#xff09;组成 [ size (4 bytes) ][ type (4 bytes)][ payload (嵌套box或者数据) ] 3.常见Box 类型名称…

国内GitHub镜像源全解析:加速访问与替代方案指南

在数字化开发日益普及的今天,GitHub作为全球最大的代码托管平台,已成为开发者不可或缺的资源库。然而,由于网络环境的限制,国内用户在访问GitHub时常常面临速度慢、连接不稳定等问题。为了提升开发效率,国内涌现出多个GitHub镜像源,为开发者提供了快速、稳定的代码克隆与…

Vue3动态加载组件,警告:Vue received a Component than was made a reactive object

场景 2个按钮&#xff0c;点击之后&#xff0c;下面加载不同的组件。 现象 分析 实际动态加载的组件&#xff0c;不是深层响应式的&#xff0c;推荐使用 shallowReactive 或 shallowRef&#xff0c;即浅层作用形式&#xff0c;仅最外层是响应式&#xff0c;以此来提升性能。…

【源码阅读/Vue Flask前后端】简历数据查询功能

目录 一、Flask后端部分modelServiceroute 二、Vue前端部分index.js main.vue功能界面templatescriptstyle 一般就是三个层面&#xff0c;model层面用来建立数据库的字段&#xff0c;service用来对model进行操作&#xff0c;写一些数据库操作的代码&#xff0c;route就是具体的…

Vue背景介绍+声明式渲染+数据响应式

一、Vue背景 1. 为什么学Vue 1.前后端开发就业必备技能 2.岗位多&#xff0c;绝⼤互联⽹公司都在使⽤Vue&#xff0c;还可以助⼒SpringBoot、C等项⽬开发 3.提⾼开发效率 更少的时间,干更多的活,提高项目开发速度 原生JS做法 Vue做法 总而言之: 使用Vue能够赋能、提升就业竞争…

HarmonyOS NEXT 鸿蒙中手写和使用第三方仓库封装Logger打印工具

应用场景 在鸿蒙开发中&#xff0c;我们在很多时候调试代码都需要用到日志打印工具&#xff0c;但无论是hilog还是console.log,都用起来相对麻烦&#xff0c;而且需要手动将对象转换为JSON字符串的方式才能打印&#xff0c;并且在控制台日志中输出的格式也非常丑。所以下面我们…

批量合并 PDF 文档,支持合并成单个文档,也支持按文件夹合并 PDF 文档

在日常工作中&#xff0c;合并多个 PDF 文档为一个文件是非常常见的需求。通过合并 PDF&#xff0c;不仅能够更方便地进行管理&#xff0c;还能在特定场景下&#xff08;如批量打印&#xff09;提高效率。那么&#xff0c;当我们需要批量合并多个 PDF 文件时&#xff0c;是否有…

rbpf虚拟机-汇编和反汇编器

文章目录 一、概述二、主要功能三、关键函数解析3.1 汇编器3.1.1 parse -转换为Instruction列表3.1.2 assemble_internal-转换为Insn 3.2 反汇编器3.2.1 to_insn_vec-转换为机器指令 四、总结 Welcome to Code Blocks blog 本篇文章主要介绍了 [rbpf虚拟机-汇编和反汇编器] ❤…

虚拟现实--->unity学习

前言&#xff1a;这学期劳动课选了虚拟现实&#xff0c;其中老师算挺认真的&#xff0c;当然对一些不感兴趣的同学来说是一种折磨&#xff0c;我对这个unity的学习以及后续的虚幻引擎刚开始连基础的概念都没有&#xff0c;后面渐渐也是滋生了一些兴趣&#xff0c;用这篇博客记录…

一文详解QT环境搭建:ubuntu20.4安装配置Qt5

随着软件开发技术的不断进步&#xff0c;跨平台应用程序的需求日益增长&#xff0c;开发者们面临着如何在不同操作系统之间保持代码的一致性和效率的问题。Qt作为一个成熟的跨平台C框架&#xff0c;在这方面提供了卓越的支持&#xff0c;不仅简化了GUI应用程序的创建过程&#…

【IDEA的个性化配置】

目录&#xff1a; 一&#xff1a;隐藏项目路径二&#xff1a;禁用斜体注释三&#xff1a;重新Maven构建未完待续... 一&#xff1a;隐藏项目路径 &#x1f60a;在IDEA左侧的Project目录中&#xff0c;项目名称后面显示了项目的文件路径地址&#xff0c;如果不喜欢可以隐藏&…

【Kafka】分布式消息队列的核心奥秘

文章目录 一、Kafka 的基石概念​主题&#xff08;Topic&#xff09;​分区&#xff08;Partition&#xff09;​生产者&#xff08;Producer&#xff09;​消费者&#xff08;Consumer&#xff09;​ 二、Kafka 的架构探秘​Broker 集群​副本机制​ 三、Kafka 的卓越特性​高…