Transformer中的位置编码:绝对位置编码、相对位置编码与旋转位置编码

news2024/9/22 15:38:11

1. 引言

Transformer模型自2017年提出以来,凭借其在序列到序列任务中的优异表现,迅速成为自然语言处理(NLP)领域的主流模型。与传统的循环神经网络(RNN)不同,Transformer模型完全基于自注意力机制,因此在处理长距离依赖关系方面有显著优势。然而,由于Transformer模型缺乏内置的序列顺序信息,必须通过位置编码(Positional Encoding)显式引入位置信息,以便模型能够区分序列中的不同位置。

位置编码是Transformer模型中一个至关重要的部分,直接影响到模型对序列信息的处理能力。 本文将系统地介绍Transformer模型中的三种主要位置编码方法:绝对位置编码、相对位置编码和旋转位置编码。通过对这些方法的详细剖析,并结合具体代码和案例,深入探讨它们在实际应用中的表现和适用场景。

在本文的案例部分,我们将以“我爱你,中国。”为例,使用d_model=32的设定,通过代码展示每种位置编码的实际效果,以帮助读者更直观地理解这些编码方法。

2. 绝对位置编码

2.1 绝对位置编码的原理

绝对位置编码(Absolute Positional Encoding)是最常见的一种位置编码方法,其**思想是在每个输入序列的元素上添加一个位置向量,以表示该元素在序列中的具体位置。****这个位置向量通常通过固定的函数生成,与输入数据无关。**通常使用的是正弦和余弦函数,这样生成的编码具有很强的周期性,能够捕捉序列中的相对位置信息。

具体来说,对于序列中的第𝑝𝑜𝑠个位置,绝对位置编码向量的第𝑖个维度的值定义如下:

图片

2.2 绝对位置编码的代码实现

接下来,我们将展示如何在代码中实现绝对位置编码,并以“我爱你,中国。”为例,展示位置编码后的向量表示。

import numpy as np
import matplotlib.pyplot as plt

def get_absolute_positional_encoding(seq_len, d_model):
    position = np.arange(seq_len)[:, np.newaxis]    
    div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))    
    pe = np.zeros((seq_len, d_model))    
    pe[:, 0::2] = np.sin(position * div_term)    
    pe[:, 1::2] = np.cos(position * div_term)    
    return pe

# 假设句子长度为8,d_model为32
sentence = "我爱你,中国。"
seq_len = len(sentence)
d_model = 32

absolute_positional_encoding = get_absolute_positional_encoding(seq_len, d_model)

# 展示绝对位置编码的效果
plt.figure(figsize=(12, 8))
plt.imshow(absolute_positional_encoding, cmap='viridis')
plt.colorbar()
plt.title("Absolute Positional Encoding")
plt.xlabel("d_model dimensions")
plt.ylabel("Position in Sentence")
plt.show()

2.3 案例分析

在上面的代码中,我们为长度为8的句子生成了一个绝对位置编码矩阵。该矩阵的维度为(8, 32),每一行表示句子中一个位置的编码。通过热图可以看到,不同位置的编码在特定维度上具有不同的模式,这些模式帮助Transformer区分序列中不同位置的元素。

具体到“我爱你,中国。”这句话,每个字符都有一个32维的编码向量,这个向量的数值是基于该字符的位置计算出来的。这样,Transformer模型在处理这个句子时,就可以感知到每个字符在句子中的位置。

2.4 绝对位置编码的优缺点

绝对位置编码的优势在于其简单且具有良好的可解释性。 它能够有效地为序列中的每个位置分配独特的编码,从而帮助模型捕捉序列的顺序信息。然而,它也有一定的**局限性,**尤其是在处理变长序列或长距离依赖时,绝对位置编码可能无法充分表达复杂的位置信息。

3. 相对位置编码

相对位置编码最早在Transformer-XL和T5等模型中引入,以解决绝对位置编码在捕捉长距离依赖关系时的不足

3.1 相对位置编码的原理

与绝对位置编码不同,相对位置编码(Relative Positional Encoding)并不直接为每个位置分配一个唯一的编码,而是关注序列中各元素之间的相对位置。 相对位置编码的**核心思想是通过计算序列中元素之间的距离,来表示它们之间的相对关系。这种方法尤其适合处理需要捕捉长距离依赖关系的任务,因为它能够更加灵活地表示序列中的结构信息。

相对位置编码可以通过多种方式**实现,其中最常用的方法之一是将位置差值与注意力权重相结合,即在计算自注意力时,不仅考虑内容,还考虑位置差异。**这样,模型能够根据元素之间的距离调整它们之间的交互强度。

3.2 公式推导出

3.2.1 基本概念

图片

3.1.2 计算Attention Scores

图片

在这里,我们可以看到相对位置编码引入了额外的偏置项和位置信息,通过这种方式捕捉到序列中的长距离依赖关系。

3.3 案例

图片

图片

图片

3.4 相对位置编码的代码实现

下面是一个简单的相对位置编码的实现示例,仍然以“我爱你,中国。”为例。

import torch
import torch.nn.functional as F

class RelativePositionalEncoding(torch.nn.Module):
    def __init__(self, d_model, max_len=5000):     
        super(RelativePositionalEncoding, self).__init__()        
        self.d_model = d_model        
        self.max_len = max_len        
        
        # 生成相对位置编码        
        self.relative_positions_matrix = self.generate_relative_positions_matrix(max_len)        
        self.embeddings_table = self.create_embeddings_table(max_len, d_model)    
        
    def generate_relative_positions_matrix(self, length):    
        range_vec = torch.arange(length)        
        distance_mat = range_vec[None, :] - range_vec[:, None]        
        return distance_mat    
        
    def create_embeddings_table(self, max_len, d_model):    
        table = torch.zeros(max_len, max_len, d_model)        
        for pos in range(-max_len+1, max_len):        
            table[:, pos] = self.get_relative_positional_encoding(pos, d_model)        
        return table    
        
    def get_relative_positional_encoding(self, pos, d_model):   
        pos_encoding = torch.zeros(d_model)        
        for i in range(0, d_model, 2):         
            pos_encoding[i] = torch.sin(pos / (10000 ** ((2 * i)/d_model)))            
            if i + 1 < d_model:           
                pos_encoding[i + 1] = torch.cos(pos / (10000 ** ((2 * i)/d_model)))        
        return pos_encoding    
        
    def forward(self, length):    
        positions_matrix = self.relative_positions_matrix[:length, :length]        
        return F.embedding(positions_matrix, self.embeddings_table)

# 使用相对位置编码
sentence_length = len(sentence)
relative_positional_encoding = RelativePositionalEncoding(d_model, max_len=sentence_length)
relative_positional_encodings = relative_positional_encoding(sentence_length)

# 展示相对位置编码的效果
plt.figure(figsize=(12, 8))
plt.imshow(relative_positional_encodings.detach().numpy(), cmap='viridis')
plt.colorbar()
plt.title("Relative Positional Encoding")
plt.xlabel("d_model dimensions")
plt.ylabel("Relative Position")
plt.show()


3.5 案例分析

在这个示例中,我们生成了一个基于相对位置的编码矩阵,该矩阵的维度为(8, 8, 32),每个元素表示句子中两个位置之间的相对编码向量。这种编码方式在处理长句子时能够更好地捕捉不同元素之间的关系,因为它可以灵活地处理序列中的相对位置。

例如,在“我爱你,中国。”中,模型可以更准确地捕捉到“我”和“爱”,“爱”和“你”之间的关系,而不仅仅依赖于它们在句子中的绝对位置。

3.6 相对位置编码的优缺点

相对位置编码的优势在于其对序列长度和相对位置信息的良好适应性,特别适合处理长文本或存在复杂依赖关系的任务。然而,相对位置编码的实现相对复杂,且在某些情况下可能增加计算成本。

4. 旋转位置编码

4.1 旋转位置编码的原理

旋转位置编码(Rotary Positional Encoding, RoPE)是近年来提出的一种新型位置编码方法,主要应用于图像处理和三维数据处理中。RoPE的核心思想是通过对输入向量进行旋转变换,将位置信息嵌入到向量中。具体来说,RoPE通过旋转每个维度对中的向量,实现对序列中位置信息的编码。

RoPE具有很强的表达能力,尤其是在处理具有对称性或周期性的任务时,能够更加自然地捕捉序列中的位置信息。

4.2 公式推导

4.2.1 基本概念

图片

4.2.2 在查询和键向量中的应用

图片

4.2.3 旋转操作 (rotate) 详解

图片

图片

可以得到:

图片

图片

4.3 旋转位置编码的代码实现

下面的代码展示了如何在NLP任务中实现旋转位置编码,并以“我爱你,中国。”为例,展示其效果。
在这里插入图片描述
在这里插入图片描述

4.4 案例分析

在上述代码中,我们通过旋转向量对实现了RoPE编码,并将其应用于Q和K矩阵。可视化结果显示,经过旋转位置编码后,Q矩阵的不同维度展示出明显的周期性模式,这有助于捕捉序列中的周期性或对称性信息。

在“我爱你,中国。”的例子中,RoPE能够更好地捕捉句子中的重复模式和相似结构。例如,“我”和“你”可能在某些情境中具有相似的语义,而这种关系可以通过RoPE更自然地表达。

4.5 旋转位置编码的优缺点

RoPE的优势在于其强大的表达能力,特别是在处理具有对称性或周期性特征的数据时表现优异。 此外,RoPE具有一定的灵活性,可以应用于不同类型的输入数据。然而,RoPE的实现复杂度较高,且其适用性尚需在更多场景中验证。

5. 三种位置编码的比较与应用场景

5.1 性能比较

在实际应用中,选择适当的编码方式对于模型性能至关重要。绝对位置编码因其简单易实现且在大多数NLP任务中表现良好,成为默认选择。然而,在处理长文本或复杂依赖关系时,相对位置编码具有明显优势,能够捕捉到更为细致的序列信息。而RoPE则因其在特定任务中的独特表现,成为研究人员探索的热点。

5.2 应用场景

绝对位置编码:适用于大多数NLP任务,尤其是短文本处理和无复杂依赖的场景,如文本分类和情感分析。

相对位置编码:适用于长文本处理和需要捕捉长距离依赖的任务,如机器翻译和问答系统。

旋转位置编码:适用于具有对称性或周期性特征的数据处理任务,如图像处理、时间序列分析,以及在3D数据中的应用。

6. 总结

位置编码是Transformer模型中至关重要的一部分,不同的编码方式适用于不同的任务和数据类型。本文详细介绍了绝对位置编码、相对位置编码和旋转位置编码的原理、实现及应用,通过具体的案例分析展示了它们在实际任务中的表现。随着NLP领域的不断发展,新的位置编码方法可能会不断涌现,进一步提升Transformer模型在复杂任务中的表现。

了解并掌握这些位置编码方法,将有助于研究人员和工程师更好地应用Transformer模型,处理各种序列数据,提升模型的性能和应用效果。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2055436.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java 入门指南:反射机制

RTTI RTTI&#xff08;Run-Time Type Identification&#xff09;是一种在运行时确定对象类型的机制。它是一种编程语言特性&#xff0c;主要用于在运行时动态识别和处理对象的实际类型。 通过 RTTI&#xff0c;可以在运行时根据对象的实际类型执行相应的操作。这在处理多态对…

sdn nce insight

SDN&#xff08;Software-Defined Networking&#xff09; 和 NFV&#xff08;Network Functions Virtualization&#xff09; 是现代网络架构中的两项关键技术&#xff0c;它们共同推动了网络的虚拟化、自动化和灵活性。尽管它们各自有不同的焦点和应用领域&#xff0c;但通常…

HarmonyOS应用四之页面加载构建以及数据请求

目录&#xff1a; 1、加载网络页面/本地页面/html页面2、页面布局3、HTTP/HTTPS的数据请求4、上传图片并保存数据 1、加载网络页面/本地页面/html页面 // xxx.ets import { webview } from kit.ArkWeb; import { BusinessError } from kit.BasicServicesKit;Entry Component s…

Java面试八股之消息队列中推模式和拉模式分别有哪些使用场景

消息队列中推模式和拉模式分别有哪些使用场景 消息队列的推模式&#xff08;Push&#xff09;和拉模式&#xff08;Pull&#xff09;各有不同的使用场景和优缺点。下面我会详细介绍这两种模式及其适用场景&#xff1a; 推模式&#xff08;Push&#xff09; 特点&#xff1a;…

进哥在线shinyapps工具(自备)

Jingle’s shinyapps toolkit – 王进的个人网站 (jingege.wang) 一些常用生物信息学分析可视化apps&#xff0c;以及一些分子生物学分析工具&#xff08;尴尬&#xff0c;一直忘记附上链接&#xff09; Jingles toolkit 可以进行多种分析&#xff1a; 1. General plots示例…

putty中修改默认窗口大小和字体、字号

在WinSCP中调用putty&#xff0c;发现默认窗口太小&#xff0c;字号也很小&#xff0c;非常不友好。现在显示器都是1080p起步&#xff0c;所以很有必要修改之。 以中文版v0.70为例&#xff0c;方法&#xff1a; 1. 点击左上角图标 &#xff0c;选择下拉菜单中的“修改设置”&…

Qt-信号和槽(8)

目录 信号的概念 Qt中的信号三要素 connect函数 connect的原型 connect的使用 信号函数和槽函数 参数匹配 close关闭槽函数 运行结果 第一个问题&#xff1a;怎么知道 手册使用 第二个问题&#xff0c;为什么可以直接传递函数指针 自定义槽函数 第一种自定义槽函…

Flask详细教程

1、Flask是什么&#xff1f; Flask是一个非常小的PythonWeb框架&#xff0c;被称为微型框架&#xff08;类似Java的SpringBoot&#xff09;&#xff1b;只提供了一个稳健的核心&#xff0c;其他功能全部是通过扩展实现的&#xff1b;意思就是我们可以根据项目的需要量身定制&a…

前端css动画transform多个属性值写法

X轴平移400px transform: translateX(400px); X轴平移400px并缩小0.5倍 transform: translateX(400px) scale(0.5); X轴平移400px并旋转45度 transform: translateX(400px) rotate(45d…

农产品智慧物流系统pf

TOC springboot537农产品智慧物流系统pf 第1章 绪论 1.1 课题背景 互联网发展至今&#xff0c;无论是其理论还是技术都已经成熟&#xff0c;而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播&#xff0c;搭配信息管理工具可以很好地为人们提供服务。所以各行…

全新分支版本!微软推出Windows 11 Canary Build 27686版

已经很久没有看到 Windows 11 全新的分支版本了&#xff0c;今天微软发布 Windows 11 Canary 新版本&#xff0c;此次版本号已经转移到 Build 27xxx&#xff0c;首发版本为 Build 27686 版。 此次更新带来了多项改进&#xff0c;包括 Windows Sandbox 沙盒功能切换到 Microsof…

『 Linux 』利用UDP套接字实现简单群聊

文章目录 服务端通过传入命令处理实现远程命令执行使用Windows编辑UDP客户端实现Windows远程控制Linux接收套接字的其他信息UDP套接字简单群聊服务端UDP套接字简单群聊客户端运行测试及分离输入输出 参考代码 服务端通过传入命令处理实现远程命令执行 『 Linux 』利用UDP套接字…

led台灯对眼睛好不好?台灯太亮会影响视力吗?解锁护眼台灯小知识

中国的近视情况十分严峻&#xff0c;尤其在青少年群体中表现得更为突出。据统计&#xff0c;中国青少年的近视率高居世界第一&#xff0c;这主要与长时间的近距离用眼、过度使用电子产品以及户外活动时间减少等因素有关。优质的护眼台灯不仅能减少近视的发生率&#xff0c;还能…

创建一个简单的Vue3.0应用程序

1、Vue.createApp() 方法的介绍 每一个 Vue.js 的应用都需要创建一个应用程序的实例对象并挂载到指定 DOM 上。在 Vue3.0 中&#xff0c;创建一个应用程序实例的语法格式如下&#xff1a; Vue.createApp(App) createApp() 是一个全局 API&#xff0c;它接收一个根组件选项对…

基于SpringBoot+Vue疫情物资捐赠和分配系统--论文pf

TOC springboot518基于SpringBootVue疫情物资捐赠和分配系统--论文pf 第1章 绪论 1.1 课题背景 二十一世纪互联网的出现&#xff0c;改变了几千年以来人们的生活&#xff0c;不仅仅是生活物资的丰富&#xff0c;还有精神层次的丰富。在互联网诞生之前&#xff0c;地域位置往…

开源一款H5自适应留言表白墙php源码下载

开源一款H5自适应留言表白墙php源码下载&#xff0c;优点就是安装简单&#xff0c;功能实用[滑稽][滑稽] 缺点就是UI简陋&#xff0c;功能稀少 第一张是首页&#xff0c;第二张是查看留言 第三张是留言列表(10秒自动刷新)&#xff0c;第四张是表白墙界面

小程序商城被盗刷,使用SCDN安全加速有用吗?

在电子商务蓬勃发展的今天&#xff0c;小程序商城因其便捷性和灵活性成为商家和消费者的新宠。然而&#xff0c;随着其普及&#xff0c;小程序商城的安全问题也日益凸显&#xff0c;尤其是盗刷现象频发&#xff0c;给商家和用户带来了巨大损失。面对这一挑战&#xff0c;是否可…

android13隐藏调节声音进度条下面的设置按钮

总纲 android13 rom 开发总纲说明 目录 1.前言 2.情况分析 3.代码修改 4.编译运行 5.彩蛋 1.前言 将下面的声音调节底下的三个点的设置按钮,隐藏掉。 效果如下 2.情况分析 查看布局文件 通过布局我们可以知道这个按钮就是 com.android.keyguard.AlphaOptimizedImageB…

火语言RPA流程组件介绍--变量赋值

变量赋值 &#x1f6a9;【组件功能】&#xff1a;对已定义的变量进行赋值操作。 支持对任意类型的变量进行赋值&#xff0c;赋值内容可以为字符串也可通过表达式进行计算运行后再赋值给指定变量。 配置预览 配置说明 变量名称 手动输入变量名称或点击输入框下拉选择已创建…

el-form的必填校验的星号*放在label的右边

1.el-form添加hide-required-asterisk <el-form :model"userInfoForm" label-width"80px" :inline"true" :rules"rules" ref"ruleForm"label-position"top"hide-required-asterisk>2.添加样式 .el-form-it…