第TR4周：Transformer中的位置编码详解

news2026/2/14 21:31:31

在实施 NLP 解决方案时，循环神经网络（RNN）具有处理序列顺序的内置机制。Transformer则是引入来位置编码机制来保存文本中字符的位置信息。

位置编码定义
位置编码记录了文本中字符的位置信息，这里位置信息的记录不使用单个数字（例如索引值）来记录位置信息的原因有很多。对于长序列，索引的大小可能会变大，不利于存储。如果将索引值规范化为介于 0～1 之间，则可能会为可变长度序列带来问题，因为它们的标准化方式不同。
三角函数
这是对正弦函数的快速回顾；你可以等效地使用余弦函数。函数的取值范围是
[−1,+1]。该波形的频率是一秒内完成的周期数。波长是波形重复自身的距离。不同波形的波长和频率如下所示：
位置编码公式
假设你有一个长度为 L 的输入序列，要计算第K个元素的位置编码。位置编码由不同频率的正弦和余弦函数给出。
可视化理解位置编码
Python实现位置编码，这是使用 NumPy 实现位置编码的简短 Python 代码。简化了代码，以便更容易理解位置编码。

import numpy as np
import matplotlib.pyplot as plt

def getPositionEncoding(seq_len, d, n=10000):
    P = np.zeros((seq_len, d))
    for k in range(seq_len):
        for i in np.arange(int(d/2)):
            denominator = np.power(n, 2*i/d)
            P[k, 2*i]   = np.sin(k/denominator)
            P[k, 2*i+1] = np.cos(k/denominator)
    return P

P = getPositionEncoding(seq_len=4, d=4, n=100)
print(P)

输出如下：

[[ 0.          1.          0.          1.        ]
 [ 0.84147098  0.54030231  0.09983342  0.99500417]
 [ 0.90929743 -0.41614684  0.19866933  0.98006658]
 [ 0.14112001 -0.9899925   0.29552021  0.95533649]]

单个字符可视化，要理解位置编码，让我们从查看 n=10,000 和 d=512的不同位置的正弦波开始。

def plotSinusoid(k, d=512, n=10000):
    x = np.arange(0, 100, 1)
    denominator = np.power(n, 2*x/d)
    y = np.sin(k/denominator)
    plt.plot(x, y)
    plt.title('k = ' + str(k))

fig = plt.figure(figsize=(15, 4))    
for i in range(4):
    plt.subplot(141 + i)
    plotSinusoid(i*4)

下图是上面代码的输出：
在这里插入图片描述
可以看到每个位置对应于不同的正弦曲线，它将单个位置编码为向量。

整句话的位置编码可视化
可视化更大值的位置矩阵。使用 matplotlib 库中的 matshow() 方法。如原始论文中所做的那样设置 n=10,000 ，将得到以下结果：

P   = getPositionEncoding(seq_len=100, d=512, n=10000)
cax = plt.matshow(P)
plt.gcf().colorbar(cax)

这里使用颜色来表示位置编码中的数值：
在这里插入图片描述

位置编码层的最终输出
Transformer中的位置编码层把位置向量与单词编码相加，并为后续层输出该矩阵。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1976067.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

第TR4周：Transformer中的位置编码详解

相关文章

quartz实现动态定时任务管理

学生管理系统之数据库设计与开发

Xilinx FPGA 原语解析（一）：IBUFDS_GTE3 差分时钟输入缓冲器

内网穿透--meterpreter端口隧道

Java算法和集合

Python:下载数据集

视频教程 - 自研Vue3 Tree组件高级功能：虚拟滚动新增节点实现自动滚动

Photoshop Ps2024苹果(mac)版安装下载，（附win/mac下载链接）

基于cubeMX的STM32开启SPI及DMA

Harbor镜像仓库（v2.10.3）附相关自定义配置

1.4亿中文知识图谱导入Nebula Graph快速体验

AI大模型技术的四大核心架构分析

基于若依框架开发的Spring Boot+Vue的MES（生产制造执行系统）是一种专为中小型工厂设计的ERP（企业资源计划）系统

VMWare虚拟机如何连接U盘

2024关于日本AI 领域TOP12 的大学介绍

JavaFX布局-SplitPane

k8s学习2

Cesium 相机控制器(1)-wheel 实现原理简析

3.创建了Vue项目,需要导入什么插件以及怎么导入

WordPress 轻量级产品官网类主题 CeoNova-Pro_v4.4绕授权开心版