位置编码的具体计算方式(公式解释)

news2024/11/15 15:46:24

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
公式 (10.6.2) 描述了位置编码的具体计算方式,这种位置编码基于正弦和余弦函数,用于在自注意力机制中引入位置信息。下面我们详细解释公式和代码。

公式 (10.6.2)

公式 (10.6.2) 的目的是为输入序列中的每个词元添加一个位置编码,以保留序列的位置信息:

[
\begin{split}
\begin{aligned}
p_{i, 2j} &= \sin\left(\frac{i}{10000^{2j/d}}\right), \
p_{i, 2j+1} &= \cos\left(\frac{i}{10000^{2j/d}}\right).
\end{aligned}
\end{split}
]

这里:

  • ( p_{i, 2j} ) 是位置编码矩阵 (\mathbf{P}) 的第 (i) 行、第 (2j) 列的元素。
  • ( p_{i, 2j+1} ) 是位置编码矩阵 (\mathbf{P}) 的第 (i) 行、第 (2j+1) 列的元素。
  • ( i ) 表示词元在序列中的位置。
  • ( j ) 表示编码维度的索引。
  • ( d ) 是词元向量的维度。

这些位置编码使用不同频率的正弦和余弦函数,较小的频率用于较低的维度,较大的频率用于较高的维度。

在这里插入图片描述
在这里插入图片描述
让我们详细解释一下为什么在公式 (10.6.2) 中使用 ( i ) 和 ( 2j ),为什么是 ( 10000^{2j/d} ),以及为什么选择正弦和余弦函数。

1. 为什么是 ( i ) 和 ( 2j )

  • ( i ): 表示词元在序列中的位置。
  • ( 2j ) 和 ( 2j+1 ): 表示编码维度的索引。位置编码矩阵的每个词元的每个维度都有两个值,一个是正弦函数值,另一个是余弦函数值。

在位置编码矩阵中,维度 ( 2j ) 存储正弦函数值,维度 ( 2j+1 ) 存储余弦函数值。这种交替存储方式允许位置编码同时捕捉到不同频率的周期信息。

2. 为什么是 ( 10000^{2j/d} )

  • ( 10000^{2j/d} ): 这是一个缩放因子,确保不同维度的频率不同。具体来说,随着 ( j ) 的增加,频率会指数级地增加。

    • 当 ( j ) 较小时, ( \frac{2j}{d} ) 也较小,这意味着 ( 10000^{2j/d} ) 较小,从而使 ( \frac{i}{10000^{2j/d}} ) 较大,结果是低频率。
    • 当 ( j ) 较大时, ( \frac{2j}{d} ) 也较大,这意味着 ( 10000^{2j/d} ) 较大,从而使 ( \frac{i}{10000^{2j/d}} ) 较小,结果是高频率。

这种设计保证了不同维度上位置编码的频率不同,从而捕捉到多种粒度的位置信息。

3. 为什么选择正弦和余弦函数

选择正弦和余弦函数的主要原因是它们的周期性和相位特性。这些函数可以捕捉到序列中的相对位置关系:

  • 正弦函数和余弦函数的周期性: 位置编码利用了正弦和余弦函数的周期性,能够捕捉到词元在序列中的相对位置。因为这些函数是周期性的,模型可以通过这些位置编码了解词元之间的相对距离。

  • 正弦和余弦的互补性: 正弦函数和余弦函数是相位差90度的互补函数,组合在一起可以更全面地描述位置信息。

总结

结合以上几点,公式 (10.6.2) 的位置编码设计利用了正弦和余弦函数的周期性特性,通过不同的频率和相位捕捉序列中词元的相对位置,从而增强了模型对序列顺序信息的理解。

这就是为什么公式 (10.6.2) 被设计成这个样子:通过 ( i ) 来表示位置,通过 ( 10000^{2j/d} ) 来控制频率,通过正弦和余弦函数来捕捉不同频率的位置信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1907003.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

下载程序到仿真

第一步,新建工程 第二步,设备组态 第三步,地址分配 需要注意的是,分配地址的范围,是CPU决定的。 关于常见数据类型 下载与仿真 一般安装好博图会自带。 PLCSIM/PLCSIM Advanced PLCSIM普通仿真 PLCSIM Advanced高级…

绝地求生PUBG没有开始游戏按钮的解决办法

绝地求生是一款特别热门的战术竞技型射击类游戏,游戏中玩家需要在游戏地图上收集各种资源,并在不断缩小的安全区域内持武器对抗其他玩家,让自己生存到最后。当游戏最后场上只剩下一支队伍的时候即可获得游戏胜利。然而一些玩家在游玩绝地求生…

MICCAI 2024Centerline Boundary Dice Loss for Vascular Segmentation

MICCAI 2024 Centerline Boundary Dice Loss for Vascular Segmentation MICCAI 2024Centerline Boundary Dice Loss for Vascular Segmentation中心线边界Dice损失用于血管分割**摘要**:1. 引言相关工作: 2. 方法预备知识Dice的变化 3 实验3.1 数据集3.2 设置3.3 结…

autocad软件许可优化解决方案

Autocad软件介绍 Autodesk 是世界领先的设计软件和数字内容创建公司,用于建筑设计、土地资源开发、生产、公用设施、通信、媒体和娱乐。始建于 1982 年,Autodesk 提供设计软件、Internet 门户服务、无线开发平台及定点应用,帮助遍及 150 多个…

uniapp 表格,动态表头表格封装渲染

1.接口表格数据: {"headers": [{"label": "实例名","name": "v1","order": 1,"hide": false,"dateTypeValue": null},{"label": "所属科室","name&quo…

【Java伴学笔记】Day-01 命令行|环境|编译解释运行|Java的相关分支|Java的特性|字面量

一、关于命令行 图形化界面的缺点 需要加载图片等一系列资源 效率较低 命令行 CMDMicrosoft Learn-CMDWindows CMD常用命令大全(值得收藏) 二、环境 什么是JDK JDK是Java Development Kit的缩写,意为Java开发工具包。它是一个用于开发Java应用…

分类下两列一组统计

表格 A 列是分类,后面是 2N 个 key-value 列 ABCDEFG1CountryLabel1Count1Label2Count2Label3Count32USA10B9C83USD9C8A74USC8D7B65USA7C6B56CAA10B9C87CAD9C8A78CAC8D7B69INA10C9B810IND9A8B711INA8D7B6 需要对分类、key 分组,对 value 求和&#xff…

【Qt】Qt Creator初使用

目录 一. 创建新项目 二. 认识Qt Creator界面 2.1 main.cpp 代码解释 2.2 mywidget.h 代码解释 2.3 mywidget.cpp 代码解释 2.4 form file —— Forms里的mywidget.ui 2.5 .pro文件 2.6 编译生成的中间文件 Qt Creator是一个跨平台集成开发环境(IDE),专门用…

Vue3使用markdown编辑器之Bytemd

官网地址:https://bytemd.js.org/playground GitHub地址:https://github.com/bytedance/bytemd ByteMD 是字节跳动出品的富文本编辑器,功能强大,可以免费使用,而且支持很多掘金内置的主题,写作体验很棒。 …

Android约束布局的概念与属性(1)

目录 1.相对定位约束2.居中和偏移约束 约束布局(ConstraintLayout)是当前Android Studio默认的布局方式,也是最灵活的一种布局方式。约束布局推荐使用所见即所得的模式进行布局,约束布局的大部分布局可以通…

CentOS7下安装Doris

Doris简介 Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场…

SpringBoot升级引发一个循环依赖支持问题

最近有个重要的项目要求使用带自定义表单的工作流。要求灵活配置流程。选用了较稳定的Flowable6.72版本。但面临着一个问题。教材上,Flowable6.7.2要求匹配的SpringBoot版本是2.6.2.需要对项目的Boot版本从2.3releae升到2.6.2,其他还好。不存在有类编译问题或类找不到问题。就是…

互联网银行每日2TB数据量,Apache SeaTunnel集成应用轻松搞定!

在我国,数字化的趋势驱动互联网银行发展走上快车道,近年来互联网银行发展迅速,积极拓展线上业务,并利用大数据技术加强风险控制,积极进行数字化转型。当新兴互联网银行乘着数字化改革的风潮搭档数据集成平台Apache Sea…

Android 15 适配之16K Page Size :为什么它会是最坑的一个适配点

首先什么是 Page Size ?一般意义上,页面(Page)指的就是 Linux 虚拟内存管理中使用的最小数据单位,页面大小(Page Size)就是虚拟地址空间中的页面大小, Linux 中进程的虚拟地址空间是由固定大小的页面组成。 Page Size 对于虚拟内…

如何把harmonos项目修改为openharmony项目

一开始分不清harmonyos和openharmony,在harmonyos直接下载的开发软件,后面发现不对劲,打脑阔 首先你要安装对应版本的开发软件,鸿蒙开发是由harmonyos和openharmony官网两个的,找到对应的地方下载对应版本的开发软件&…

rocketmq实现限流

目录 问题背景 技术方向 方案确认 消息队列(√) 分布式锁() 方案实现 监控方向 业务方向 问题背景 公司邮件服务token有 分钟内超200封的熔断机制,当前token被熔断后,系统发邮件操作会被忽略&…

关于微信支付-商户平台:查询订单提示“查询失败:操作失败,请稍候重试”的分析

目录 引子 分析 应对 小结 引子 在开发和实施微信 JSAPI 支付的应用后,我们遇到了一些问题,订单的状态更新不正常,当然我们首先需要从自身寻找原因和完善解决问题的办法和方案。在支付的过程中,客户会给我们一些反馈&#xf…

K8S篇之Ingress详解以及用法说明

一、Ingress简介 Ingress 是 Kubernetes 中用于管理和配置从集群外部访问集群内部服务的资源对象。它通过定义路由规则来控制外部流量的访问方式,支持基于 HTTP 和 HTTPS 的高级路由功能和安全性配置。 Ingress是一种HTTP方式的路由转发机制,为K8S服务配…

【力扣高频题】014.最长公共前缀

经常刷算法题的小伙伴对于 “最长”,“公共” 两个词一定不陌生。与此相关的算法题目实在是太多了 !!! 之前的 「动态规划」 专题系列文章中就曾讲解过两道相关的题目:最长公共子序列 和 最长回文子序列 。 关注公众…

SpringCloud 负载均衡

目录 一、负载均衡 1、问题 2、什么是负载均衡 服务端负载均衡 客户端负载均衡 二、Spring Cloud LoadBalance 1、使用 Spring Cloud LoadBalance 2、负载均衡策略 3、LoadBalancer 原理 一、负载均衡 1、问题 我们来看一下前面写的代码&#xff1a; List<Serv…