Transformer学习(4):位置编码 Positional Encoding

news2024/9/20 13:27:16

为什么需要位置编码

在自注意力编码中,所有 a a a的计算都并行同时执行得到对应的 b b b,可以并行就代表着 a a a之间是不存在先后顺序关系的,这存在问题。

在不使用位置编码时,将 a 2 a_2 a2 a 3 a_3 a3的顺序打乱,不会影响 a 1 a_1 a1输出的数据。
在这里插入图片描述

如何实现存在先后顺序

使用位置编码 p e i pe_i pei,来使得 a i a_i ai包含有位置信息
具体做法:将 p e i pe_i pei a i a_i ai相加,得到新的 a i a_i ai即可
在这里插入图片描述

怎么得到位置编码

1. 使用公式计算出位置编码

可以使用公式来计算出对应的位置编码,其中 p o s pos pos为当前 a a a所在的位置, i i i为向量中的第 i i i个维度。
通过这个公式就可以计算出各个位置的 a a a所对应的位置编码 p e pe pe
在这里插入图片描述
在这里插入图片描述

2. 使用可训练的位置编码

位置编码在训练过程中会不断改变

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2135949.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java项目之疫情下图书馆管理系统源码(springboot)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的疫情下图书馆管理系统。项目源码以及部署相关请联系风歌,文末附上联系信息。 项目简介: 疫情下图书馆管理系…

实景三维赋能低空经济:探索天空之城的未来图景

在数字化转型的大潮中,低空经济作为新兴业态正逐渐崭露头角,它不仅拓宽了航空业的边界,也为智慧城市、应急救援、物流配送、旅游观光等领域带来了前所未有的发展机遇。而实景三维技术,作为地理信息与遥感领域的前沿科技&#xff0…

java环境配置 | 基础铺垫

cmd命令 dir : 罗列目录下所有的文件展示出来cd xx : 进入xx文件夹cd … 返回上一级cls : 清除屏幕内容exit : 退出命令提示窗口环境变量 就是存储某个应用路径的变量,通过这个变量可以快速访问到某个应用exe 为什么要配置环境变量? 我们想要在任意的目录下都可以打开指…

小琳AI课堂:o1系列模型

大家好,这里是小琳AI课堂!今天我们一起来探索OpenAI最新发布的o1系列模型,这可是AI领域的一大突破哦! OpenAI o1系列模型技术大揭秘 o1系列模型是基于强化学习(RL)训练的,包括o1-preview和o1-…

彩漩科技亮相企业出海峰会,展示智能办公新力量

近日,在北京市海淀区商务局的指导下,由中关村东升科技园联合创新企业科普联盟共同举办的企业出海峰会于北京成功举办。本次峰会以“出海新征程,企业新高度”为核心议题,深入探讨全球化背景下科技企业出海面临的机遇与挑战。通过汇…

IntelliJ IDE 插件开发 | (十二)自定义项目脚手架(上)

系列文章 本系列文章已收录到专栏,交流群号:689220994,也可点击链接加入。 前言 在开发创建一个新项目的时候,我们一般都会使用平台自带的脚手架,如下图所示: 或者是使用网页版: 尽管平台已经…

GoogleDrive中上传文件,Java整合操作

GoogleDrive使用ServiceAccount的授权方式:(科学上网) 1.在Google Cloud中查看自己的项目:Dashboard – My First Project – Google Cloud console,没有的话新建项目。默认名称:My First Project 2. 创建…

基于 WeChatFerry 的 Python 机器人框架WeChatRobot

WeChatRobot 一个基于 WeChatFerry 的 Python 机器人框架。 微信机器人,接入Gemini、ChatGPT、ChatGLM、讯飞星火、Tigerbot;成语接龙、天气预报、新闻摘要、定时任务 克隆项目: git clone https://github.com/lich0821/WeChatRobot.git …

计算机毕业设计 沉浸式戏曲文化体验系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

百年病态集论的症结:3000年不识伪≌直线段

黄小宁 公元前1100年中国人商高同周公的一段对话谈到了勾股定理说明人类认识几何学的直线段起码已有3000多年。 直角三角形⊿的斜边c~水平直角边a,即c经旋转和均匀压缩变换可变为a~c。3000年不识伪≌直线段使数学认定a经刚体运动变为附着在c…

rk3399 的 HDMI 热插拔的问题

问题: 客户的3399 的板子上,烧写ubuntu 发现, 没有热插拔。 测试情况: 系统在第一次烧写完成之后,是有热插拔的,但是第二次启动就没有了。 还有一个情况,就是 ,如果我一开始 上电的…

[论文精读]Polarized message-passing in graph neural networks

论文网址:Polarized message-passing in graph neural networks - ScienceDirect 论文代码:he-tiantian/PMP-GNNs:极化消息传递图神经网络的 Pytorch 实现,发表在 Artificial Intelligence,2024 年。 (github.com) 英…

红日靶场通关

初始准备 首先是网络配置,看教程来的,我配置完的效果如下 windows7:(内:192.168.52.143 / 外:192.168.154.136) windows2003:(内:192.168.52.141)windows2008:(内:192.…

运算放大器选型的关键参数

上图中的顺序是从左上到右下进行选型,小信号看带宽,大信号看压摆率。一般选用电压反馈型的运放,但是涉及到高频特性的时候也会选择电流反馈型的运放。精密运放选用失调电压比较小的运放,一般失调电压在1mv左右。低功耗的情况下需要…

极越造车2.0:01销量回暖,07杀出血路,ASD抢跑FSD

‍‍‍作者 |张马也 编辑 |德新 9月13日,极越公布其第二款车型极越07上市48小时内,订单超过5000台。 对这家造车4年多的车企来说,这意味着新车取得了初步的成功。 懂车帝的数据显示,7月极越01销量1143台,8月销量则翻…

Linux 入门:简单的基础操作

“批判他人总是想的太简单 剖析自己总是想的太困难” 文章目录 前言Linux 入门:从基础操作到 WSL2 安装文章有误敬请斧正 不胜感恩!1. 什么是 Linux?2. Linux 和其他系统有啥不同?3. Linux 的主要组成4. 常见 Linux 发行版5. 基本…

openstack之cinder介绍

概念 cinder 为虚拟机提供管理块存储服务。支持的文件系统:lvm、iscsi、nfs、san、RBD 组件构成及功能介绍 cinder api:在控制节点运行,管理服务的接口,被命令行、其他组件调用; cinder scheduler:类似n…

大数据新视界 --大数据大厂之Kafka消息队列实战:实现高吞吐量数据传输

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

美国税收制度及SAP实施

1. 税制综述 美国是以直接税为主的国家,实行联邦、州和地方(市、县)三级征税制度,属于彻底的分税制国家。美国联邦税以个人所得税和企业所得税为其主要收入来源,州税以销售与使用税为其主要收入来源,地方税以财产税为…

UART 16550的使用

前言 本文从操作系统使用 16550 的角度来学习 16550。主要解析通用的串口寄存器的作用。 16550 串口由一系列寄存器控制串口行为。不同的具体设备寄存器的偏移不同,寄存器的长度可能不同。 例如,在 AXI UART 16550中,各寄存器长度都为 32 b…