Transformer的前世今生 day08(Positional Encoding)

news2025/1/6 18:36:39

前情提要

  • Attention的优点:解决了长序列依赖问题,可以并行。Attention的缺点:开销变大了,而且不存在位置关系
  • 为了解决Attention中不存在位置关系的缺点,我们通过位置编码的形式加上位置关系

Positional Encoding(位置编码)

  • 通过在原输入词向量的基础上,给他加一个位置编码,组成新的输入词向量
    在这里插入图片描述
  • 位置编码的具体公式,如下:
    • 其中:pos指当前单词在句子中的位置,i指位置编码维度的第几维(通常来说词向量的维度为512,那么i就是0-511,表示第几维)
    • 所以,对于某个词的位置编码,偶数维度用了sin函数,奇数维度用了cos函数
      在这里插入图片描述
  • 得到位置编码后,与输入词向量X叠加后,得到新的输入词向量X’
    在这里插入图片描述
  • 由于sin和cos函数有以下公式,那么我们可以得到某一个位置的位置编码和其他两个位置的位置编码之间的关系,如下:
    在这里插入图片描述
  • 所以,当我们使用位置编码的这个函数时,对于pos+k位置的位置向量某一维2i或2i+1而言,可以表示为,pos位置与k位置的位置向量2i和2i+1的线性组合,而这个线性组合意味着pos+k的位置向量中蕴含了pos位置和k位置的位置信息
  • 而且这个位置编码的位置信息具有独特性,会随着我们输入句子的顺序改变而发生改变,比如“我爱你”中的你的位置编码,和“你爱我”中的你的位置编码所蕴含的位置信息就不同

参考文献

  1. 14 Positional Encoding (为什么 Self-Attention 需要位置编码)
  2. 1401 位置编码公式详细理解补充

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1547008.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【保姆级讲解Edge兼容性问题解决方法】

🌈个人主页:程序员不想敲代码啊🌈 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家🏆 👍点赞⭐评论⭐收藏 🤝 希望本文对您有所裨益,如有不足之处,欢迎在评论区提…

头条网盘如何快速获取授权推广

近期可以说是网盘拉新的一个盛宴,好几家网盘为了抢夺用户,都在付费拉新用户,而如今头条网盘也需要开拓市场,方式也很简单粗暴,就是拿钱砸,而对于普通用户来说,只要获得授权,正是赚钱…

【Linux】基础 IO(动静态库)-- 详解

一、前言 为什么要使用别人的代码? 主要是为了提高程序开发的效率和程序的健壮性。 当别人把功能都实现了,然后我们再基于别人的代码去做二次开发,那么效率当然就提高了。其次,这里基于的别人当然不是随便找的一个人,…

基于SpringBoot和Leaflet的行政区划地图掩膜效果实战

目录 前言 一、掩膜小知识 1、GIS掩膜的实现原理 2、图层掩膜流程 二、使用插件 1、leaflet-mask介绍 2、核心代码解释 三、完整实例实现 1、后台逻辑实现 2、省级行政区划查询实现 3、行政区划定位及掩膜实现 4、成果展示 总结 前言 在之前的博客提过按空间矢量…

喜报!数维杯数学建模成功入围安徽工业大学学科竞赛推荐名单

喜报!数维杯数学建模挑战赛成功入围安徽工业大学学科竞赛参赛目录。 安徽工业大学创新创业学院发布了《2023年度安徽工业大学大学生学科竞赛参赛目录》。 其中,数维杯大学生数学建模挑战赛成功入围竞赛参赛目录,感谢全国各高校对数维杯的高…

CUMT linux操作系统课程设计 任务2

先说题目: 调试Linux内核的启动过程,并在Linux 0.11内核进入保护模式之前添加提示信息 //这里吐槽一下,学校发的文档让你用断点去查看运行根本无法操作,报错如下: 所以别管这个报错,先跟着我来 第一题,调试…

Filter,Listener

1,Filter 概念:Filter表示过滤器,是JavaWeb三大组件(Servlet、Filter、Listener)之一 过滤器可以把对资源的请求拦截下来,从而实现一些特殊的功能 过滤器一般完成一些通用的操作,比如:权限控制、统一编码处理、敏感字符处理等等…

关于ChatGPT辅助论文写作的重大风险预警

ChatGPT已经发布一年多了,我说说使用它之后最大的变化。 我在工作上变得更懒了! 现在与工作有关的,做啥都想着先用ChatGPT来搞。 比如,拍领导马屁: 领导说,“996是福报,混日子不是兄弟。” 我想…

javaWeb校园二手平台项目

一、系统分析 1.1开发背景 随着全世界互联网技术的不断发展,各种基于互联网技术的网络应用不断涌现,网络技术正在不断的深入人们的生活。人们从Internet上获取信息、享受生活、交流感情、网上工作等。Internet正在迅速改变着人们的生活方式。 经过我国改革开放多年…

Docker数据卷与网络模式

华子目录 数据卷注意数据卷操作查看镜像,容器,数据卷所占空间 Docker的网络模式查看指定容器的网络模式bridge模式none模式host模式container模式 数据卷 数据卷是一个可供一个或多个容器使用的特殊目录,它绕过UFS,可以提供很多有…

【Qt】使用Qt实现Web服务器(八):SSE ( Server-sent Events )

1、简述 SSE ( Server-sent Events )是 WebSocket 的一种轻量代替方案,使用 HTTP 协议。 SSE 是单向通道,只能服务器向客户端发送消息,如果客户端需要向服务器发送消息,则需要一个新的 HTTP 请求。 WebSocket 是全双工通道,可以双向通信。 2、效果 在界面上不停的刷…

环境影响与碳排放生命周期评估应用及案例分析

生命周期分析 (Life Cycle Analysis, LCA) 是评价一个产品系统生命周期整个阶段——从原材料的提取和加工,到产品生产、包装、市场营销、使用、再使用和产品维护,直至再循环和最终废物处置——的环境影响的工具。这种方法被认为是一种“从摇篮到坟墓”的…

【Kubernetes】在 Mac 上搭建 Kubernetes

安装 Docker Desktop 前往 Install Docker Desktop on Mac | Docker Docs 下载 Docker Desktop 并完成安装。 配置镜像加速服务 在国内通过官方镜像源的下载速度很慢,因此需要配置镜像加速服务。 国内常见的镜像加速服务有: mirror.baidubce.comhub-…

基于springboot+vue+Mysql的网上图书商城

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

24/03/26总结

面向对象练习题:(封装,继承,多态) 封装:对象代表什么,就得封装对应的数据,并提供数据对应的行为,(把零散的数据和行为封装成一个整体:也就是我们说的对象) 继承:当封装…

Java编程练习之类的多态

类的多态可以从两方面体现:一是方法的重载,二是类的上下转型。 1)方法的重载 方法的重载就是在同一个类中允许同时存在多个同名方法,只要这些方法的参数个数或类型不同即可。 练习1: 使用方法的重载描述所有的超市…

分治——快速排序算法

例题一 解法(快排思想 - 三指针法使数组分三块): 算法思路: 类⽐数组分两块的算法思想,这⾥是将数组分成三块,那么我们可以再添加⼀个指针,实现数组分 三块。 设数组⼤⼩为 n &#xff0c…

快速了解LED开关电源的常见故障及如何解决

LED开关电源应用广泛,在我们的生活和工作中无处不在。然而在LED开关电源的实际使用中会出现一些问题和故障,可能会造成电源和LED灯受损。本文纳米软件将为大家介绍常见的LED开关电源的故障以及解决方法。 1. 输出电流不稳定 LED开关电源输出电流不稳定通…

Nuxt2:node-sass替换为sass,避免因依赖python导致Can‘t find Python executable “python“错误

一、问题描述 由于node-sass依赖于python,在缺少python环境时,会报以下错误: npm ERR! gyp ERR! stack Error: Cant find Python executable "python", you can set the PYTHON env variable.当服务器环境不想安装python或者不方…

Vitis报错:fatal error: xxx.h: No such file or directory.

在跑vitis工程文件时出现fatal error: xxx.h: No such file or directory.的错误,出现这种情况的主要是出现在大家用了自定义IP。 记住如果时出现Makefile出现错误,并不是你的代码问题而是软件bug,我们需要更改一些文件才能正常跑。 讲解一下…