Transformer 简单理解

news2024/10/3 4:30:41

文章目录

  • 一、Transformer的架构
  • 一、编码
    • 1.1 词向量编码(Input Embedding)
    • 1.2 位置编码(Positional Encoding)
  • 二、Mask
    • 2.1 PAD Mask
    • 2.2 上三角Mask
  • 二、注意力计算
    • 2.1 Q、K、V 向量的生成
    • 2.2 自注意力计算流程
    • 2.2 单头注意力和多头注意力
  • 三、计算流

参考自 https://www.bilibili.com/video/BV19Y411b7qx?p=2&vd_source=e768911f41969985adfce85914bfde8f

一、Transformer的架构

在这里插入图片描述

一、编码

词向量编码 + 位置编码 = 最终的输入编码

1.1 词向量编码(Input Embedding)

可以是简单的词向量编码

1.2 位置编码(Positional Encoding)

Teanformer 不同于Rnn, 在处理数据时,不考虑数据的位置信息,所以需要在数据中加入位置信息,以让处于不同位置的相同数据有所不同,相互区分。
在这里插入图片描述

p o s pos pos: 词位置,[0,1,2,3…] 第一个词、第二个词
i i i: 编码位置,[0, 1, 2, 3, …], i i i 是词向量编码后,第0个向量,第1个向量
如果词向量编码是32个维度,那么 i i i 是 0-31

p o s pos pos 是PE矩阵的行数, i i i 是矩阵的列数
d m o d e l d_{model} dmodel: 编码维度, 32
来看一个位置编码的矩阵截图
可以看到,第一列数值波动的频率比较高,越往右波动越小
在这里插入图片描述

二、Mask

最终Mask 是Pad mask 与上三角mask取并集

2.1 PAD Mask

让一句话保持同样的长度,当出现短的句子的时候,需要补Pad,

每个词对Pad的注意力标注为Mask, 但Pad 对每个词的注意力正常计算
在这里插入图片描述

2.2 上三角Mask

b和c是需要预测到的词,因此a不能注意到b
在这里插入图片描述

二、注意力计算

2.1 Q、K、V 向量的生成

在这里插入图片描述

2.2 自注意力计算流程

在这里插入图片描述在这里插入图片描述

2.2 单头注意力和多头注意力

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、计算流

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1128538.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MTK OEM解锁步骤

1.在win10 首选安装驱动 插入usb线后,进入在设备管理器 里面看到 未识别黄色图标的 android 以后,右击点击更新驱动,然后安装解压后的驱动 同时在开发者模式里面的 oem解锁开关打开 2. adb 命令解锁步骤 1.adb reboot bootloader 2.fastbo…

Json字符串转换小工具

下载【免费】Json字符串格式化和压缩,支持数组元素的不换行且能转换成16进制资源-CSDN文库 推荐理由: 离线使用支持json字符串的数据格式化和压缩,如:图1支持数组元素的16进制转换,如:图2支持数组元素不换…

【AI视野·今日CV 计算机视觉论文速览 第272期】Fri, 20 Oct 2023

AI视野今日CS.CV 计算机视觉论文速览 Fri, 20 Oct 2023 Totally 62 papers 👉上期速览✈更多精彩请移步主页 Daily Computer Vision Papers Putting the Object Back into Video Object Segmentation Authors Ho Kei Cheng, Seoung Wug Oh, Brian Price, Joon Youn…

用长tree方式做等长线

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 相关文章链接: 用set_data_check的方式做等长线 前面讲过了如何用set_data_check做等长线,这里再讲一下如何用cts的方式做。 1)写一个sdc,把等长线的起点设置成clock source,用于创建create_…

网易云音乐下载的歌曲能永久听吗?超级简单!

网易云下载的歌曲当然可以永久听,只是因为网易云音乐是ncm格式,在很多平台不兼容,这时候就需要转换成兼容性更高的MP3格式,了解一些音频转换工具,就可以轻松搞定! 方法一:使用野葱视频转换器 1…

Shor算法30年来首次重大改进!更快破解密码

(图片来源:网络) 1994年,美国麻省理工学院 (MIT) 的应用数学家 Peter Shor 实现了量子计算机的第一个实际应用:破译密码。他展示了在查找大质数的质因子时,量子计算机比传统计算机要快得多,查找…

AOP 笔记

AOP【面向切面编程】 作用:在不惊动原始设计的基础上进行功能增强。 无侵入式编程 连接点:程序执行的任意位置,SpringAOP中,理解为方法的执行。 切入点:匹配连接点的式子,要追加功能的方法 通知(写在通…

python append()会造成的同时改变list里两个数据的问题

运行时debug发现,给vertice[474][2]赋值,会改变vertice[40][2],改变vertice[40][2]的时候vertice[474][2]也同时变了,好像这两个被绑定了; 后续调查发现生成vertice时使用了vertice.append(vertice[i])这种浅拷贝语句…

SpringBoot集成Redis主从架构实现读写分离(哨兵模式)

一、前言 这里会使用到spring-boot-starter-data-redis包,spring boot 2的spring-boot-starter-data-redis中,默认使用的是lettuce作为redis客户端,也推荐使用lettuce,Redis使用哨兵集群,这里会通过lettuce连接到哨兵…

MCmod:冰与火之歌:龙骑士(一)

1.前言 1.投果结果 我在11天前(约2023年10月5日)发布了投票:更新选择。 链接:https://blink.csdn.net/details/1585093?spm1001.2014.3001.5501 植物大战僵尸各种僵尸攻略系列已经结束了,你们想要下一个更什么系列 …

1-08 移动端适配 rem+vm

移动端适配 remvm React配置postcss-px-to-viewport 安装依赖:在项目根目录下运行以下命令安装所需的依赖包: npm install postcss-px-to-viewport --save-dev配置代码 const path require(path);module.exports {webpack: {alias: {: path.resolv…

关于binwalk->sasquatch插件安装错误的缓解方案

一些相关报错: WARNING: Extractor.execute failed to run external extractor ‘sasquatch -p 1 -le -d ‘squashfs-root’ ‘%e’’: [Errno 2] No such file or directory: ‘sasquatch’, ‘sasquatch -p 1 -le -d ‘squashfs-root’ ‘%e’’ might not be in…

旋转设备实施预测性维护面临的挑战及解决方案

旋转设备是工业领域中至关重要的一类设备,然而,它们常常面临着各种故障和损耗,给生产运行和设备维护带来了诸多挑战。为了应对这些挑战,越来越多的企业开始采用预测性维护技术,以提前发现故障迹象并采取相应措施。本文…

PS软件 点击 “另存为 Web 所用格式” ,提示错误 无法完成操作 系统找不到指定路径

软件:Adobe Photoshop 问题: PS 点击 另存为 Web 所用格式 ,提示错误 无法完成操作 系统找不到指定路径 解决: 如果是Win10以上的系统,出现这种情况基本就是被系统自带的杀毒软件阻止了,可以看一下电脑右…

嵌入式实时操作系统的设计与开发(互斥量学习)

一个无论多么小的系统,都会有大系统的缩影,就像俗话说“麻雀虽小五脏俱全”。 嵌入式实时操作系统中除了基本调度机制(创建线程、调度线程、挂起线程等),事件处理机制(中断管理、时钟管理)、内…

JOSEF约瑟 分合闸电源监视继电器 ZZS-7G/1 220VAC/3S 导轨式安装

系列型号: ZZS-7G/1分闸、合闸、电源监视综合控制装置; ZZS-7G/11分闸、合闸、电源监视综合控制装置; ZZS-7G/23分闸、合闸、电源监视综合控制装置; ZZS-7G/24分闸、合闸、电源监视综合控制装置; ZZS-7/1G11分闸、…

2023年中国电动升降诊疗台产业链及市场规模分析[图]

电动升降诊疗台是一种医疗设备,通常用于医疗机构中,可以通过电动驱动实现高度的升降调整,以便医护人员更好地进行诊断、治疗或手术等操作。这种诊疗台的高度可调节性能,能够适应不同的工作需求和患者情况,提供更舒适和…

自组织映射Python实现

自组织映射(Self-organizing map)Python实现。仅供学习。 #!/usr/bin/env python3""" Self-organizing map """from math import expimport toolzimport numpy as np import numpy.linalg as LAfrom sklearn.base import…

Elasticsearch快速入门及结合Next.js案例使用

文章目录 什么是Elasticsearch安装Elasticsearch索引文档节点分片 使用Elasticsearch进行全文搜索连接到Elasticsearch创建索引和插入数据创建全文搜索页面测试全文搜索 结语 🎉欢迎来到Java学习路线专栏~Elasticsearch快速入门及结合Next.js案例使用 ☆* o(≧▽≦)…

Hbuilder打包安卓H5-APP,APP与程序分离,更新无需重新打包

一、目标 使用Hbuilder打包H5-APP 两个方式: 1、将自己的H5页面以及js全部打包进apk程序,后续如果更新,只能迭代apk版本,来进行APP更新升级。 2、使用HBuilder打个空包,修改应用入口页面(首页)地址,这里默…