Transformer(课程笔记)

news2024/12/26 23:14:51

一:Motivation

RNN需要顺序的执行,不利于并行计算。

RNN的变体例如GRU、LSTM等需要依靠注意力机制解决信息瓶颈等问题。

抛弃RNN结构,提出了Transformer结构。

Transformer整体架构

二: 输入层(BPE,PE)

BPE:Byte Pair Encoding

解决OOV(out of vocabulary)问题。

PE:Positional Encoding

因为与RNN不同的是Transformer不能通过对文本处理的先后顺序来建模每个单词的位置关系,因此在输入的enbedding上加入一个位置编码

三:Encoder Block

每一个Encoder Block包含两个子层:

  •  Multi-Head Attention多头注意力层;
  •  Feed-Forward Network两层的ML。

两个tricks:

  •  残差连接;
  •  Layer normalization:将输入的向量变成均值为0方差为1的分布,缓解梯度消失和梯度爆炸的问题。

1. Attention Layer介绍:

Dot-Product Attention:与RNN中的注意力机制不同,使用了QKV三个向量。

文章使用的是Scaled Dot-Product Attention:

如果不使用Scaled,QK的方差会随着dk的增加而变大,从而进行softmax后概率分布会变得很尖锐,有些位置会很接近1,有些位置很接近0。结果会使得梯度越来越小,不利于参数的更新。

除以一个根号dk后可以保持方差为1。

为什么叫自注意力:让token自主选择关注哪些token。因为QKV实际上同一个的向量,都来自于文本的表示向量,这样就没法进行学习了。因此是使用不同的Liner层把QKV映射到不同的空间,学习的是每个Liner层各自的权重。

多头注意力机制:将QKV使用多组Liner层进行映射,计算注意力的输出,然后对各组计算结果进行拼接,然后通过线性层整合,就得到了多头注意力机制输出结果。

四:Decoder Block

跟Encoder比有两个变换:

1.第一个Attention Layer加了Masked操作,为了让预测当前词时不能看后面的词,因此把QK相乘后的矩阵上三角部分变为负无穷大,然后负无穷大经过softmax后=0。

2.第二个Attention Layer:Query向量来自于上一个Attention的输出,而Key和Value来自于Encoder最后一层的输出(我的理解是:这里的最后一层输出能够表示输入所有的信息的原因是用了多头注意力机制然后进行了整合,而RNN中单使用最后一层输出是不可行的,会出现信息瓶颈的问题的,不知道是不是这样理解)。

 

五:优缺点

1.优点:

  • 在NLP任务中有很好的效果
  • 适合并行计算
  •  能够建模token和token之间的关系
  • 成为了预训练模型的主要框架

2.缺点

  • 优化过程困难
  • 文本长度为n,复杂度为n方,不适合输入过长的文本

参考课程: 【【全748集】清华大佬终于把AI大模型(LLM)讲清楚了!通俗易懂,2024最新内部版!拿走不谢,学不会我退出IT圈!】https://www.bilibili.com/video/BV1rS411F735?p=31&vd_source=30a18e1c6984e8eeef0cf4461d1f03e9

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2055892.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《黑神话:悟空》玩家必看!AMD显卡驱动24.8.1版全力支持!

系统之家于8月20日发出最新报道,AMD发布了最新的24.8.1版本驱动,本次更新增加了《黑神话:悟空》《星球大战:亡命之徒》等游戏的支持,且HYPR Tune支持允许HYPR-RX启用游戏内技术。下面跟随小编一起来看看AMD显卡驱动24.…

Centos7 message日志因dockerd、kubelet、warpdrive、containerd等应用迅速增长

问题:公司服务器在部署一套业务后,message日志记录大量的dockerd、kubelet、warpdrive、containerd应用日志,每天增加2G大小的日志 解决方案: 前期吐槽下:发现某个帖子,需要会员或者花钱才能看&#xff0c…

探索网络安全的深度与广度:挑战、策略与未来展望

一、引言 在当今数字化的时代,网络已经成为社会运转的核心基础设施之一。从个人的日常通信、娱乐到企业的业务运营、国家的关键服务,几乎所有领域都依赖于网络。然而,随着网络的普及和应用的深化,网络安全问题也日益凸显&#xf…

松下弧焊机器人维修 控制柜故障 连接线修复

一、Panasonic焊接机器人控制柜与机器人的接线 机器人的控制箱,一定要配对使用。松下焊接机器人控制柜已经记忆了机器人的绝对原点(机器人位置控制原点)。 二、编码器电缆 (圆形连接器) 1. 接口的插头插座要注意,插头要插到插座中。 2. 用一手握住电缆&a…

网络原理TCP/UDP详解

目录 传输属的几种格式 1.xml:通过成对的标签表示键值对信息。 2.json:当前更主流一点的,网络通信的数据格式 3.yml(yaml)强制要求数据的组织格式 4.google protobuffer 传输层 1.端口号: UDP协议 …

Vue3 组件管理 12 种神仙写法,灵活使用才能提高效率

SFC 单文件组件 顾名思义,就是一个.vue文件只写一个组件 模板写法 如果这个组件想要在别的组件里使用,就需要在另一个.vue中引入和使用、复用 h函数写法 使用 defineComponent h 去进行组件编写 JSX/TSX写法 使用 defineComponent JSX/TSX 去进行…

【html+css 绚丽Loading】 - 000008 三才虚空灵瞳

前言:哈喽,大家好,今天给大家分享htmlcss 绚丽Loading!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 &#x1f495…

应用方案 | 降压型DC-DC电源管理电路 D2576介绍

概述 D2576是一款高效降压型DC-DC转换器,固定52KHz开关频率,可以提供最高3A输出电流能力,具有低纹波,出色的线性调整率与负载调整率特点。 D2576内置固定频率振荡器与频率补偿电路,简化了电路设计。PWM控制环路可以调节…

Rivian暂停亚马逊送货车生产,特斯拉Roadster再引关注

Rivian遭遇供应链挑战,暂停亚马逊送货车生产 电动汽车制造商Rivian近期宣布,由于零部件短缺,已暂停为零售巨头亚马逊生产商业送货车。这一决定标志着Rivian在应对供应链挑战方面遭遇了最新挫折。作为Rivian的最大投资者,亚马逊持有…

画板444

p31 画H1和H2的封装 立创里面这次有尺寸了没单位好像 给的1.02 他设的1.1焊盘可以大点 排针穿过去的(别的焊盘也这样?) 引脚编号 直接改成2.54 他焊盘直间的 距离了 刚才改成通用的直径了😅😅😅 这能测尺寸…

金九银十,软件测试面试八股文【含答案+文档】

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 测试技术面试题 1、什么是兼容性测试?兼容性测试侧重哪些方面? 参考答案: 兼容测试主要是检查软件在不同的硬件平台、软件…

google seo基础宝典,新手必学

Google SEO 是什么? Google SEO是指针对谷歌搜索引擎优化网站排名的一种营销方式,旨在提升外贸网站在谷歌的品牌和产品曝光度,从而吸引外贸订单。具体做法是根据谷歌的搜索引擎排名规则,对网站的内容、结构、链接等方面进行优化&a…

C++竞赛初阶L1-13-第五单元-循环嵌套(29~30课)536: T456455 画矩形

题目内容 根据输入的四个参数:a,b,c,f 参数,画出对应的矩形。 前两个参数 a,b 为整数,依次代表矩形的高和宽; 第三个参数 c 是一个字符,表示用来填充的矩形符号; 第四个参数 f 为整数,0 代表…

测试资料2222

一 解决穷举场景:使用等价类划分法 适用场景 正向用例:一条尽可能覆盖多条 逆向用例:每一条数据,都是一条单独用例 完整的用例应该是等价类和边界值一块写 二 能对限定边界规则设计测试点 2.1选取正好等于、刚好大于、刚好小于…

搜维尔科技:【产品推荐】Manus Quantum Mocap Metagloves VR手套数据手套机械手训练专用手套

全新量子追踪技术 Quantum Mocap Metagloves通过使用毫米级精确的指尖跟踪传感器来提供高保真手指跟踪。传感器没有漂移,可提供高度准确且可靠的手指捕获数据。 手指追踪的新黄金标准 Quantum Mocap Metagloves使用精确的量子跟踪技术捕捉手部每一个细节动作。让您…

Unity与UE,哪种游戏引擎适合你?

PlayStation vs Xbox,Mario vs Sonic,Unreal vs Unity?无论是游戏主机、角色还是游戏引擎,人们总是热衷于捍卫他们在游戏行业中的偏爱。 专注于游戏引擎,Unity和Unreal Engine(简称UE4)是目前市…

软件测试 - 自动化测试(概念)(Java)(自动化测试分类、web自动化测试、驱动、selenium自动化测试工具的安装)

一、自动化的概念 ⾃动洒⽔机,主要通上⽔就可以⾃动化洒⽔并且可以⾃动的旋转。 ⾃动洗⼿液,免去了⼿动挤压可以⾃动感应出洗⼿液 超市⾃动闸⻔,不需要⼿动的开⻔关⻔ ⽣活中的⾃动化案例有效的减少了⼈⼒的消耗,同时也提⾼了⽣…

淘宝API常见问题解答

本文总结了4个淘宝API常见问题并给出解答,如果有其他关于淘宝API的问题,可以向点三客服提问。 问题1:如何获取淘宝订单,需用哪几个淘宝API? 回答:一般是3个淘宝API接口配合使用:先用taobao.trad…

发展数控教育机床提高制造创新能力

随着科技的不断发展,智能化教学设备在教育领域中得到广泛的应用。在中小学课堂中,智能化教学设备的应用可以提高教学效率,激发学生的学习兴趣,促进学生的全面发展。 "教育科技”展示的魅力,让我们对未来的创新教学…

zabbix“专家坐诊”第252期问答

问题一 Q:大佬们请问一下,为何最近12小时的CPU利用率,显示的是昨天中午到昨天凌晨?而不是昨天晚上到现在的?谢谢 A:看看指标有没有获取到今天的数据 Q:佬牛逼,果然一下就指出问题&a…