Transformer——台大李宏毅详讲Transformer

Transformer——台大李宏毅详讲Transformer

news2026/2/14 0:38:43

文章目录

- 李宏毅老师讲Transformer
- - Encoder
  - Decoder
  - - Decoder整体逻辑
    - non-autoregressive
    - Decoder中的Cross Attention
  - 训练Seq2seq的一些Tips

老师讲的超级棒，激动哭了：

视频链接：台大李宏毅21年机器学习课程 self-attention和transformer

李宏毅老师讲Transformer

Transformer本质就是Seq2seq问题：

在这里插入图片描述

在这里插入图片描述

Encoder

作用：输入一系列向量，输出同样长度的一系列向量，将向量编码到一种机器空间。

在这里插入图片描述

在这里插入图片描述

每一个模块都是Residual的设计；
norm：求平均值和标准差，计算归一化。

在这里插入图片描述

在这里插入图片描述

Decoder

在这里插入图片描述

在这里插入图片描述

Decoder整体逻辑

有一个初始vector：BOS，在Decoder可能输出的向量前加一个即可；
输出的向量vector：是对你所有可能结果（如果是英文翻译中文，则是中文词料库所有词）的softmax后分数最高的对应的vector；
然后以此类推。

在这里插入图片描述

在Decoder的Masked Self Attention中，每一次输出的vector只和前边已生成的vector进行交互，不能包括还未生成的vector；

在这里插入图片描述

通过预测END符号来表示sequence的结束；

在这里插入图片描述

non-autoregressive

在这里插入图片描述

优势：并行化，可控制输出长度；
用self attention也可以得到；

在这里插入图片描述

Decoder中的Cross Attention

在这里插入图片描述

通过Cross Entropy计算loss；
训练时会给deocder输入正确答案；

训练Seq2seq的一些Tips

训练时给Decoder加入一些错误的GT。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/65755.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Mac版Word设置从第K页开始显示页码

Mac版Word设置从第K页开始显示页码

tags: Word Tips 写在前面最近有同学问我怎么在word文档中从第四页开始设置页码, 也就是首页以及第二页第三页的说明页都不编页码, 从第四页开始页码为1, 然后往后编号这种. 一开始我以为直接在页码设置处就有这个选项的(毕竟写东西几乎不用word, 也不熟悉), 后来发现还是t…

阅读更多...

从Unity Robotics Hub入门Unity-ROS

从Unity Robotics Hub入门Unity-ROS

0.简介对于Unity而言，其拥有非常完备的物理特性，这对于机器人仿真是非常有用的，但是实际上Unity和ROS之间的通信一直是摆在两者之间的难题，正好看到宇宙爆肝锦标赛冠军写的这个系列，所以个人想参照为数不多的资料来进…

阅读更多...

2022年创新药行业研究报告

2022年创新药行业研究报告

第一章行业概况创新药，也称为原研药，是一个相对于仿制药的概念，指的是从机理开始源头研发，具有自主知识产权，具备完整充分的安全性有效性数据作为上市依据，首次获准上市的药物。新药上市要经历化合物的发…

阅读更多...

学个Antenna：Matlab天线工具箱知多少（二）

学个Antenna：Matlab天线工具箱知多少（二）

学个Antenna是以天线仿真和调试为主，理论原理为辅的干货天线技术专栏，包括天线入门知识以及各类天线的原理简介、仿真软件建模、设计、调试过程及思路。如有想看到的内容或技术问题，可以在文尾写下留言。摘要： 上节推文学个Ant…

阅读更多...

A-Level商务例题解析及练习Sources of finance

A-Level商务例题解析及练习Sources of finance

今日知识点：Sources of finance 例题 Q: Discuss the benefits and drawbacks to a business of using only internal sources of finance to fund expansion. 解析 Answers could include:Outline of types of internal funding sources, such as building up rese…

阅读更多...

我与足球以及世界杯的过往

我与足球以及世界杯的过往

中东土豪卡塔尔斥资2000亿举办的世界杯正在如火如荼的进行中，我也是几乎一场不落的看完了每一场的比赛直播【最近都没怎么更文。。。】，目前小组赛已经结束，我们也见证了很多球星的落寞背影与不甘，也见证了新星的天赋与成长&#…

阅读更多...

E语言基本特征码/时钟反调试/窗体push大法

E语言基本特征码/时钟反调试/窗体push大法

E语言基本特征码/时钟反调试/窗体push大法该篇文章有以下内容： 1. 易语言字符串比较函数 test edx,3 F7C203000000 2. 按钮事件特征码：FF55FC5F5E,可以被修改恒成立 3. 易语言体 FF 25 4. 时钟的反调试 5. Push窗体大法一、利用 test…

阅读更多...

Qt-FFmpeg开发-音频解码为PCM文件（9）

Qt-FFmpeg开发-音频解码为PCM文件（9）

Qt-FFmpeg开发-使用libavcodec API的音频解码示例（MP3转pcm） 文章目录Qt-FFmpeg开发-使用libavcodec API的音频解码示例（MP3转pcm）1、概述2、实现效果3、主要代码4、完整源代码更多精彩内容👉个人内容分类汇总 &#x…

阅读更多...

关于 registerForActivityResult()的使用方法，不能说详细，只能说略懂得例子

关于 registerForActivityResult()的使用方法，不能说详细，只能说略懂得例子

目录 1.情况说明 2.registerForActivityResult()的使用方法 1.情况说明 startActivityForResult();函数过时使用了 registerForActivityResult()进行了代替 2.registerForActivityResult()的使用方法数据来源 (2条消息) registerForActivityResult()的使用方法例子_发狂…

阅读更多...

西北工业大学算法实验机试复习

西北工业大学算法实验机试复习

😀大家好，我是白晨，一个不是很能熬夜😫，但是也想日更的人✈。如果喜欢这篇文章，点个赞👍，关注一下👀白晨吧！你的支持就是我最大的动力！&#x1f4…

阅读更多...

TC申请是否需要银行转账记录？

TC申请是否需要银行转账记录？

【TC申请是否需要银行转账记录？】答案是毫无疑问的。根据TE官网公开的文件CCS Certification Procedures V3.0 里面关于TC申请所需的文件指引E2.1.1f：（如图） 企业在申请与TE相关的认证项目（例如GRS/RCS等等&#xf…

阅读更多...

iptables 命令和 iptables.service 服务有什么关系 ?

iptables 命令和 iptables.service 服务有什么关系 ?

写在前面关于iptables 命令和 iptabls.service 的一些疑惑理解不足小伙伴帮忙指正傍晚时分，你坐在屋檐下，看着天慢慢地黑下去，心里寂寞而凄凉，感到自己的生命被剥夺了。当时我是个年轻人，但我害怕这样生活下去&…

阅读更多...

企业级大数据平台智能运维好帮手——星环科技多模数据平台监控软件Aquila Insight

企业级大数据平台智能运维好帮手——星环科技多模数据平台监控软件Aquila Insight

Aquila Insight介绍 Aquila Insight是星环科技推出的一款多模数据平台监控软件，为企业运维团队提供了一套统一、完整、便捷的智能化运维解决方案。通过丰富的仪表盘管理、告警与通知管理、实时和历史查询语句运行分析、计算和存储引擎的统一监控、完整的日志收集过滤…

阅读更多...

编程内功心法「底层原理系列」回归与本质，让本文带你认识什么是计算机软件系统

编程内功心法「底层原理系列」回归与本质，让本文带你认识什么是计算机软件系统

前提概要如果希望可以把计算机编程技术提升到另外一个高度，,那么想要搞清楚什么是软件设计，首先就要理解什么是计算机软件，在这之后，再去考虑为什么对软件进行设计，以及在通常情况下应该怎样设计软件。什么是计算机…

阅读更多...

计算机毕业设计：基于HTML学校后台用户登录界面模板源码

计算机毕业设计：基于HTML学校后台用户登录界面模板源码

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业： 【📚毕设项目精品实战案例 (10…

阅读更多...

KT148A语音芯片SOP外挂功放芯片8002D的说明_V1

KT148A语音芯片SOP外挂功放芯片8002D的说明_V1

目录一、简介 KT148A语音芯片内置8欧姆0.5W的功放，所以一般的应用场景，播放一些提示音音量是足够的。但是有的需求还需要驱动更大的扬声器，实现更大的播放音量，这里我们给出解决方案。KT148AHAA8002D的组合二、硬件电路如下-K…

阅读更多...

防抖和节流

防抖和节流

使用场景： 防抖在连续的事件，只需触发一次回调的场景有： 搜索框搜索输入。只需用户最后一次输入完，再发送请求。窗口大小resize。只需窗口调整完成后，计算窗口大小。防止重复渲染。登录、发短信等按钮避免用户点击太…

阅读更多...

云原生周刊 | 美国国防部发布零信任战略与路线图

云原生周刊 | 美国国防部发布零信任战略与路线图

美国国防部发布了到 2027 年截止的零信任战略与路线图，总共有 45 项能力，最终目标是“安全的国防部信息企业”。开源项目推荐 Extism Extism 是一个 WebAssembly 插件实现框架，它可以给你的应用开发出各种各样的 WebAssembly 插件&#xf…

阅读更多...

HTML网页设计——轮滑运动体育类人物介绍主题12页面毕业设计网页

HTML网页设计——轮滑运动体育类人物介绍主题12页面毕业设计网页

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业： 【📚毕设项目精品实战案例 (10…

阅读更多...

[附源码]JAVA毕业设计商店管理系统（系统+LW）

[附源码]JAVA毕业设计商店管理系统（系统+LW）

[附源码]JAVA毕业设计商店管理系统（系统LW） 项目运行环境项配置： Jdk1.8 Tomcat8.5 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术&…

阅读更多...

推荐文章

最新文章