Transformer的前世今生 day12（Transformer的三个问题）

Transformer的前世今生 day12（Transformer的三个问题）

news2025/7/18 0:16:42

Transformer的Decoder为什么要用掩码（Masked Self-Attention）

机器翻译中：源语句（我爱中国），目标语句（I love China）
为了解决训练阶段和测试阶段不匹配的问题：
- 在训练阶段，我们已知目标语句，而且解码器的输入是目标语句，也就是会把将要生成的句子给解码器，为了让解码器的参数更加适配，让解码器更好的生成，即在训练阶段，每一次都会把目标语句的所有信息告诉解码器
- 在测试阶段，我们不知道目标语句，但是解码器也有输入，此时的输入为已经生成的词，所以每生成一个词，就会多一个词作为输入放进解码器，即在测试阶段，每一次都会把目标语句的部分信息告诉解码器
综上，为了解决这个不匹配的问题，我们使用Masked Self-Attention，把不应该提前告诉解码器的部分先隐藏起来

Transformer的Encoder给与Decoder的为什么是K、V矩阵

首先此处的Attention并不是自注意力，由于K、V同源，但是Q与K、V不同源，所以不能做自注意力
Q是查询变量，即已经生成的词，K=V是源语句，
- 因此当我们要生成这个词的时候，通过Q和K、V做注意力，就能确定源语句中哪些词对将要生成的词更有作用
- 相反，如果Encoder给Decoder的是Q矩阵，那么我们生成的词作为K、V在Q中查询，这相当于用全部信息在部分信息里查询，这做反了。

Transformer的输入输出是什么

由于计算机只认识01，所以我们不能将现实世界的东西直接输入进模型，同时模型的输出也不直接是现实世界的东西，需要进行转换，如模型的输入输出为张量
机器学习的本质是：wx+b，深度学习的本质是：sigma ( wx+b ) ，即AI的本质是将现实世界的某个东西能映射到空间中的某个点，模型就相当于一个映射机，而训练的过程就是不断修正映射关系
在机器翻译中，inputs指现实世界中的语句，而input embedding是将它张量化后的张量，同时由于模型会反向传播来更新参数，所以输入张量可以任选，Word2Vec、ELMO、one-hot、甚至随机初始化也可，只是模型最后训练次数以及训练效果有差异。output probabilities为词典大小的概率向量，如下：

总结

Transformer解决了以前seq2seq框架的问题，以前用lstm做编码器，再用lstm做解码器，这种方法每一次生成词，都是通过编码器生成的源语句全部信息的词向量，而lstm会有长依赖问题，所以前面的信息会有丢失，而Attention可以重点寻找，这解决了seq2seq框架的问题

参考文献

19 Transformer 解码器的两个为什么（为什么做掩码、为什么用编码器-解码器注意力）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1561587.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

多传感器标定——概述

多传感器标定——概述

文章目录一、前言二、内容记录一、前言是对自动驾驶之心多传感器标定课程内容的记录，也是对一些被老师简单略过问题的自主学习。第一章是概述，将内容以问题的形式记录，并结合课上内容以及自己的项目经验给出回答二、内容记录车上会安装…

阅读更多...

如何使用route-detect在Web应用程序路由中扫描身份认证和授权漏洞

如何使用route-detect在Web应用程序路由中扫描身份认证和授权漏洞

关于route-detect route-detect是一款功能强大的Web应用程序路由安全扫描工具，该工具可以帮助广大研究人员在Web应用程序路由中轻松识别和检测身份认证漏洞和授权漏洞。 Web应用程序HTTP路由中的身份认证（authn）和授权（authz&…

阅读更多...

实验04_OSPF＆RIP选路实验

实验04_OSPF＆RIP选路实验

实验拓扑 IP地址规划拓扑中的 IP 地址段采用：172.16.AB.X/24。其中 AB 为两台路由器编号组合，例如：R3-R6 之间的 AB 为 36，X 为路由器编号，例如R3 的 X3所有路由器都有一个 loopback 0 接口，地址格式为&…

阅读更多...

代码随想录算法训练营第二十七天| LeetCode 39. 组合总和、40.组合总和II、131.分割回文串

代码随想录算法训练营第二十七天| LeetCode 39. 组合总和、40.组合总和II、131.分割回文串

一、39. 组合总和题目链接/文章讲解/视频讲解： https://programmercarl.com/0039.%E7%BB%84%E5%90%88%E6%80%BB%E5%92%8C.html 状态：已解决 1.思路这道题跟216. 组合总和 III - 力扣（LeetCode）题思路差不多，区别在于…

阅读更多...

为什么感觉张宇 25 版没 24版讲得好?

为什么感觉张宇 25 版没 24版讲得好?

很多同学反映：25版，讲得太散了, 知识点太多，脱离了基础班。三个原因： 1. 25版改动很大，课程没有经过打磨； 2. 因为24考试难度增加，所以改动的总体思路是“拓宽基础”：即把部分强…

阅读更多...

redis中bitmap的使用及场景，如何操作

redis中bitmap的使用及场景，如何操作

一、概念在Redis数据库中，Bitmap（位图）是一种特殊的数据结构，它不是一个独立的数据类型，而是基于String类型实现的。Bitmap主要用于存储大量二进制位（0或1）的数据，这些位可以代表不…

阅读更多...

支付接口和数据库断言及封装

支付接口和数据库断言及封装

支付下单接口请求方法： post 请求地址：http://shop.lemonban.com:8107/p/order/pay 请求参数：{“payType”:3,“orderNumbers”:“1733308182027309056”} 请求头部： {“Content-Type”:“application/json”,“Authorization…

阅读更多...

HDMI 2.1b 规范解读

HDMI 2.1b 规范解读

HDMI 规范 HDMI 2.1b 是最新版 HDMI 规范，支持一系列更高的视频分辨率和刷新频率，包括 8K60 和 4K120 以及高达 10K 的分辨率。同时支持动态 HDR 格式，带宽能力增加到 48Gbps HDMI。新的超高速 HDMI 线缆支持 48Gbps 带宽。该线缆可确保提供…

阅读更多...

在单通道彩图上踩的坑

在单通道彩图上踩的坑

使用labelme后，生成如图所示文件夹，其中JPEGImages是原图，SegmentationClassPNG是标签。此时SegmentationClassPNG中的标签（masks）是只包含0和1的二进制文件，0表示背景,1表示要识别的物体类型。&#xff…

阅读更多...

什么是ISP住宅IP？相比于普通IP它的优势是什么？

什么是ISP住宅IP？相比于普通IP它的优势是什么？

什么是ISP住宅IP？ ISP住宅IP是指由互联网服务提供商（ISP）分配给住宅用户的IP地址。它是用户在家庭网络环境中连接互联网的标识符，通常用于上网浏览、数据传输等活动。ISP住宅IP可以是动态分配的，即每次连接时都可能会…

阅读更多...

RabbitMQ高级-应用问题、集群搭建

RabbitMQ高级-应用问题、集群搭建

1.消息补偿消息可靠性保障：——消息补偿机制需求：100%确保消息发送成功 2.幂等性保障幂等性指一次和多次请求某一资源，对于资源本身应该具有同样的结果。也就是说，其任意多次执行对资源本身所产生的影响均与第一次执行的影响…

阅读更多...

2024/3/31周报

2024/3/31周报

文章目录摘要Abstract文献阅读题目创新点实验数据研究区域数据和材料方法XGBoost algorithmLong Short‑Term Memory AlgorithmEvaluation of the Model Accuracy 实验结果深度学习XGBoost代码实现AdaBoostBoostingAdaBoost算法AdaBoost代码实现总结摘要本周阅读了一篇基…

阅读更多...

上海开放大学2024年春《过程控制技术》网上记分作业参考答案

上海开放大学2024年春《过程控制技术》网上记分作业参考答案

答案：更多答案，请关注【电大搜题】微信公众号答案：更多答案，请关注【电大搜题】微信公众号答案：更多答案，请关注【电大搜题】微信公众号电大搜题多的用不完的题库，支持文字、图片搜题&am…

阅读更多...

SD-WAN组网面临的安全挑战？如何提供有效的安全措施

SD-WAN组网面临的安全挑战？如何提供有效的安全措施

SD-WAN（软件定义广域网）技术的广泛应用，企业面临着越来越多的网络安全挑战。尽管SD-WAN带来了灵活性和效率的提升，但其开放性和基于云的特性也带来了一系列安全威胁。本文将探讨SD-WAN组网面临的安全挑战，并提供一些有…

阅读更多...

1236. 递增三元组：做题笔记

1236. 递增三元组：做题笔记

目录暴力代码二分代码前缀和代码推荐视频讲解暴力这道题说的是有三个元素数量相同的数组，想知道有多少个三元组满足：三个数分别来自 A B C数组且呈现递增。我想的是既然要求递增，那就先把数组数据都排一下序，…

阅读更多...

鸿蒙：滑动条组件Slider

鸿蒙：滑动条组件Slider

滑动条组件，通常用于快速调节设置值，如音量调节、亮度调节等应用场景。说明该组件从API Version 7开始支持。子组件无接口 Slider(options?: {value?: number, min?: number, max?: number, step?: number, style?: SliderStyle, direc…

阅读更多...

如何使用potplayer在公网环境访问内网群晖NAS中储存在webdav中的影视资源

如何使用potplayer在公网环境访问内网群晖NAS中储存在webdav中的影视资源

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-D7WJh3JaNVrLcj2b {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…

阅读更多...

渐变颜色作图

渐变颜色作图

clear clc close all % 生成 x 值 x linspace(0, 5, 1000); % 计算对应的 y 值（二次函数分布） y x .^ 2; % 添加一些随机噪声 y y randn(size(y)); clinspace(1,10,length(x)); arry1[x,y]; arry2sortrows(arry1,2,descend); arry3[arry2,c]…

阅读更多...

LabVIEW双通道太阳射电频谱观测系统

LabVIEW双通道太阳射电频谱观测系统

LabVIEW双通道太阳射电频谱观测系统开发了一个基于LabVIEW平台开发的双通道高速太阳射电频谱观测系统。该系统实时监测太阳射电爆发，具有随机性、持续时间短、变化快等特点。通过高速信号采集卡实现1.5 GS/s的信号采集，时间分辨率可达4ms，频…

阅读更多...

跑腿小程序|基于微信小程序的跑腿平台小程序设计与实现(源码+数据库+文档)

跑腿小程序|基于微信小程序的跑腿平台小程序设计与实现(源码+数据库+文档)

跑腿平台小程序目录目录基于微信小程序的跑腿平台小程序设计与实现一、前言二、系统设计三、系统功能设计 1、用户信息管理 2、跑腿任务管理 3、任务类型管理 4、公告信息管理四、数据库设计五、核心代码六、论文参考七、最新计算机毕设选题推荐八、…

阅读更多...

推荐文章

最新文章