Transformer的前世今生 day12(Transformer的三个问题)

news2024/7/6 18:59:33

Transformer的Decoder为什么要用掩码(Masked Self-Attention)

  • 机器翻译中:源语句(我爱中国),目标语句(I love China)
    在这里插入图片描述
  • 为了解决训练阶段和测试阶段不匹配的问题:
    • 在训练阶段,我们已知目标语句,而且解码器的输入是目标语句,也就是会把将要生成的句子给解码器,为了让解码器的参数更加适配,让解码器更好的生成,即在训练阶段,每一次都会把目标语句的所有信息告诉解码器
    • 在测试阶段,我们不知道目标语句,但是解码器也有输入,此时的输入为已经生成的词,所以每生成一个词,就会多一个词作为输入放进解码器,即在测试阶段,每一次都会把目标语句的部分信息告诉解码器
  • 综上,为了解决这个不匹配的问题,我们使用Masked Self-Attention,把不应该提前告诉解码器的部分先隐藏起来
    在这里插入图片描述

Transformer的Encoder给与Decoder的为什么是K、V矩阵

  • 首先此处的Attention并不是自注意力,由于K、V同源,但是Q与K、V不同源,所以不能做自注意力
  • Q是查询变量,即已经生成的词,K=V是源语句,
    • 因此当我们要生成这个词的时候,通过Q和K、V做注意力,就能确定源语句中哪些词对将要生成的词更有作用
    • 相反,如果Encoder给Decoder的是Q矩阵,那么我们生成的词作为K、V在Q中查询,这相当于用全部信息在部分信息里查询,这做反了。

Transformer的输入输出是什么

  • 由于计算机只认识01,所以我们不能将现实世界的东西直接输入进模型,同时模型的输出也不直接是现实世界的东西,需要进行转换,如模型的输入输出为张量
  • 机器学习的本质是:wx+b,深度学习的本质是:sigma ( wx+b ) ,即AI的本质是将现实世界的某个东西能映射到空间中的某个点,模型就相当于一个映射机,而训练的过程就是不断修正映射关系
  • 在机器翻译中,inputs指现实世界中的语句,而input embedding是将它张量化后的张量,同时由于模型会反向传播来更新参数,所以输入张量可以任选,Word2Vec、ELMO、one-hot、甚至随机初始化也可,只是模型最后训练次数以及训练效果有差异。output probabilities为词典大小的概率向量,如下:
    在这里插入图片描述

总结

  • Transformer解决了以前seq2seq框架的问题,以前用lstm做编码器,再用lstm做解码器,这种方法每一次生成词,都是通过编码器生成的源语句全部信息的词向量,而lstm会有长依赖问题,所以前面的信息会有丢失,而Attention可以重点寻找,这解决了seq2seq框架的问题

参考文献

  1. 19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1561587.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多传感器标定——概述

文章目录 一、前言二、内容记录 一、前言 是对自动驾驶之心多传感器标定课程内容的记录,也是对一些被老师简单略过问题的自主学习。第一章是概述,将内容以问题的形式记录,并结合课上内容以及自己的项目经验给出回答 二、内容记录 车上会安装…

如何使用route-detect在Web应用程序路由中扫描身份认证和授权漏洞

关于route-detect route-detect是一款功能强大的Web应用程序路由安全扫描工具,该工具可以帮助广大研究人员在Web应用程序路由中轻松识别和检测身份认证漏洞和授权漏洞。 Web应用程序HTTP路由中的身份认证(authn)和授权(authz&…

实验04_OSPF&RIP选路实验

实验拓扑 IP地址规划 拓扑中的 IP 地址段采用:172.16.AB.X/24。其中 AB 为两台路由器编号组合,例如:R3-R6 之间的 AB 为 36,X 为路由器编号,例如R3 的 X3所有路由器都有一个 loopback 0 接口,地址格式为&…

代码随想录算法训练营第二十七天| LeetCode 39. 组合总和、40.组合总和II、131.分割回文串

一、39. 组合总和 题目链接/文章讲解/视频讲解: https://programmercarl.com/0039.%E7%BB%84%E5%90%88%E6%80%BB%E5%92%8C.html 状态:已解决 1.思路 这道题跟216. 组合总和 III - 力扣(LeetCode)题思路差不多,区别在于…

为什么感觉张宇 25 版没 24版讲得好?

很多同学反映:25版,讲得太散了, 知识点太多,脱离了基础班。 三个原因: 1. 25版改动很大,课程没有经过打磨; 2. 因为24考试难度增加,所以改动的总体思路是“拓宽基础”:即把部分强…

redis中bitmap的使用及场景,如何操作

一、概念 在Redis数据库中,Bitmap(位图)是一种特殊的数据结构,它不是一个独立的数据类型,而是基于String类型实现的。Bitmap主要用于存储大量二进制位(0或1)的数据,这些位可以代表不…

支付接口和数据库断言及封装

支付下单接口 请求方法: post 请求地址:http://shop.lemonban.com:8107/p/order/pay 请求参数:{“payType”:3,“orderNumbers”:“1733308182027309056”} 请求头部: {“Content-Type”:“application/json”,“Authorization…

HDMI 2.1b 规范解读

HDMI 规范 HDMI 2.1b 是最新版 HDMI 规范,支持一系列更高的视频分辨率和刷新频率,包括 8K60 和 4K120 以及高达 10K 的分辨率。同时支持动态 HDR 格式,带宽能力增加到 48Gbps HDMI。 新的超高速 HDMI 线缆支持 48Gbps 带宽。该线缆可确保提供…

在单通道彩图上踩的坑

使用labelme后,生成如图所示文件夹,其中JPEGImages是原图,SegmentationClassPNG是标签。 此时SegmentationClassPNG中的标签(masks)是只包含0和1的二进制文件,0表示背景,1表示要识别的物体类型。&#xff…

什么是ISP住宅IP?相比于普通IP它的优势是什么?

什么是ISP住宅IP? ISP住宅IP是指由互联网服务提供商(ISP)分配给住宅用户的IP地址。它是用户在家庭网络环境中连接互联网的标识符,通常用于上网浏览、数据传输等活动。ISP住宅IP可以是动态分配的,即每次连接时都可能会…

RabbitMQ高级-应用问题、集群搭建

1.消息补偿 消息可靠性保障:——消息补偿机制 需求:100%确保消息发送成功 2.幂等性保障 幂等性指一次和多次请求某一资源,对于资源本身应该具有同样的结果。也就是说,其任意多次执行对资源本身所产生的影响均与第一次执行的影响…

2024/3/31周报

文章目录 摘要Abstract文献阅读题目创新点实验数据研究区域数据和材料 方法XGBoost algorithmLong Short‑Term Memory AlgorithmEvaluation of the Model Accuracy 实验结果 深度学习XGBoost代码实现AdaBoostBoostingAdaBoost算法AdaBoost代码实现 总结 摘要 本周阅读了一篇基…

上海开放大学2024年春《过程控制技术》网上记分作业参考答案

答案:更多答案,请关注【电大搜题】微信公众号 答案:更多答案,请关注【电大搜题】微信公众号 答案:更多答案,请关注【电大搜题】微信公众号 电大搜题 多的用不完的题库,支持文字、图片搜题&am…

SD-WAN组网面临的安全挑战?如何提供有效的安全措施

SD-WAN(软件定义广域网)技术的广泛应用,企业面临着越来越多的网络安全挑战。尽管SD-WAN带来了灵活性和效率的提升,但其开放性和基于云的特性也带来了一系列安全威胁。本文将探讨SD-WAN组网面临的安全挑战,并提供一些有…

1236. 递增三元组:做题笔记

目录 暴力 代码 二分 代码 前缀和 代码 推荐视频讲解 暴力 这道题说的是有三个元素数量相同的数组,想知道有多少个三元组满足:三个数分别来自 A B C数组且呈现递增。 我想的是既然要求递增,那就先把数组数据都排一下序,…

鸿蒙:滑动条组件Slider

滑动条组件,通常用于快速调节设置值,如音量调节、亮度调节等应用场景。 说明 该组件从API Version 7开始支持。 子组件 无 接口 Slider(options?: {value?: number, min?: number, max?: number, step?: number, style?: SliderStyle, direc…

如何使用potplayer在公网环境访问内网群晖NAS中储存在webdav中的影视资源

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-D7WJh3JaNVrLcj2b {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…

渐变颜色作图

clear clc close all % 生成 x 值 x linspace(0, 5, 1000); % 计算对应的 y 值(二次函数分布) y x .^ 2; % 添加一些随机噪声 y y randn(size(y)); clinspace(1,10,length(x)); arry1[x,y]; arry2sortrows(arry1,2,descend); arry3[arry2,c]…

LabVIEW双通道太阳射电频谱观测系统

LabVIEW双通道太阳射电频谱观测系统 开发了一个基于LabVIEW平台开发的双通道高速太阳射电频谱观测系统。该系统实时监测太阳射电爆发,具有随机性、持续时间短、变化快等特点。通过高速信号采集卡实现1.5 GS/s的信号采集,时间分辨率可达4ms,频…

跑腿小程序|基于微信小程序的跑腿平台小程序设计与实现(源码+数据库+文档)

跑腿平台小程序目录 目录 基于微信小程序的跑腿平台小程序设计与实现 一、前言 二、系统设计 三、系统功能设计 1、用户信息管理 2、跑腿任务管理 3、任务类型管理 4、公告信息管理 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、…