Transformer结构细节

Transformer结构细节

news2025/4/27 18:57:45

一、结构

Transformer 从大的看由编码器输入、编码器、解码器、解码器输入和解码器输出构成。

编码器中包含了词嵌入信息编码、位置编码、多头注意力、Add&Norm层以及一个全连接层；

解码器中比编码器多了掩码的多头注意力层。

二、模块

2.1 Input Embedding层

单词的 Embedding 有很多种方式可以获取，例如可以采用 Word2Vec、Glove 等算法预训练得到，也可以在 Transformer 中训练得到。

2.2 Position Embedding层

在词嵌入向量上加入了位置信息，可能是在原始序列的相对位置，也可能是绝对位置。

2.3 Multi-head Self-Attention层

Multi-Head self-Attention结构细节https://blog.csdn.net/weixin_54039182/article/details/130520370?spm=1001.2014.3001.5501

2.4 Feed Forward全连接层

全连接层有两层，第一层是一个ReLU函数，第二层是一个普通的线性函数；全连接层输出与X形状一致。

2.5 Add&Norm层

由上面的公式不难看出：Add&Norm接受两个输入相加，一个是处理后的序列向量X，还有一个是X经过多头注意力层或者全连接层的输出，最后再将每层神经元的输出变成均值和方差都一样，这样做的目的是加快收敛。

2.6 Masked Multi-head Self-Attention 模块

通过 Masked 操作可以防止第 i 个单词知道 i+1 个单词之后的信息。

还是根据自注意力的公式来进行矩阵计算：

1. Q * K转置

2. 进行softmax

重点来了：需要将矩阵先根据Mask矩阵规定每个单词只能看哪些单词，由此计算注意力。比如说<begin> I love you -> 我爱你中当预测我时，就只能看<begin> 和 I 两个单词。

3. 将Mask矩阵与V相乘得到Z，比如第一行Z1是只包含单词1的信息的。

4.最后将多个Z拼接在一起乘一个工具人矩阵就得到了最后结果。输出与X形状一致。

三、过程

3.1 将输入的句子中的每个词编码成一个向量，并加入单词在文本中的位置信息。

最后得到的单词矩阵是N * M的。（N表示有几个单词，M表示单词维度）

3.2 将句子的矩阵表示输入到编码器中，迭代六次，得到与X形状一直的矩阵C。

3.3 将句子矩阵C传入到解码器中，在预测第i个词时，根据Mask矩阵mask掉第i+1以及之后的词。

Reference：Transformer模型详解（图解最完整版） - 知乎

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/499996.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

canvas学习之华丽小球滚动电子时钟

canvas学习之华丽小球滚动电子时钟

教程来自 4-3 华丽的小球滚动效果 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>华丽小球滚动时钟…

阅读更多...

【AVL树的模拟实现】

【AVL树的模拟实现】

1 AVL树的概念二叉搜索树虽可以缩短查找的效率，但如果数据有序或接近有序二叉搜索树将退化为单支树，查找元素相当于在顺序表中搜索元素，效率低下。因此，两位俄罗斯的数学家G.M.Adelson-Velskii和E.M.Landis在1962年发明了一种解决…

阅读更多...

人工智能基础部分14-蒙特卡洛方法在人工智能中的应用及其Python实现

人工智能基础部分14-蒙特卡洛方法在人工智能中的应用及其Python实现

大家好，我是微学AI，今天给大家介绍一下人工智能基础部分14-蒙特卡洛方法在人工智能中的应用及其Python实现，在人工智能领域，蒙特卡洛方法（Monte Carlo Method, MCM）被广泛应用于各种问题的求解。本文首先将…

阅读更多...

wvp-GB28181-pro录像功能开发环境搭建、配置、使用

wvp-GB28181-pro录像功能开发环境搭建、配置、使用

开发环境、调试环境搭建开发wvp平台搭建离线安装脚本：https://gitcode.net/zenglg/ubuntu_wvp_online_install.git 下载离线安装脚本，完成wvp平台的部署开发环境要求操作系统：包管理工具是apt ky10桌面版uos桌面版deepin桌面版ubuntu桌面…

阅读更多...

ArmDot.NET Crack

ArmDot.NET Crack

ArmDot.NET Crack ArmDot是一个.NET加密工具，用于保护使用.NET编写的程序。企业需要保护他们的知识产权，包括他们的算法、产品和使用的资源的源代码。然而，.NET编译器会生成一个通用的可访问代码。代码中嵌入的资源很容易访问，并…

阅读更多...

RocketMQ不同的类型消息

RocketMQ不同的类型消息

目录普通消息可靠同步发送可靠异步发送单向发送三种发送方式的对比顺序消息事物消息两个概念事务消息发送步骤事务消息回查步骤消息消费要注意的细节 RocketMQ支持两种消息模式: 普通消息 RocketMQ提供三种方式来发送普通消息：可靠同步发送、…

阅读更多...

剑指Offer题集（力扣）

剑指Offer题集（力扣）

文章目录剑指Offer题集（[力扣题单](https://leetcode.cn/problemset/all/?listIdlcof&page1)）[剑指 Offer 03. 数组中重复的数字](https://leetcode.cn/problems/shu-zu-zhong-zhong-fu-de-shu-zi-lcof/)[剑指 Offer 04. 二维数组中的查找](https:…

阅读更多...

SSM框架练习一(登录后关联数据表的业务模型）

SSM框架练习一(登录后关联数据表的业务模型）

需要实现的整体功能： 登录反馈信息列表展示查询反馈信息发表反馈 1.数据库设计创建数据库创建表结构及其约束添加测试数据工具：PHP、Navicat create table tab_user(id int primary key auto_increment,uname varchar(30) not null,pwd varc…

阅读更多...

Weblogic XMLDecoder 反序列化漏洞（CVE-2017-10271复现)

Weblogic XMLDecoder 反序列化漏洞（CVE-2017-10271复现)

文章目录前言影响版本环境搭建漏洞复现深度利用前言 CVE-2017-10271漏洞产生的原因大致是Weblogic的WLS Security组件对外提供webservice服务，其中使用了XMLDecoder来解析用户传入的XML数据，在解析的过程中出现反序列化漏洞，导致可执行任意…

阅读更多...

从搬砖工到架构师，Java全栈学习路线总结

从搬砖工到架构师，Java全栈学习路线总结

🌇文章目录前言一、前置知识二、 Web前端基础示例：1.文本域2.密码字段三、后端基础一. Java基础二. 数据库技术三. Web开发技术四. 框架技术五. 服务器部署四、其他技术五、全栈开发六、综合实践七、学习教程一、前端开发二、后端开发三、数据库开发四…

阅读更多...

springboot+jsp乡村中小学校园网站建设

springboot+jsp乡村中小学校园网站建设

随着科学技术的飞速发展，社会的方方面面、各行各业都在努力与现代的先进技术接轨，通过科技手段来提高自身的优势，乡村小学校园网当然也不能排除在外，从校园概况、学校风采、招生信息的统计和分析，在过程中会产生大量的…

阅读更多...

Maven依赖原则及如何解决Maven依赖冲突

Maven依赖原则及如何解决Maven依赖冲突

前言在大数据应用中，现在发现依赖关系非常复杂，在上线之前很长测试，前一段时间在部署udf 出现了导致生产Hiveserver2 宕机问题，出现严重事故。现在就咨询研究一下。Maven虽然已经诞生多年，但仍然是当前最流行的Java系…

阅读更多...

Arrays：点燃你的数组操作技巧的隐秘武器。

Arrays：点燃你的数组操作技巧的隐秘武器。

前言数组在 Java 中是一种常用的数据结构，用于存储和操作大量数据。但是在处理数组中的数据，可能会变得复杂和繁琐。Arrays 是我们在处理数组时的一把利器。它提供了丰富的方法和功能，使得数组操作变得更加简单、高效和可靠。无论是排序、搜…

阅读更多...

【c语言】字符串类型转换 | itoa函数的使用

【c语言】字符串类型转换 | itoa函数的使用

创作不易，本篇文章如果帮助到了你，还请点赞关注支持一下♡>𖥦<)!! 主页专栏有更多知识，如有疑问欢迎大家指正讨论，共同进步！ 给大家跳段街舞感谢支持！ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ ኈ ቼ …

阅读更多...

MySQL innodb介绍

MySQL innodb介绍

InnoDB引擎的优点是支持兼容ACID的事务，以及参数完整性（即对外键的支持）。 Oracle公司2005年10月收购了Innovase；Innobase采用双认证授权。它使用GNU发行，也允许其他想将InnoDB结合到商业软件的团体好的授权 mysql5.…

阅读更多...

Java 动态原理详解

Java 动态原理详解

Java 动态代理是一种非常重要的编程技术，它在很多场景下都有着广泛的应用。本文将介绍 Java 动态代理的实现原理，并附上相应的源码，以帮助读者更好地理解和应用这一技术。一、什么是 Java 动态代理？ Java 动态代理是一种在运行时…

阅读更多...

【并发基础】Happens-Before模型详解

【并发基础】Happens-Before模型详解

目录一、Happens-Before模型简介二、组成Happens-Before模型的八种规则 2.1 程序顺序规则（as-if-serial语义） 2.2 传递性规则 2.3 volatile变量规则 2.4 监视器锁规则 2.5 start规则 2.6 Join规则一、Happens-Before模型简介除了显示引用vo…

阅读更多...

双目测距--5 双目相机联合 YOLOv8

双目测距--5 双目相机联合 YOLOv8

目录效果： 1、立体矫正不改变图像尺寸 2、视差图尺寸与原图尺寸一致 3、视差图、深度信息图 4、几个重要的函数 createTracker() 5、代码 main.cpp utils.cpp 效果： 1、立体矫正不改变图像尺寸左右相机图像立体矫正后，图像尺寸为变化…

阅读更多...

freeRTOS中使用看门狗的一点思考

freeRTOS中使用看门狗的一点思考

关于看门狗想必各位嵌入式软件开发的朋友应该都不会陌生的。在嵌入式软件开发中，看门狗常被用于监测cpu的程序是否正常在运行，如果cpu程序运行异常会由看门狗在达到设定的阈值时触发复位，从而让整个cpu复位重新开始运行。看门狗的本质是一个…

阅读更多...

Qt QQueue 安全的多线程队列、阻塞队列

Qt QQueue 安全的多线程队列、阻塞队列

文章目录 1. C queue 队列基本用法2. Qt QQueue 队列基本用法3. Qt QQueue 多线程队列4. Qt BlockingQueue 自定义线程安全的阻塞队列 1. C queue 队列基本用法在C中，queue是一个模板类，用于实现队列数据结构，遵循先进先出的原则。 ♦ 常用…

阅读更多...

推荐文章

最新文章