Transformer结构解读

Transformer结构解读

news2025/7/3 7:19:20

咱们还是照图讨论，transformer结构图如下，本文主要讨论Encoder部分：

图一

一、首先说一下Encoder的输入部分：

在NLP领域，个人理解，这个inputs就是我们的句子分词之后的词语，比如“我，喜欢，吃，鱼”，然后Input Embedding就是对这些词语的向量化（词向量），之后加上这些词对应的位置信息（比如“喜欢”在“我喜欢吃鱼”中位置为2），两者结合作为Multi-Head Attention的输入。

二、途中标号部分讨论：

蓝色圆圈标注的“add”是什么呢？好像初始注意力机制（如下图）中并没有add呀？？

图二

如图所示，初始架构中self-attention求出 z(i) 后直接将z放入全连接中，而transformer又经过了add&Norm步骤，这个add是什么呢？？？

其实add就是在Z的基础上加了一个残差块X，加入残差块X的目的是为了防止在深度神经网络训练中发生退化问题，退化的意思就是深度神经网络通过增加网络的层数，Loss逐渐减小，然后趋于稳定达到饱和，然后再继续增加网络层数，Loss反而增大。具体操作如下：其实就是将self-attention的output+input作为新的output，如下图：

图三

关于首图所标记的2，Add&Norm这一过程指什么呢？

就是指对新的output做标准化，也就是上图的，对a+b做标准化

FeedForward：FeedForward又是什么呢？好像图二（注意力机制）中这里应该是全连接层（FC）呀？❓❓❓

先说一下FeedForward是什么？其实FeedForward是由全连接层（FC）与激活ReLu组成的结构，其实和bp神经网络结构差不多，输入：Add&Norm的输出（记作：Z'(i) ）, FC:全连接层

接下来再说一下为什么要用FeedForward呢？不用单纯的FC呢？

其实主要还是想提取更深层次的特征，在Multi-Head Attention中，主要是进行矩阵乘法，即都是线性变换，而线性变换的学习能力不如非线性变换的学习能力强，我们希望通过引入ReLu激活函数，使模型增加非线性成分，强化学习能力。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/337097.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

符号让人疯狂

符号让人疯狂

符号让人疯狂判断背了个LV符号的包就想可能有钱趣讲大白话：人是通过符号区分生活的聪明人想想：能超越或摆脱符号依赖吗？ *********** 信息社会加速符号的传递和创造我们已经被各种信息传递的符号淹没信息符号的筛选成了人的主要工作再…

阅读更多...

GRB非隔离系列宽电压输入负高电压输出电压控制型

GRB非隔离系列宽电压输入负高电压输出电压控制型

特点● 效率高达70%以上● 1*2英寸标准封装● 单电压负输出● 价格低● 电压控制,输出电压随控制电压变化线性变化● 工作温度: -40℃~85℃● 阻燃封装，满足UL94-V0 要求● 温度特性好● 可直接焊在PCB 上应用GRB 系列模块电源是一种DC-DC升压变换器。该模块电源的输…

阅读更多...

十、Linux文件 - fread函数讲解

十、Linux文件 - fread函数讲解

目录 1.fread函数讲解 2.fread函数实战 1.fread函数讲解从文件中读入数据到指定的地址中函数原型： size_t fread(void*buff , size_t size, size_t count , FILE* stream) /* * description :对已打开的流进行数据读取 * param ‐ ptr ：指向数据块的…

阅读更多...

好用的电脑备份软件推荐

好用的电脑备份软件推荐

现在几乎每个人都有一台电脑，上面存储着大量的数据，比如宝贵的照片、视频、工作文档等等。但电脑也随时存在许多威胁，比如病毒、Windows 更新错误、死机黑屏、驱动程序问题、系统崩溃等。为防止任何数据丢失，你需要一个专业的电脑…

阅读更多...

Oracle数据库故障处理-单块读hang存储异常导致hang死，数据库大量的db file seq read等待（p1 p2无反映）

Oracle数据库故障处理-单块读hang存储异常导致hang死，数据库大量的db file seq read等待（p1 p2无反映）

1 故障描述 2023年1月27日下午接到业务反馈数据库存在大量的锁表阻塞信息，并且业务的页面以及数据库的一些查询均处于阻塞状态，简单的查询sql也需要查询很长时间且未返回结果,数据库hang状态。问题现象2 1 数据库进程无法杀除。 2 操作系统进程使用…

阅读更多...

也许你应该学学 postman了

也许你应该学学 postman了

使用最简单的方法就是直接在浏览器中复制 Copy as cURL ，然后把数据导入 postman，然后 send ，收工。我们这里拿知乎首页举例在对应的请求下复制 cURL 打开 postman ， 点击左上角的 Import ， 选择Paste Raw Tex…

阅读更多...

如何使用逻辑分析仪，解析通信数据

如何使用逻辑分析仪，解析通信数据

如何使用逻辑分析仪，解析通信数据使用工具：逻辑分析仪（几十块买的裸板），软件是：PulseView一、在开发或者移植某一个模块时，你可能遇到这样的问题：二、逻辑分析仪的使用使用工具&…

阅读更多...

二级C语言操作例题(四十)

二级C语言操作例题(四十)

一、程序填空题在此程序中，函数fun的功能是：在形参s所指字符串中寻找与参数c相同的字符，并在其后插入一个与之相同的字符，若找不到相同的字符则不做任何处理。例如，若s所指字符串”baacda”，中c的字符为…

阅读更多...

JavaWeb-JavaScript API

JavaWeb-JavaScript API

目录DOM获取元素事务操作操作元素获取/修改元素属性获取/修改表单元素属性实现一个全选效果，主要是操作input的checked属性获取/修改元素样式点击放大字体夜间模式(关灯开灯)操作节点新增节点删除节点案例-猜数字案例-表白墙DOM DOM 全称为 Document Object Model.…

阅读更多...

【Spring6源码・MVC】请求处理流程源码解析

【Spring6源码・MVC】请求处理流程源码解析

上一篇《【Spring6源码・MVC】初始化registry，完成url和controller的映射关系》我们知道，在IOC容器加载的同时，初始化了registry这个HashMap，这个HashMap中存放了请求路径和对应的方法。当我们请求进来，会通过这个regi…

阅读更多...

合并两个有序链表-力扣21-java双百方案

合并两个有序链表-力扣21-java双百方案

一、题目描述将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例 1：输入：l1 [1,2,4], l2 [1,3,4]输出：[1,1,2,3,4,4]示例 2：输入：l1 [], l2 []输出&#xff1…

阅读更多...

C++中编译静态库与动态库

C++中编译静态库与动态库

1.库的理解库就是写好的现有的，成熟的，可复用的代码。现实中每个程序都要依赖很多基础的底层库，不可能每个人的代码都从零开始，因此库的存在意义非同寻常。本质上来说库是一种可执行代码的二进制形式，是预编译代码的集…

阅读更多...

【Vue3】element-plus中el-tree的递归处理赋值回显问题

【Vue3】element-plus中el-tree的递归处理赋值回显问题

目录一：先获取所有权限tree二：在获取所有该角色能有的权限tree三：递归处理勾选tree节点由于项目是从0-1开始构建的 rbac都需要重新构建对接所以涉及到了权限管理和菜单管理一级菜单包含多个二级菜单若二级不全选，则一级显示半…

阅读更多...

scipy超几何函数

scipy超几何函数

文章目录hyp2f1广义超几何函数其他超几何函数hyp2f1 当c不是0,−1,⋯0,-1,\cdots0,−1,⋯时，对于∣z∣<1|z|<1∣z∣<1，超几何函数可表示为 2F1(a;b;c;z)∑n0∞a(n)b(n)c(n)znn!_2F_1(a;b;c;z)\sum^\infty_{n0}\frac{a^{(n)}b^{(n)}}{c^{(n)}}\…

阅读更多...

TOOM告诉你企业舆情监测的重要性，企业舆情监测的意义

TOOM告诉你企业舆情监测的重要性，企业舆情监测的意义

企业舆情监测是一种有效的企业管理手段，能够帮助企业了解舆情信息，从而更好地管理企业、保护企业利益，TOOM告诉你企业舆情监测的重要性，企业舆情监测的意义。一、企业舆情监测的重要性声誉管理：通过对企业在线和离…

阅读更多...

pixhawk2.4.8使用调试记录—APM固件

pixhawk2.4.8使用调试记录—APM固件

目录一、硬件准备二、APM固件、MP地面站下载三、地面站配置1 刷固件2 机架选择3 加速度计校准4 指南针校准5 遥控器校准6 飞行模式7 紧急断电&无头模式8 基础参数设置9 电流计校准10 电调校准11 起飞前检查（每一项都非常重要）12 飞行经验四、遇到的问…

阅读更多...

ESP8266_Linux环境搭建

ESP8266_Linux环境搭建

工具链设置适用于 Linux 的 ESP8266 工具链可从 Espressif 网站下载： 对于 64 位 Linux： https://dl.espressif.com/dl/xtensa-lx106-elf-gcc8_4_0-esp-2020r3-linux-amd64.tar.gz 对于 32 位 Linux： https://dl.espressif.com/dl/xten…

阅读更多...

web自动化使用xpath轴定位

web自动化使用xpath轴定位

目录 XPath 轴（Axes） 一、定义：轴可定义相对于当前节点的节点集。二、语法： 一、ancestor 选取当前节点的所有先辈(父，祖父等) 二、ancestor-or-self： 选取当前节点的所有先辈（父、祖父等…

阅读更多...

QT（11）- QThread

QT（11）- QThread

1 简介 QThread：具有可选事件循环的低级 API QThread是 Qt 中所有线程控制的基础。每个QThread实例表示并控制一个线程。 QThread可以直接实例化，也可以子类化。实例化QThread提供了一个并行事件循环，允许在辅助线程中调用QObject插槽。对 …

阅读更多...

Leetcode力扣秋招刷题路-0037

Leetcode力扣秋招刷题路-0037

从0开始的秋招刷题路，记录下所刷每道题的题解，帮助自己回顾总结 37. 解数独编写一个程序，通过填充空格来解决数独问题。数独的解法需遵循如下规则： 数字 1-9 在每一行只能出现一次。数字 1-9 在每一列只能出现一次。数字…

阅读更多...

推荐文章

最新文章