Transformer的原理及应用分析

news2024/10/1 7:45:17

上一篇博文重点介绍了Transformer的核心组件MultiHeadAttention多头注意力机制,本篇继续介绍transformer的原理。下图为transformer的结构图,其主要由位置编码、多组编码器和多组解码器。以下将重点介绍三个部分。

1. 位置编码 Positional Encoding

Attention存在的一个问题是没有保留序列中各词的位置信息,或者说序列中各词间调换顺序后,对于最终输出几乎没有影响,因此必须要将位置编码作为Attention的输入部分,在Transformer中给出位置编码方法,是在原有词向量上叠加位置编码向量:

 上式用于计算位置编码向量,pos表示词在序列中的位置[1,2,3,4...],i表示位置编码向量中位置,下图的纵轴表示位置从0~19下的512维位置编码向量,该位置编码向量会同输入embeding向量叠加作为attention的输入。

2. 编码器

编码器组件中,经过多头注意力模块后,还有两个残差和layerNorm操作,这两个模块是用于提升模型收敛的常见举措,此外在Attention中在用点积来计算query、key间的相似度得分时,要求都必须满足零均值和单位方差,因此LayerNorm也起到了保证作用。

另一个组件是前向网络Position-wise Feed-Forward Networks,其实际上是两层的全连接网络:

FFN(x) = max(0, xW_1 + b_1)W_2 + b_2

但不同之处其是Position-wise,意思是针对于序列中各词向量单独经过两层全连接网络,因此序列中各位置的词向量是共有一个前向网络,所以FFN网络本质上是增加词向量本身表达,还不是学习词向量间相关信息,这部分是由Attention来完成的。

3. 解码器

解码器同编码器唯一的不同之处,在于其多了一组自注意力组件,下图描述了解码器的两组自注意力组件的输入,其中第一组自注意力组件的query是前一词,其key和values是当前已经产出的词序列,其主要用于建立输出序列本身的关系,其输出在第二组注意力组件中,同编码器的输出建立了关系,整体的结构同RNN有相仿的地方。

4. 应用

Transformer主要是用于序列转换,比如机器翻译、文本生成、生成对话等等,一些情感分析等序列分类任务可以通过应用Encoder模块+线性层来完成。此外,近年来一些图像处理领域也有大量工作是基于Transformer的结构的,比如这篇论文中将Transformer应用于图像分类,其原理是将图片划分为16x16的patch,然后将patch转换为向量,然后带上位置编码特征进入transformer的Encoder层,经过多层encoder后,最后通过一个线性层得到分类估计。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/437710.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于html+css的图片展示18

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

Scala循环中断

目录 1.使用抛出和捕获异常的方法跳出当前循环2.使用Scala中的Breaks类的break方法3.测试4.简化 使用 ._ 来引入全部内容 方便调用 在scala中无法直接使用break关键字跳出当前循环,但有其他方法 1.使用抛出和捕获异常的方法跳出当前循环 def main(args: Array[Str…

DAB-DETR代码学习记录之Transformer模块解析

DAB-DETR是吸收了Deformable-DETR,Conditional-DETR,Anchor-DETR等基础上完善而来的。其主要贡献为将query初始化为x,y,w,h思维坐标形式。 这篇博文主要从代码角度来分析DAB-DETR所完成的工作。 DAB-DETR主要是对Decoder模型进行改进。 位置编码的温度值…

「线性DP-步入」传球游戏

传球游戏 题目描述 ​ 上体育课的时候,小蛮的老师经常带着同学们一起做游戏。这次,老师带着同学们一起做传球游戏。 ​ 游戏规则是这样的:n个同学站成一个圆圈,其中的一个同学手里拿着一个球,当老师吹哨子时开始传球…

Java -枚举的使用

一、背景及定义 枚举是在JDK1.5以后引入的。主要用途是:将一组常量组织起来,在这之前表示一组常量通常使用定义常量的方式: public static int final RED 1; public static int final GREEN 2; public static int final BLACK 3;但是常量…

Python3 OpenCV4 计算机视觉学习手册:1~5

原文:Learning OpenCV 4 Computer Vision with Python 3 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 计算机视觉 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 当别人说你没有底线的时候&a…

goland 启动go module 之后goland标红,unresolved reference 无法正常追踪代码

程序是别的同事写的,你这边从git上面拉下来 1.go build之后 所有的依赖都弄好了 2.go module也开启了 3.go程序能正常运行 最后还是依赖无法正常追踪 unresolved reference 解决步骤: 1.先让程序正常运行 go clean --modcache。再执行go run main.go或者go build重新编译 2.id…

如何通过开源项目搭建私有云平台--第四步上:安装rancher,搭建K8s集群

第四步上:安装rancher,搭建K8s集群 第四步比较复杂,因此准备分上中下三篇文章来介绍,本次采用rancher来部署K8s集群,选择rancher如下: 1)部署K8s简单,有一个不是那么复杂的管理界面…

163种中草药(中药材)数据集说明(含下载地址)

163种中草药(中药材)数据集说明(含下载地址) 目录 163种中草药(中药材)数据集说明(含下载地址) 1. Chinese-Medicine-163数据集说明 2. Chinese-Medicine-163数据集下载 3. 深度学习实现中草药(中药材)识别 本文将分享一个大规模的中草药(中药材)图片数据集(Chinese-Medic…

Ubuntu18.04安装ROS Melodic

1.设置安装源 为了安装ROS Melodic,首先需要在Ubuntu 18.04 LTS上添加安装源到source.list,方法如下 sudo sh -c echo "deb http://packages.ros.org/ros/ubuntu $(lsb_release -sc) main" > /etc/apt/sources.list.d/ros-latest.list 加…

元宇宙场景下的实时互动RTI技术能力构建

元宇宙可谓是处在风口浪尖,无数的厂商都对元宇宙未来抱有非常美好的憧憬。正因如此,许许多多厂商都在用他们自己的方案,为元宇宙更快、更好的实现,在自己的领域贡献力量。LiveVideoStack 2022北京站邀请到了 ZEGO 即构科技的解决方…

MobPush Android SDK厂商通道申请指南

华为厂商申请 创建应用 登录华为开发者联盟,注册您的应用,在应用信息中获取APP ID和Client Secret 配置SHA256证书指纹 在华为开发者联盟配置SHA256证书指纹。获取及配置请参见华为官方文档配置AppGallery Connect 设置消息回执 集成华为厂商通道SDK…

数据结构—双向链表

目录 1. 链表的种类 2. 最实用的两种链表类型 3. 实现双向带头循环链表 3.1 创建头节点 3.2 实现双向循环功能—返回头指针 3.3 尾插 3.4 头插 3.5 尾删 3.6 头删 4. 实现两个重要接口函数 4.1 随机插入 4.2 随机删除 5. 顺序表和链表总结 1. 链表的种类 由上面…

【Nginx网站服务】

安装Nginx服务 1.先去官网下载软件包 2.关闭防火墙,将安装nginx所需软件包传到/opt目录下 systemctl stop firewalld systemctl disable firewalld setenforce 0nginx-1.18.0.tar.gz nginx-1.22.0.tar.gz3.安装依赖包 #nginx的配置及运行需要pcre、zlib等软件…

javaEE汽车用油加油站销售管理系统servlet

经过我的实地考察,我发现现在的销售管理有以下弊端: (1)、大多数都是人工记录,人工开票,这样既费时费力,还费财; (2)、由于品种种类的增多,记录货品的资料变得麻烦; (3)、对一些顾客…

COMSOL锂离子电池仿真技术与应用

背景: 随着各国燃油车禁售时间表的推出,新能源汽车的地位愈发稳固。而锂离子电池作为电动车的核心动力源,也越来越受到市场的追捧。锂离子电池在制作过程中涉及正极、电解液、负极、隔膜等材料的选取与匹配,极片设计参数的选择等…

原型设计工具即时设计、Axure、Figma、Sketch,哪个更好用?

在线网页原型图设计软件的使用与桌面端相比具备优势,因为在线网页原型图设计软件的使用全程不需要安装,而且在线网页原型图设计软件也没有任何地点上的限制,更主要的是在线网页原型图设计软件在操作系统上也没有限制,不论是现在使…

分享10个前端开发者需要掌握的DOM技巧

Web开发不断发展,掌握最新的趋势和最佳实践对每位开发者来说都至关重要。Web开发的最重要方面之一就是使用文档对象模型(DOM)。在本文中,我们将探讨10个必须掌握的DOM技巧和技巧,配有代码示例,这将帮助您成…

camunda工作流user task节点用途

Camunda中的User Task用于在流程中定义人工任务,需要一个人来执行该任务并提供相关信息。通常,User Task在业务流程中用于需要人类干预的步骤,例如审核、审批、调查等。 User Task具有以下特性: 1、指派任务给具体的用户或用户组…

leetcode547. 省份数量

有 n 个城市,其中一些彼此相连,另一些没有相连。如果城市 a 与城市 b 直接相连,且城市 b 与城市 c 直接相连,那么城市 a 与城市 c 间接相连。 省份 是一组直接或间接相连的城市,组内不含其他没有相连的城市。 给你一…