[转]深度学习 Transformer架构解析

[转]深度学习 Transformer架构解析

news2026/2/12 19:01:44

原文链接：https://blog.csdn.net/mengxianglong123/article/details/126261479

1.1 Transformer的诞生

2018年10月，Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!

论文地址: https://arxiv.org/pdf/1810.04805.pdf

而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNET，roBERT等模型击败了BERT，但是他们的核心没有变，仍然是：Transformer.

1.2 Transformer的优势

相比之前占领市场的LSTM和GRU模型，Transformer有两个显著的优势:

Transformer能够利用分布式GPU进行并行训练，提升模型训练效率.

在分析预测更长的文本时, 捕捉间隔较长的语义关联效果更好.

下面是一张在测评比较图:

1.3 Transformer的市场

在著名的SOTA机器翻译榜单上, 几乎所有排名靠前的模型都使用Transformer,

其基本上可以看作是工业界的风向标, 市场空间自然不必多说！

二、Transformer架构解析

2.1 认识Transformer架构

2.1.1 Transformer模型的作用

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, 文本生成等. 同时又可以构建预训练语言模型，用于不同任务的迁移学习.

声明:

在接下来的架构分析中, 我们将假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作, 因此很多命名方式遵循NLP中的规则. 比如: Embeddding层将称作文本嵌入层, Embedding层产生的张量称为词嵌入张量, 它的最后一维将称作词向量等.

2.1.2 Transformer总体架构图

Transformer总体架构可分为四个部分:

输入部分

输出部分

编码器部分

解码器部分

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/336860.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

分享5款后台收到的推荐最多的软件

分享5款后台收到的推荐最多的软件

最近后台收到好多小伙伴的私信，今天继续推荐五款小工具，都是免费使用的，大家可以去试试看。 1.视频压缩——Moo0 VideoMinimizer 一款完全免费的视频压缩软件，能够有效的将视频压缩到最小，同时还不改变视频画质很清晰…

阅读更多...

基于SpringBoot的房屋租赁管理系统的设计与实现

基于SpringBoot的房屋租赁管理系统的设计与实现

基于SpringBoot的房屋租赁管理系统的设计与实现 1 绪论 1.1 课题来源随着社会的不断发展以及大家生活水平的提高，越来越多的年轻人选择在大城市发展。在大城市发展就意味着要在外面有一处安身的地方。在租房的过程中，大家也面临着各种各样的问题&…

阅读更多...

Java程序设计-基于Java高校社团管理系统

Java程序设计-基于Java高校社团管理系统

摘要功能需求系统的功能实现摘要当前，大多数高校的社团信息管理都是采用纸质档案的方式来管理的，这样不仅不能长期的保存信息，而且在数据的查找上带来很大的不方便。在目前的网络技术和计算机技术的普及和信息管理的迅速发展，…

阅读更多...

【MySQL】你知道的MySQL中的集合函数有哪些呢？

【MySQL】你知道的MySQL中的集合函数有哪些呢？

集合函数排名AVG（）函数COUNT()函数SUM（）函数MAX（）函数和 MIN（）函数总结大家好，我是小冷。上一篇写了看看ChatGPT是如何回答面试官的问题的？ 地址是&#x…

阅读更多...

MySQL数据库06——条件查询(WHERE)

MySQL数据库06——条件查询(WHERE)

MySQL条件查询，主要是对数据库里面的数据按照一定条件进行筛选，主要依靠的是WHERE语句进行。先来了解一下基础的条件运算。关系运算符逻辑运算符逻辑运算符优先级：NOT>AND>OR，关系运算符>逻辑运算符 SQL特殊运算符…

阅读更多...

公司常用的Project管理工具

目录 1.svn 2.reviewBoard 3.禅道 4.瘦终端 1.svn svn主要是对代码的管理，保证代码的同步开发。 svn的搭建方法https://www.cnblogs.com/ftx3q/p/15340160.html 2.reviewBoard reviewBoard代码审查工具，所有工程师写的代码上传到reviewBoard&#x…

阅读更多...

前端将本地代码项目上传到gitee上

前端将本地代码项目上传到gitee上

文章目录前言一、gitee建立仓库？1.登入并新建账号2.填写仓库信息3.传项目前言因为以前跟B站做了一些项目，想上传到gitee仓库保留。所以写下此文章。前端项目一、gitee建立仓库？ 1.登入并新建账号 2.填写仓库信息 readme文件是否选择&#…

阅读更多...

C++类基础（十）

C++类基础（十）

运算符重载 struct Str {int val 3; }; Str Add(Str x, Str y) {Str z;z.val x.val y.val;return z; } int main() {int val1 2;int val2 3;int val3 val1 val2; //分别对val1和val2求值然后相加Str x;Str y;Str z Add(x, y); //同样的功能，但是写法冗杂St…

阅读更多...

【GPLT 二阶题目集】L2-004 这是二叉搜索树吗？

【GPLT 二阶题目集】L2-004 这是二叉搜索树吗？

参考文章：L2-004. 这是二叉搜索树吗？-PAT团体程序设计天梯赛GPLT 作者：柳婼（非常感谢!!!） 一棵二叉搜索树可被递归地定义为具有下列性质的二叉树：对于任一结点， 其左子树中所有结点的键值小于…

阅读更多...

基于时间序列的基-2 FFT算法程序

基于时间序列的基-2 FFT算法程序

gitee链接 ：基于时间序列的基-2 FFT算法程序我的 gitee 程序目前没有公开，目前仅是给自己的程序做一个备份的目的。但是大家可以使用我博客贴出来的程序，二者是一样的。文章目录1.程序使用方法2.代码3.验证1.程序使用方法 1.先补零至2的…

阅读更多...

html(二)基础标签

html(二)基础标签

一 HTML中的注释重点： 在哪写注释? 注释的形式? vs code和webstorm都可以通过 ctrl / 进行单行注释和取消注释 ① html中注释的形式 1) html文档中单行和多行注释是"" -->html2) 在html文档中,script标签…

阅读更多...

volatile 关键字

volatile 关键字

1.volatile 能保证内存可见性 volatile 修饰的变量, 能够保证 "内存可见性". 代码在写入 volatile 修饰的变量的时候, 改变线程工作内存中volatile变量副本的值将改变后的副本的值从工作内存刷新到主内存代码在读取 volatile 修饰的变量的时候从主内存中读取vol…

阅读更多...

为什么B站中的弹幕可以不遮挡人物

为什么B站中的弹幕可以不遮挡人物

上班逛B站时摸鱼时，看到了满屏的弹幕，而且还不挡脸，突然心血来潮来看看它是怎么实现的？ 不难发现弹幕其实它就是有一个蒙版层div，遮挡在视频组件的上方，z-index层级设置的比较高（这里是11&…

阅读更多...

史上最全最详细的Instagram 欢迎消息引流及示例

史上最全最详细的Instagram 欢迎消息引流及示例

史上最全最详细的Instagram 欢迎消息引流及示例！关键词： Instagram 欢迎消息SaleSmartly（ss客服） 寻找 Instagram 欢迎消息示例，您可以用于您的业务。在本文中，我们将介绍Instagram欢迎消息的基础知识和好处…

阅读更多...

window11安装node、nvm、nrm

window11安装node、nvm、nrm

一、安装nvm 下载nvm安装包，window11建议使用exe安装包 Releases coreybutler/nvm-windows GitHub 下载后双击安装切记！切记！切记！ 安装nvm和nodejs的目录设置一定不要有特殊符号或者空格，设置一个连续的只有英文…

阅读更多...

UMI 创建react目录介绍及配置

UMI 创建react目录介绍及配置

UMI 生成react项目目录介绍及配置 react项目目录介绍umi多种配置方案运行时配置app.ts 的使用 1、umi创建的项目目录大致如下 ├─package.json 配置依赖以及启动打包所需的命令 ├─.umirc.ts 配置文件，包含 umi 内置功能和插件的配置 ├── dist 打包后生成的…

阅读更多...

情人节送什么礼物？四款情人节潮流数码好物推荐

情人节送什么礼物？四款情人节潮流数码好物推荐

情人节是一个特别的日子，是表达爱意和祝福的机会，如果您正在寻找一件特别的礼物，下面这篇文章不容错过。推荐1：南卡小音舱蓝牙耳机（299元） 作为最能表达仪式感和诚意的礼物，精致和实用是很重要…

阅读更多...

Spring中Bean的作用域问题

Spring中Bean的作用域问题

文章目录一、通过案例来简单体会一下Bean的作用域问题二、作用域定义三、Bean的作用域分类singletonprototyperequestsessionapplication（了解）singleton（单例作用域） 和 application （全局作用域）的区别we…

阅读更多...

马尔科夫预测

马尔科夫预测

一、模型介绍天气有以下几种状态：晴天、雨天、阴天若已知天气当前处于某种状态，则天气未来的状态只与现在有关，与过去无关注意，天气的状态是随机的，只能求明天处于某一种状态的概率描述这种随机现象的模型&#xff0…

阅读更多...

Visual Commonsense R-CNN 实现和代码

Visual Commonsense R-CNN 实现和代码

这篇文章比较早，但是对于因果介绍的比较详细，很值得学习。代码：https://github.com/Wangt-CN/VC-R-CNN 代码花了挺长时间总算跑通了，在 3080 上调真是错误不断，后来换到 2080 又是一顿调才好。这里跑通的主要环境为 u…

阅读更多...

推荐文章

最新文章