transformers简介

transformers简介

news2026/3/4 19:45:29

目录

1、前言

2、网络结构

（1）、Transformers的总体架构可以分为四部分

（2）、输入文本包含

（3）、输出部分包含

（4）、编码器部分

（5）、解码器部分

1、前言

处理序列任务的时候，首要的选择就是RNN。但是RNN主要思想就是把前一时刻的输出作为这一时刻的输入，因此导致RNN在训练过程中后一个时刻的输入依赖于前一个时刻的输出，无法进行并行处理，导致模型训练的速度慢，比CNN模型要慢几倍到十几倍。

后来又提出使用CNN来替代RNN，速度上确实取得了一定的优势，但在面对更长的序列的时候，CNN的卷积核限制了视野的大小，导致无法看到更全局的信息。

最后直到self-Attention层的出现，才解决了这样的问题，也就是后来的transformer。

2、网络结构

transformer的总体网络结构如图所示：

（1）、Transformers的总体架构可以分为四部分

输入部分
输出部分
编码器部分
解码器部分

（2）、输入文本包含

源文本嵌入层及其位置编码
目标文本嵌入层及其位置编码器

（3）、输出部分包含

线性层
softmax层

（4）、编码器部分

由N 个编码器层堆叠而成
每个编码器是由两个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

（5）、解码器部分

由N 个解码器层堆叠而成
每个编码器是由三个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1052287.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

dbeaver连接国产数据库

dbeaver连接国产数据库

dbeaver是常用的数据库连接工具。但是在连接一些国产的数据库时，因为没有可选的驱动，所以需要我们先设置驱动，在连接。以下是一个连接highgo例子。首先先新增一个驱动： 在页面的菜单栏，选择数据库 ->驱动管理器…

阅读更多...

SpringBoot整合阿里云OSS文件存储解决方案

SpringBoot整合阿里云OSS文件存储解决方案

🧑‍💻作者名称：DaenCode 🎤作者简介：啥技术都喜欢捣鼓捣鼓，喜欢分享技术、经验、生活。 😎人生感悟：尝尽人生百味，方知世间冷暖。 📖所属专栏：Sp…

阅读更多...

【AI视野·今日Sound 声学论文速览第十五期】Fri, 29 Sep 2023

【AI视野·今日Sound 声学论文速览第十五期】Fri, 29 Sep 2023

AI视野今日CS.Sound 声学论文速览 Fri, 29 Sep 2023 Totally 1 papers 👉上期速览✈更多精彩请移步主页 Daily Sound Papers Audio-Visual Speaker Verification via Joint Cross-Attention Authors R. Gnana Praveen, Jahangir Alam使用语音信号进行了说话人验证的…

阅读更多...

Web开发-新建Spring Boot项目

Web开发-新建Spring Boot项目

目录 Spring Boot 与 Web开发Spring Boot 与 MavenJava 环境搭建下载JDK下载xmapp下载navicat for mysql下载Eclipse配置tomcat配置maven 新建Spring Boot项目 Spring Boot 与 Web开发 Spring Boot 是一种用于简化 Spring 应用程序开发、部署和运行的框架，而 Web 开…

阅读更多...

【LeetCode】滑动窗口妙解无重复字符的最长子串

【LeetCode】滑动窗口妙解无重复字符的最长子串

Problem: 3. 无重复字符的最长子串文章目录思路算法原理分析暴力枚举哈希表滑动窗口复杂度Code 思路首先我们来分析一下本题的思路如果读者有看过长度最小的子数组的话就可以清楚这个子串其实和子数组是一个道理，都是连续的一段区间但是呢它们本质上还是存…

阅读更多...

【数据结构】队列和栈

【数据结构】队列和栈

大家中秋节快乐，玩了好几天没有学习，今天分享的是栈以及队列的相关知识，以及栈和队列相关的面试题 1.栈 1.1栈的概念及结构栈：一种特殊的线性表，其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作…

阅读更多...

Java字符缓冲流自己特有的方法进行读入和写出

Java字符缓冲流自己特有的方法进行读入和写出

代码如下： public class MyWork {public static void main(String[] args) throws IOException{BufferedReader fr new BufferedReader(new FileReader("myfile/abc.txt"));BufferedWriter fw new BufferedWriter(new FileWriter("myfile/test.tx…

阅读更多...

(一)gitblit安装教程

(一)gitblit安装教程

(一)gitblit安装教程 (二) gitblit用户使用教程 (三) gitblit管理员手册目录前言安装1.下载Java Runtime Requirement 2.设置环境变量3.gitblit内容3.1 gitblit文件夹内容3.2 defaults.properties 主要配置选项 4 配置4.1 准备文件4.2 修改gitblit.properties4.3 修改authori…

阅读更多...

第十四届蓝桥杯大赛软件赛决赛 C/C++ 大学 B 组试题 E: 数三角

第十四届蓝桥杯大赛软件赛决赛 C/C++ 大学 B 组试题 E: 数三角

[蓝桥杯 2023 国 B] 数三角【问题描述】小明在二维坐标系中放置了 n n n 个点，他想在其中选出一个包含三个点的子集，这三个点能组成三角形。然而这样的方案太多了，他决定只选择那些可以组成等腰三角形的方案。请帮他计算出一共有多少种选…

阅读更多...

凉鞋的 Unity 笔记 101. Hello Unity

凉鞋的 Unity 笔记 101. Hello Unity

101. Hello Unity 学习任何一门技术，第一件事就是先完成 Hello World！的输出所以我们来完成 Unity 的 Hello World。我们所使用的 Unity 版本是 2023.x 版本。安装的过程就不给大家展示了。我们从新建项目开始。新建项目打开 Unity Hub 后&…

阅读更多...

商圣范蠡见好就收，散尽钱财求得好死

商圣范蠡见好就收，散尽钱财求得好死

有所得必有所失，有所利必有所害。人弃我捡，人争我弃。巴菲特说过：“别人恐惧我贪婪，别人贪婪我恐惧。” 一、商圣公元前536年，范蠡出生在楚国，家境贫寒。范蠡，字少伯。虽然家里穷&#xf…

阅读更多...

大数据Doris（三）：Doris编译部署篇

大数据Doris（三）：Doris编译部署篇

文章目录 Doris编译部署篇一、Doris编译

阅读更多...

装饰器模式详解和实现

装饰器模式详解和实现

装饰器模式（Decorator Pattern）是一种结构型设计模式，它允许你动态地将对象添加到现有对象中，以提供额外的功能，同时又不影响其他对象。实现示例 1.定义一个接口或抽象类，表示被装饰对象的公共接口 //抽…

阅读更多...

[02] Multi-sensor KIT: DSP 矩阵运算-加法，减法和逆矩阵，放缩，乘法和转置矩阵

[02] Multi-sensor KIT: DSP 矩阵运算-加法，减法和逆矩阵，放缩，乘法和转置矩阵

1.概述 2.API ◄ arm_mat_init_f32 浮点矩阵初始化 ◄ arm_mat_add_f32 矩阵加法 ◄ arm_mat_mult_f32 矩阵乘法 ◄ arm_mat_inverse_f32 矩阵A的逆矩阵 ◄ arm_mat_scale_f32 矩阵A乘以系数 ◄ arm_mat_inverse_f32 矩阵A减法 ◄ arm_mat_inverse_f32 矩阵A的装置 3.矩阵初…

阅读更多...

Spring Security 简单token配置

Spring Security 简单token配置

Spring Security 简单token配置说明：非表单配置先上码： https://gitee.com/qkzztx_admin/security-demo/tree/master/demo-two 环境：win10 idea2023 springboot2.7.6 maven3.8.6 代码清单说明依赖： <dependency><…

阅读更多...

mysql报错：Column Count Doesn‘t Match Value Count at Row 1

mysql报错：Column Count Doesn‘t Match Value Count at Row 1

mysql中执行insert、update、delete报错：Column Count Doesnt Match Value Count at Row 1 的解决方案通常情况：字段不匹配如：student有id, name, age字段 -- 错误写法 INSERT INTO student VALUES(5,horse)-- 正确写法 INSERT INTO stu…

阅读更多...

【JavaEE】CAS(Compare And Swap)操作

【JavaEE】CAS(Compare And Swap)操作

文章目录什么是 CASCAS 的应用如何使用 CAS 操作实现自旋锁CAS 的 ABA 问题CAS 相关面试题什么是 CAS CAS（Compare and Swap）是一种原子操作，用于在无锁情况下保证数据一致性的问题。它包含三个操作数——内存位置、预期原值及更新值。在执…

阅读更多...

ElasticSearch 10000条查询数量限制

ElasticSearch 10000条查询数量限制

一、前言我们将库存快照数据导入ES后发现要分页查询10000条以后的记录会报错，这是因为ES通过index.max_result_window这个参数控制能够获取数据总数fromsize最大值，默认限制是10000条，因为ES考虑到数据要从其它节点上报到协调节点如果搜索请…

阅读更多...

【Java 进阶篇】MySQL启动与关闭、目录结构以及 SQL 相关概念

【Java 进阶篇】MySQL启动与关闭、目录结构以及 SQL 相关概念

MySQL 服务启动与关闭 MySQL是一个常用的关系型数据库管理系统，通过启动和关闭MySQL服务，可以控制数据库的运行状态。本节将介绍如何在Windows和Linux系统上启动和关闭MySQL服务。在Windows上启动和关闭MySQL服务启动MySQL服务在Windows上&#x…

阅读更多...

基于Java的毕业设计管理系统设计与实现(源码+lw+部署文档+讲解等)

基于Java的毕业设计管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序（小蔡coding）有保障的售后福利代码参考源码获取前言 💗博主介绍：✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…

阅读更多...

推荐文章

最新文章