【Transformer】基本概述

news2024/11/15 16:00:29

文章目录

提出背景

在这里插入图片描述

在Transformer模型出现之前,循环神经网络(RNN)及其变体,如长短期记忆网络(LSTM)和门控循环单元(GRU),是处理序列数据的主流方法。但是RNN系列模型存在一些固有的问题,如难以并行化处理、对长距离依赖的捕捉能力有限等。为了解决这些问题,Transformer模型应运而生,于2017年由Vaswani等人在2017年提出,并发表在NeurlPS上。

与RNN系列相比Transformer的优势

  • 并行化处理:Transformer模型通过自注意力机制,可以在处理序列数据时实现高度的并行化,因为每个位置的计算不依赖于前一个位置的隐藏状态,这与RNN系列模型形成鲜明对比。

  • 长距离依赖:自注意力机制使得Transformer模型能够有效地捕捉序列中的长距离依赖关系,而RNN系列模型在这方面表现较差,尤其是当序列非常长时。

  • 灵活性和可扩展性:Transformer模型不依赖于序列的顺序,因此在处理不同长度的序列时更加灵活。此外,它还可以轻松地扩展到更大的数据集和更复杂的任务。

核心思想—注意力机制

Transformer的核心思想,就是抛弃传统的递归(recurrence)或者卷积(convolutions)模块,完全采用注意力机制(attention mechanisms),允许模型在处理序列的每个元素时,都能考虑到序列中的所有其他元素,因此,这种机制就使得模型能够更好地捕捉序列内部的长距离依赖关系。

流程解析

Transformer模型的结构主要由编码器(Encoder)和解码器(Decoder)两大部分组成。

  • 编码器由多个相同的层堆叠而成,每层包含两个主要部分:多头自注意力机制(Multi-Head Self-Attention)和前馈神经网络(Feed-Forward Neural Network)。但也不要忘了还有normalization和residual connection部分,这两部分也是非常关键。
  • 解码器结构与编码器类似,区别主要是两点:在多头自注意力机制中增加了Masked策略(也是后来decoder-only大模型方法实现next-prediction的核心操作),以及增加了一个额外的cross-attention机制,用于关注编码器的输出。

下图是原始论文中的结构图,我把它按照重要程度划分为了7个部分,其中红色的前五个部分最为重要(面试官最喜欢考验候选人的部分),必须要深入理解和掌握,蓝色的后两个部分是相对次要但也要深入理解。

后续我对这个7个部分分别进行讲解,并结合代码进行深入理解。

在这里插入图片描述

参考资料

  • [1] https://www.bilibili.com/video/BV1FH4y157ZC/?share_source=copy_web&vd_source=79b1ab42a5b1cccc2807bc14de489fa7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2099440.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

dfs 解决 部分矩阵洪流/floodfill算法题(水流问题、扫雷游戏、衣橱整理、C++)

文章目录 前言1. 什么是FloodFill问题2. 用什么方法解决FloodFill问题 算法题417.太平洋大西洋水流问题529.扫雷游戏LCR130.衣橱整理 前言 1. 什么是FloodFill问题 一般floodfill问题可以描述为:给定一个二维矩阵,其中每个元素代表一个像素点&#xff…

Django Admin后台移除“删除所选”操作

默认情况下,Django Admin后台的listview模型列表页,会有一个Delete Selected删除所选操作。假设你需要再从Hero管理模型中移除该删除操作。 ModelAdmin.get_actions方法可以返回所有的操作方法。通过覆盖此方法,移除其中delete_selected方法…

紧跟NLP前沿进展:从研究到项目应用的全方位策略

创作不易,您的关注、点赞、收藏和转发是我坚持下去的动力! 大家有技术交流指导、论文及技术文档写作指导、项目开发合作的需求可以私信联系我 要跟进自然语言处理(NLP)的最新进展并有效应用于具体项目中,可以遵循以下…

文档自动化:Python-docx的魔力

文章目录 文档自动化:Python-docx的魔力背景:为何选择Python-docx?库简介:Python-docx是什么?安装指南:如何获得Python-docx?基础操作:五个核心函数的探索1. 创建文档2. 添加段落3. …

【硬件知识】从零开始认识GPU

【硬件知识】从零开始认识GPU 一、GPU的发展史简介二、GPU主要构成三、GPU与AI的关系 一、GPU的发展史简介 GPU(图形处理器)的发展史是一段充满创新与变革的历程,它不仅改变了计算机图形显示的方式,还推动了高性能计算、人工智能…

Oracle手动误删物理上的数据文件解决办法

背景: 手动删除了一个物理上的数据文件,dbf文件,数据库重启之后无法open 把oracle的一个数据文件删了,重启报错,怎样才能打开数据库?无备份 这个数据文件是无用的,因删除方式不对导致无法开机 …

Centos7通过reposync搭建本地Yum源

目录 1. 服务端搭建 1.1. 安装相关软件包 1.2. 加载几个常用的yum源 1.3. 创建文件保存目录 1.4. 把各仓库同步到本地 1.5. 生成仓库信息 1.6. 定时任务更新仓库 1.7. nginx配置下载服务 1.8. 内网测试nginx服务配置是否正确 2. 客户端配置 前言:之前使用…

C++STL之list容器:基本使用及模拟实现

目录 有了vector,为何还需list list的使用 1,push_back、push_front、pop_back、pop_front的使用 2,正向、反向、const正向、const反向迭代器的使用 正向、反向迭代器的使用 const正向、const反向迭代器的使用 3,operator …

Datawhale x李宏毅苹果书AI夏令营深度学习详解进阶Task03

在深度学习中,批量归一化(Batch Normalization,BN)技术是一种重要的优化方法,它可以有效地改善模型的训练效果。本文将详细讨论批量归一化的原理、实现方式、在神经网络中的应用,以及如何选择合适的损失函数…

淘宝商品评论API:获取商品使用场景与评价

淘宝的商品评论API(通常通过淘宝开放平台提供)允许开发者获取商品的评论信息,包括评价内容、评分、图片等。然而,直接获取特定商品的使用场景(即用户如何使用商品的具体描述)可能不是所有API都直接提供的&a…

【mysql】mysql目录结构和源码和mysql基础练习

mysql目录结构和源码的说明: 也就是之前说四个位置有提到的两个位置, 1软件安装位置bin 把bin目录加入环境变量就可以直接在命令行调用, "***\MySQL\MySQL Installer for Windows\bin" 2还有一个数据库文件的安装位置 &#…

华为云征文|基于华为云Flexus X实例部署Redis及案例实践详解

目录 前言 一、华为云Flexus X实例购买 1.1 Flexus X实例购买 1.2 登录Flexus X实例 二、Flexus X实例安装宝塔面板 2.1 安装宝塔面板 2.2 开放宝塔面板端口 2.3 登录宝塔面板 三、华为云Flexus X实例部署Redis 3.1 宝塔面板安装Redis 3.2 Redis密码设置及第三方登录 3.3 开放R…

【分立元件】电阻的基础知识

电阻与电容、电感一样都是最基本的元器件,大量使用于各种电气或电子设备中。对从事电气工作的人而言或许过于普通,平时忽视了它,但如果没有电阻,电气或电子电路就无法建立。电阻就是如此重要的元器件。 电阻的原理 电阻的数值取决于电阻材料的电阻率及其截面积和长度。 …

Java 自定义注解实现统一日志记录功能【Java核心技术_二十七】

一、什么是 Java 注解? 想象一下,你正在写一本日记,你可以在某些页面上贴上彩色的便签,上面写着一些关键词或者提醒。在 Java 中,注解就像是这些便签,它可以贴在类、方法、变量等程序元素上,为…

Vue 3 中如何对接高德地图

1. 准备工作 1.1. 获取高德地图 API Key 首先,你需要在高德开放平台注册并获取一个 API Key。访问 高德开放平台 注册并申请。 1.2. 安装依赖 在 Vue 3 项目中使用高德地图,可以通过以下步骤安装依赖: npm install types/amap-js-api --…

5.注册中心的其他实现-Nacos

文章目录 1.Nacos简介2.Nacos的安装2.1Nacos Windows本地启动不成功?2.2Linux环境下载并启动 3. Nacos的使用4.Nacos的负载均衡5.Nacos 健康检查6.Nacos 环境隔离7.Nacos 配置中心7.1为什么需要配置中心7.2 Nacos配置中心使用7.3 Data id7.4Nacos 上Linux部署服务7.…

鹰眼应急实时三维重建装备,高质量交付中!

在《2024年地方应急管理科技信息化任务书》的指导和应急管理万亿国债支撑下,全国各地正积极推进应急管理现代化建设,全力提升“数据汇聚服务能力、监测预警能力、指挥调度能力、支撑保障能力”四项应急管理能力。 制定标准化流程规范,保障交…

计算机毕业设计选题推荐-茶园茶农文化交流平台-Java/Python项目实战

✨作者主页:IT毕设梦工厂✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

分组密码的模式AES-CBC模式流程解析附:应用代码实现

CBC模式:Cipher Block Chaining mode(密码分组链接模式) CBC模式的加解密 CBC模式中,首先将明文分组与前一个密文分组进行XOR运算,然后再进行加密。密文分组像链条一样相互连接在一起。 CBC模式的加密流程图 CBC模式的解密流程图 将一个分…

使用 `wget` 和 `curl` 命令行工具的全面指南

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…