Attention Is All You Need论文解读

news2025/1/11 3:58:48

基本信息

作者Ashish Vaswanidoi
发表时间2017期刊NIPS
网址https://doi.org/10.48550/

研究背景

1. What’s known 既往研究已证实
使用RNN(循环神经网络)来处理机器翻译任务。RNN本轮的输入状态取决于上一轮的输出状态,这使RNN的计算必须串行执行。因此,RNN的训练通常比较缓慢。

2. What’s new 创新点
基于注意力的"encoder-decoder"架构。
允许模型扩展到比训练中遇到的序列长度更长的序列。

3. What’s are the implications 意义
提升训练的并行度,不受序列距离的限制;训练更快,表现更强。

研究方法

1. 模块1:Positional Embedding
把位置信息加入到输入向量中,transformer中使用正余弦波来计算PE:
在这里插入图片描述
在这里插入图片描述

2. 模块2:Multi-Head Attention
在这里插入图片描述
input(输入向量与位置向量的和)通过线性层映射出Q、K、V。
经过MatMul计算 Q ∗ KT得到scores(L*L的矩阵)。
之后通过Scale进行正则化,除以在这里插入图片描述

在这里插入图片描述
经过mask:使用一个很小的值,对指定位置进行覆盖填充。
在这里插入图片描述softmax:转换为概率。
在这里插入图片描述
最后MatMul: 这步使用softmax后的概率值与V矩阵做矩阵乘法。
在这里插入图片描述
Multi-Head:比如Q、K、V分为8段,每组Q、K、V通过Scaled Dot-Product Attention计算出结果,然后把这8个结果再拼成一个结果,就multi-head的结果。
3. 模块3:ADD
把模块2的输入矩阵与模块2的输入矩阵的对应位置做加法运算。
4. 模块4:Layer Normalization
根据 x = a ∗在这里插入图片描述
对x的分布进行调整。
5. 模块5:Feed Forward NetWork
前馈网络,其实就是MLP。
6. 模块6:Masked Multi-Head Attention
预测第N个字时,第N(包括)个字之后的字都masked掉。
7. 模块7:Multi-Head Attention
模块7的输入有两个,一个是decoder的输入经过第一个大模块传过来的值(为了方便,我们叫它input_x),一个是encoder最终结果(我们暂叫它input_memory), 模块7是把input_x通过一个linear映射成了Q,然后通过两个linear把input_memory映射成K、V,其它的与模块2完全一致。
在这里插入图片描述
8. 模块8:Linear
transformer decoder的输出从dmodel维度映射到词表大小的维度。(即全连接层,前向传播,转化成你需要的形状)
9. 模块9:SoftMax
输出转化成概率,对应到某个字的概率。

  1. 单词向量优于以前的技术状态。
  2. 使用非常简单的模型架构可以训练高质量的词向量。计算复杂性低,可从更大的数据集中计算非常精确的高维词向量。
  3. 通过Word2vec训练出的词向量可以用于许多自然语言处理任务,例如词义相似度计算、命名实体识别和情感分析等。

个人思考与启发

  1. 使用sin和cos函数生成的位置编码不依赖于序列的长度,它也可以让模型很容易地通过相对位置来学习。sin和cos有周期性,而词在句子中的位置通常表现出周期性。
  2. 整个结构中的其中一个小模块或许可以提取出来去解决其他问题,并且还能减少计算量,提高速度。
    参考文章:https://blog.csdn.net/nocml/article/details/110920221
    https://zhuanlan.zhihu.com/p/569527564
    transformer pytorch 代码实现:https://blog.csdn.net/nocml/article/details/124489562

重要图

文献中重要的图记录下来
transformer的基本结构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2097863.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JAVA一键预约无人化台球茶室棋牌室系统

一键预约,即刻享受无人化台球茶室棋牌室系统 ✨【未来已至,娱乐新体验】✨ 你是否厌倦了传统台球室、茶室、棋牌室的繁琐等待和人工服务?今天,就让我带你一起揭秘一个颠覆传统、引领潮流的新宠儿——“一键预约,即刻…

PLC边缘计算网关的选择策略-天拓四方

随着工业自动化和物联网技术的快速发展,PLC作为工业自动化的核心设备,其数据采集与处理能力日益受到重视。PLC边缘计算网关作为连接PLC与云端服务的桥梁,不仅承担着数据收集、传输和初步处理的角色,更是实现工业智能化升级的关键。…

【小工具】Maven项目集成poi生成数据库设计详细说明书

背景 编写数据库详细设计文档时经常因为数据库表过多和字段过多导致耗费大量的时间。本脚本可以自定义sql语句,查出数据库中所有表的表结构,并取需要的字段生成文档。 gitee地址:https://gitee.com/pengmqqq/mysql-to-word 1、前置准备 导…

uniapp微信小程序3D XR-FRAME

1.在pages.json中配置展示页面(style中添加下面:) "usingComponents": { "xr-start": "../../wxcomponents/xr-start" } 2.manifest.json中配置mp-weixin "setting" : { "urlCheck" : fal…

国人发文霸榜!命中率高达70%,这本2区SCI到底是“国人友好”还是“疯狂灌水”?

【SciencePub学术】本期,给大家介绍的是1本计算机类的SCI——《International Journal of Machine Learning and Cybernetics》。 优点VS缺点 • 期刊发文量逐年增多,命中率较高 • 国人主编坐镇,国人发文友好 • 混合OA,可选无版…

中国书法艺术

孙溟㠭浅析《大观帖》 《大观帖》是一套共十卷合集摹刻的法帖,大观三年《1109年》正月,宋徽宗所藏《淳化阁帖》刻板已经开裂损坏,不可修复,便拿出内府所藏原墨迹,命蔡京、龙大渊组织刻帖工作。由蔡京书写帖内的款…

【Redis】事务主从复制哨兵集群缓存分布式锁

【Redis】事务&哨兵&集群 一、事务命令合集: 二、主从复制断开复制性质:拓扑结构:全量复制和部分复制:1. replicationid/replid (复制id)(与runid做区分)2. offset (偏移量) psync 运⾏流程全量复制…

骨质疏松患者常用评估量表汇总,附操作步骤与评定标准

临床常用量表来评估患者的骨健康状况,常笑医学整理了4个临床常用的骨质疏松患者评估量表,支持下载和在线使用,供临床医护人员参考。 01 国际骨质疏松基金会(IOF)骨质疏松症风险一分钟测试题 (完整量表请点击量表名称查看&#xff…

Transformer模型《Attention Is All You Need》

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl1. 模型起源与发展 1.1 2017年论文《Attention Is All You Need》 2017年,谷歌大脑团队在论文《Attention Is All You Need》中首次提出了Transformer模型,该模型摒弃了传统的循环神经网络(RN…

关于主流电商平台|淘宝|拼多多|抖音|1688官方平台接口的接入和返回

taobao.trades.sold.get( 查询卖家已卖出的交 搜索当前会话用户作为卖家已卖出的交易数据(只能获取到三个月以内的交易信息) 1. 返回的数据结果是以订单的创建时间倒序排列的。 2. 返回的数据结果只包含了订单的部分数据,可通过taobao.trade…

我愿称之为: jjVioMap (小提琴热图)

吾将上下而求索 1Introduction Here supply a geom_jjviomap function to visualize gene expression or other data in a heatmap-like way. The geom_jjviomap can still retain data distribution informations through violin graphs. 链接: https://github.com/junjunlab/…

论文解读汇总(目标检测、目标跟踪、语义分割....)定期更新

微信公众号 猫脸码客 论文解读文章 第1期 论文解读——YOLOv1(目标检测) 第2期 论文解读——YOLOv2(目标检测) 第3期 论文解读——YOLOv3(目标检测) 第4期 论文解读——YOLOv4(目标检测&…

惊喜!万博智云亮相2024数博会和第三届828 B2B企业节

摘要 万博智云作为2024 828 B2B企业节铂金合作伙伴,在2024中国国际大数据产业博览会的828 B2B企业节开幕式上亮相,并参加了本次828企业节的一系列活动,包括在华为展台现场开展的“‘云上大咖团’直面数博会现场”的直播上发表了主题分享。 8…

最新发布!Windows 11 23H2 64位专业精简版

今天系统之家小编给大家带来2024年8月28日更新的Windows11 23H2精简版系统,该版本系统经过适度的精简优化,大部分功能都保留下来,可以轻松满足大家的日常使用需求。系统的兼容性强大,能完美兼容新老机型,安装后时刻运作…

图像压缩编码(2)有损压缩--变换编码

#灵感# 接上文,继续讲解第二种有损压缩,但是内容太多了,浅尝就行。 有损压缩编码以丢失一部分信息为代价,换来较高的压缩比。有损压缩主要分为几类:预测编码、变换编码、子带编码、模型编码。 变换编码 变换编码与预…

Java、python、php版 舞蹈工作室管理系统 舞蹈课程预约平台(源码、调试、LW、开题、PPT)

💕💕作者:计算机源码社 💕💕个人简介:本人 八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流&…

Redis网络通信模型

1.1. Java IO读写原理 不管是Socket的读写仍是文件的读写,在Java层面的应用开发或者是linux系统底层开发,都属于输入input和输出output的处理,简称为IO读写。在原理上和处理流程上,都是一致的。区别在于参数的不一样。用户程序进…

Kaggle竞赛——手写数字识别(Digit Recognizer)

目录 1. 数据集介绍2. 数据分析3. 数据处理与封装3.1 数据集划分3.2 将数据转为tensor张量3.3 数据封装 4. 模型训练4.1 定义功能函数4.1 resnet18模型4.3 CNN模型4.4 FCNN模型 5. 结果分析5.1 混淆矩阵5.2 查看错误分类的样本 6. 加载最佳模型7. 参考文献 本次手写数字识别使用…

【书生2.5】XTuner 微调个人小助手认知

XTuner 微调个人小助手认知 【Intern Studio的gpu不足。本实验使用自有服务器】 1 环境安装 # 创建虚拟环境 conda create -n xtuner python3.10 -y# 激活虚拟环境(注意:后续的所有操作都需要在这个虚拟环境中进行) conda activate xtuner…

同样128个内核,AMD霄龙9755性能翻倍:Zen 5架构下的性能飞跃

近日,AMD在服务器处理器领域再次展示了其强大的技术实力,随着AMD EPYC“Turin”处理器发布日期的临近,其基准测试结果也开始浮出水面。硬件爱好者博主9550pro近期分享了AMD 128核EPYC 9755“Turin”处理器在7zip压缩/解压缩基准测试中的跑分数…