注意力机制 - Transformer

news2026/3/9 19:23:32

文章目录

- 1. 简介
- 2. 多头注意力
- 3. 有掩码的多头注意力
- 4. 基于位置的前馈网络
- 5. 层归一化
- 6. 信息传递
- 7. 预测

1. 简介

基于编码器-解码器架构来处理序列对
跟使用注意力的seq2seq不同，Transformer是纯基于注意力

在这里插入图片描述

2. 多头注意力

对同一key，value，query，希望抽取不同的信息
- 例如短距离关系和长距离关系
多头注意力使用 $h$ 个独立的注意力池化
- 合并各个头（head）输出得到最终输出

在这里插入图片描述

3. 有掩码的多头注意力

解码器对序列中一个元素输出时，不应该考虑该元素之后的元素
可以通过掩码来实现
- 也就是计算 $x_i$ 输出时，假装当前序列长度为 $i$

4. 基于位置的前馈网络

将输入形状由 $(b, n, d)$ 变成 $(bn, d)$
作用两个全连接层
输出形状由 $(bn, d)$ 变化回 $(b, n, d)$
等价于两层核窗口为1的一维卷积层

5. 层归一化

批量归一化对每个特征/通道里元素进行归一化
- 不适合序列长度会变的NLP应用
层归一化对每个样本里的元素进行归一化

在这里插入图片描述

6. 信息传递

编码器中的输出 $y_1,...,y_n$
将其作为解码中第 $i$ 个Transformer块中多头注意力的key核value
- 它的query来自目标序列
意味着编码器和解码器中块的个数和输出维度都是一样的

7. 预测

预测第 $t + 1$ 个输出时
解码器中输入前 $t$ 个预测值
- 在自注意力中，前t个预测值作为key和value，第t个预测值还作为query

在这里插入图片描述

总结：

Transformer是一个纯使用注意力的编码-解码器
编码器和解码器都有n个transformer块
每个块里使用多头（自）注意力，基于位置的前馈网络，和层归一化。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1155927.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

注意力机制 - Transformer

文章目录

1. 简介

2. 多头注意力

3. 有掩码的多头注意力

4. 基于位置的前馈网络

5. 层归一化

6. 信息传递

7. 预测

相关文章

竞赛深度学习手势检测与识别算法 - opencv python

合肥中科深谷嵌入式项目实战——人工智能与机械臂（五）

阿里云2核2G3M带宽轻量服务器87元一年，经济型e实例99元一年

Java日志组件介绍之一

大客户销售怎么做？CRM系统来帮您

Oracle数据库创建Sequence序列的基本使用

LeetCode：2003. 每棵子树内缺失的最小基因值（C++）

局域网内远程控制电脑的软件

[论文笔记]BGE

RabbitMQ 运维扩展

leetCode 137. 只出现一次的数字 II + 位运算 + 模3加法器 + 真值表（数字电路） + 有限状态机

运行项目报错error in ./node_modules/marked/lib/marked.umd.js

AI：47-基于深度学习的人像背景替换研究

「完美修复」concrt140.dll丢失的修复方法

系列三十五、Spring AOP失效原因以及解决方式

【P2P owt】owt-client-native-p2p-e2e-test vs2017构建7：依赖库及路径

vue面试题-原理层

编写Groovy Hello World 程序

初识Java 16-3 字符串

国际物流常见风险如何规避_箱讯科技