注意力机制 - Transformer

news2024/12/30 1:46:12

文章目录

    • 1. 简介
    • 2. 多头注意力
    • 3. 有掩码的多头注意力
    • 4. 基于位置的前馈网络
    • 5. 层归一化
    • 6. 信息传递
    • 7. 预测

1. 简介

  • 基于编码器-解码器架构来处理序列对
  • 跟使用注意力的seq2seq不同,Transformer是纯基于注意力

在这里插入图片描述


2. 多头注意力

  • 对同一key,value,query,希望抽取不同的信息
    • 例如短距离关系和长距离关系
  • 多头注意力使用 h h h个独立的注意力池化
    • 合并各个头(head)输出得到最终输出

在这里插入图片描述


3. 有掩码的多头注意力

  • 解码器对序列中一个元素输出时,不应该考虑该元素之后的元素
  • 可以通过掩码来实现
    • 也就是计算 x i x_i xi输出时,假装当前序列长度为 i i i

4. 基于位置的前馈网络

  • 将输入形状由 ( b , n , d ) (b,n,d) (b,n,d)变成 ( b n , d ) (bn,d) (bn,d)
  • 作用两个全连接层
  • 输出形状由 ( b n , d ) (bn,d) (bn,d)变化回 ( b , n , d ) (b,n,d) (b,n,d)
  • 等价于两层核窗口为1的一维卷积层

5. 层归一化

  • 批量归一化对每个特征/通道里元素进行归一化
    • 不适合序列长度会变的NLP应用
  • 层归一化对每个样本里的元素进行归一化

在这里插入图片描述


6. 信息传递

  • 编码器中的输出 y 1 , . . . , y n y_1,...,y_n y1,...,yn
  • 将其作为解码中第 i i i个Transformer块中多头注意力的key核value
    • 它的query来自目标序列
  • 意味着编码器和解码器中块的个数和输出维度都是一样的

7. 预测

  • 预测第 t + 1 t+1 t+1个输出时
  • 解码器中输入前 t t t个预测值
    • 在自注意力中,前t个预测值作为key和value,第t个预测值还作为query

在这里插入图片描述

总结:

  • Transformer是一个纯使用注意力的编码-解码器
  • 编码器和解码器都有n个transformer块
  • 每个块里使用多头(自)注意力,基于位置的前馈网络,和层归一化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1155927.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

竞赛 深度学习手势检测与识别算法 - opencv python

文章目录 0 前言1 实现效果2 技术原理2.1 手部检测2.1.1 基于肤色空间的手势检测方法2.1.2 基于运动的手势检测方法2.1.3 基于边缘的手势检测方法2.1.4 基于模板的手势检测方法2.1.5 基于机器学习的手势检测方法 3 手部识别3.1 SSD网络3.2 数据集3.3 最终改进的网络结构 4 最后…

合肥中科深谷嵌入式项目实战——人工智能与机械臂(五)

订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000 python项目实战 Python编程基础教程系列(零基础小白搬砖逆袭) 作者:爱吃饼干的小白鼠。Python领域优质创作者,2022年度博客新星top100入围,荣获多家平台专家称号。…

阿里云2核2G3M带宽轻量服务器87元一年,经济型e实例99元一年

2023阿里云双十一优惠活动2核2G3M轻量应用服务器一年优惠价87元,云服务器ECS经济型e实例优惠价格99元一年,也是2核2G配置,自带3M带宽,并且续费不涨价,阿里云百科aliyunbaike.com还是很建议大家选择e实例的,…

Java日志组件介绍之一

一、前言 前段时间爆出Log4j安全漏洞的事情,XX云因未及时报告漏洞被工信部暂停网络安全威胁和漏洞信息共享平台合作单位(https://www.cstis.cn/),话说Java的日志组件真是多而且也比较乱,后续几篇文章就聊一下各日志组…

大客户销售怎么做?CRM系统来帮您

大客户对企业的重要程度不言而喻,企业该如何更好地维护大客户?想要做好大客户销售,可以借助CRM销售管理系统,实现销售流程的数字化管理,深入挖掘了解客户,从而创造更多的收益。那么CRM系统对大客户销售有什…

Oracle数据库创建Sequence序列的基本使用

1.作用就是批量插入数据的时候可以给一个主键 sequence dose not exist_sequence not exist_拒—绝的博客-CSDN博客 Oracle创建Sequence序列_TheEzreal的博客-CSDN博客 Oracle序列(sequence)创建失败,无法取值(.nextval&#x…

LeetCode:2003. 每棵子树内缺失的最小基因值(C++)

目录 2003. 每棵子树内缺失的最小基因值 题目描述: 实现代码与解析: dfs 启发式合并 原理思路: 2003. 每棵子树内缺失的最小基因值 题目描述: 有一棵根节点为 0 的 家族树 ,总共包含 n 个节点,节点编…

局域网内远程控制电脑的软件

局域网内远程控制电脑的软件在日常办公中,非常常见了。它可以帮助用户在局域网内远程控制其他电脑,实现文件传输、桌面展示、软键盘输入等功能。 局域网内远程控制电脑的软件有很多种,其中比较实用的有域之盾软件、安企神软件、网管家软件等等…

[论文笔记]BGE

引言 今天介绍论文BGE,是智源开源的语义向量模型,BAAI General Embedding。 作者发布了C-Pack,一套显著推进中文嵌入领域的资源包。包括三个重要资源: 1) C-MTEB是一个全面的中文文本嵌入基准,涵盖了6个任务和35个数据集。 2) C-MTP是一个从标记和未标记的中文语料库中选…

RabbitMQ 运维 扩展

1、集群管理与配置 1.1、集群搭建 关于Rabbitmq 集群的搭建,详见以下文章。简单说来就是将多个单机rabbitmq服务,通过给到一致的密钥(.erlang.cookie)并且开放rabbitmq服务的 25672 端口,允许多节点间进行互相通讯&am…

leetCode 137. 只出现一次的数字 II + 位运算 + 模3加法器 + 真值表(数字电路) + 有限状态机

给你一个整数数组 nums ,除某个元素仅出现 一次 外,其余每个元素都恰出现 三次 。请你找出并返回那个只出现了一次的元素。你必须设计并实现线性时间复杂度的算法且使用常数级空间来解决此问题。 常规解法:哈希(hash) …

运行项目报错error in ./node_modules/marked/lib/marked.umd.js

今天跑项目时发现一个报错,问题出在marked这个包,然后翻看package.json里面也没有这个包,全局搜索项目也没有这个包相关的信息,可它就是报错,索性直接把它给卸载发现还是报错 报错原因:包的版本太高 解决…

AI:47-基于深度学习的人像背景替换研究

🚀 本文选自专栏:AI领域专栏 从基础到实践,深入了解算法、案例和最新趋势。无论你是初学者还是经验丰富的数据科学家,通过案例和项目实践,掌握核心概念和实用技能。每篇案例都包含代码实例,详细讲解供大家学习。 📌📌📌本专栏包含以下学习方向: 机器学习、深度学…

「完美修复」concrt140.dll丢失的修复方法

concrt140.dll是一个动态链接库文件,它是Microsoft Visual C 2015 Redistributable的一部分。这个文件通常位于Windows系统的System32文件夹中,它提供了一些用于多线程编程的函数和类。当你在运行某些程序时,系统会调用这个文件中的函数来执行…

系列三十五、Spring AOP失效原因以及解决方式

一、Spring AOP失效原因 (1)内部调用不会触发AOP; (2)方法是private修饰的,AOP会失效; 解决方法:改成public (3)目标类没有配置为bean&#xf…

【P2P owt】owt-client-native-p2p-e2e-test vs2017构建7:依赖库及路径

依赖库 G:\CDN\LiveServiceMesh\cdnsignal\third_party\libeva\thirdparty\janbar-openssl\out32\ssl\Debug\libssl-

vue面试题-原理层

虚拟dom 虚拟dom是什么?虚拟dom在vue中做了什么? vue 渲染两条线 虚拟dom是如何提升vue的渲染效率的? 局部更新节点数据将直接操作dom的地方拿到两个js对象之中去做比较 虚拟dom生成三要素 节点类型/目标元素 [必须有]节点属性子节点 Diff中的patch 虚拟dom 虚拟dom是什么…

编写Groovy Hello World 程序

使用 IntelliJ IDEA 打开 IntelliJ IDEA,并创建一个新的 Groovy 项目。 在项目中创建一个新的 Groovy 类文件,命名为 HelloWorld.groovy。 在 HelloWorld.groovy 文件中,编写以下代码: class HelloWorld {static void main(Stri…

初识Java 16-3 字符串

目录 扫描输入(Scanner) Scanner的分隔符 使用正则表达式扫描 StringTokenizer 本笔记参考自: 《On Java 中文版》 扫描输入(Scanner) 先看看在Scanner类加入之前,Java是如何处理文件或标准输入的&…

国际物流常见风险如何规避_箱讯科技

外贸物流是国际贸易的重要环节,其管理和效率的高低直接影响着贸易的成本和效益。因此,外贸企业应该重视物流的组织和管理,提高物流运作的效率。 国际物流基础知识 01什么是“双清包税”和“双清不包税” 双清包税上门又叫双清包税到门&…