论文阅读笔记-Self-Attention

news2024/10/10 11:27:57

前言

Self-Attention能够将每个元素和当前时刻元素进行比较来确定上下文元素的重要性,这也使得它在NLP模型中表现优异。而本篇文章则是将卷积结构与Self-Attention结构进行了比较,通过 实验证明了这样的卷积结构同样有着高效的计算和足以和Self-Attention媲美的效果。本篇文章所述的卷积结构是基于non-separable convolutions和depthwise separable convolutions,不清楚深度可分离卷积的小伙伴可以参考这篇文章:深度可分离卷积

在这里插入图片描述

Self-Attention被定义为基于内容的表示,如上图a中所示,其中通过将当前时刻与上下文中的所有元素进行比较来计算注意力权重,这种不受上下文大小限制的计算比较能力,也被视为Self-Attention的核心能力。当然,这种能力也是需要付出代价的,就是计算复杂度是输入长度的二次方,这也使得在相对较长的文本中进行计算成本变得非常的高。

Dynamic convolutions基于lightweight convolutions 构建的,其每个时刻预测不同的卷积核,也就是说卷积核只学习当前时间步的相关信息,而不是学习全局信息。动态卷积在轻量卷积的基础之上,增加了一个可学习的参数单元来影响时间步的权重,这有点类似于局部Attention,只不过相较来说没有考虑前一时刻的权重信息。

结构细节

这篇文章对几种卷积的关联进行了可视化的阐述。
在这里插入图片描述
其中的GLU结构可以参考这篇文章。LConv(LightConv)就是基于DepthwiseConv进行计算得到的,如序列中的第 i i i 个元素和输出通道 c c c 公式推导如下:
D e p t h w i s e C o n v ( X , W , i , c ) = ∑ j = 1 k W c , j ⋅ X ( i + j − ⌈ k + 1 2 ⌉ ) , c DepthwiseConv(X, W, i, c) = \sum_{j=1}^k W_{c,j} \cdot X_{(i+j-\lceil \frac{k+1}{2} \rceil),c} DepthwiseConv(X,W,i,c)=j=1kWc,jX(i+j2k+1),c
L i g h t C o n v ( X , W ⌈ c H d ⌉ , : , i , c ) = D e p t h w i s e C o n v ( X , s o f t m a x ( W ⌈ c H d ⌉

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2201866.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AAOS】Android Automotive 9模拟器源码下载及编译

源码下载 repo init -u https://android.googlesource.com/platform/manifest -b android-9.0.0_r61 repo sync -c --no-tags --no-clone-bundle 源码编译 source build/envsetup.sh lunch aosp_car_x86_64-userdebug make -j8 运行效果 emulator Home界面 MAP All apps S…

python爬虫 - 数据提取

🌈个人主页:https://blog.csdn.net/2401_86688088?typeblog 🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html 目录 前言 一、数据类型及其对应的提取策略 (一)文本数据 &…

网约巴士订票系统小程序的设计

管理员账户功能包括:系统首页,个人中心,管理员管理,用户管理,巴士信息管理,积分兑换管理,积分纪录管理,新闻信息管理,基础数据管理 微信端账号功能包括:系统…

国产长芯微LDC8531低功耗轨到轨输出 16 位串行输入数模转换器完全P2P替代DAC8531

描述 LDC8531是一款低功耗、单16位缓冲电压输出数模转换器(DAC)。其片上精密输出放大器允许实现轨到轨输出摆动。LDC8531使用多功能三线串行接口,其时钟频率高达30MHz,与标准SPI、QSPI、Microwire和数字信号处理器(DSP…

数据库迁移中的权限问题及解决方法——以Error 1142为例

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

无线领夹麦克风哪个降噪好?选购领夹麦克风需注意的五大隐藏风险

不知道大家有没有遇到这样一个情况,为什么有些视频或直播的声音听起来那么清晰,仿佛身临其境,而自己拍的视频却总是嘈杂不堪,尤其是在户外拍摄的时候,音频中更是充斥着各种各样的噪音。这种问题主要还是麦克风的原因所…

3dmax笔记-ALT X 透明度设置

1 降低max的模型的透明度 ALTX 看区别 区别对比

Sentinel最全笔记,详细使用步骤教程清单

一、Sentinel的基本功能 1、流量控制 流量控制在网络传输中是一个常用的概念,它用于调整网络包的发送数据。然而,从系统稳定性角度考虑,在处理请求的速度上,也有非常多的讲究。任意时间到来的请求往往是随机不可控的,…

分辨率提高4到8倍!AI高清修复工具-upscayl使用方法!

你还在为手中的模糊照片苦恼吗? 是不是想把老照片或低分辨率的图片用于大尺寸印刷,却因为画质糟糕而无从下手? 现在你不再需要高深的Photoshop技能,也不用花费巨资找人修图。借助AI高清修复工具Upscayl,只需几秒钟&am…

一文解读数据中台附搭建指南

数据是企业的核心资产,更是企业数字化转型的关键驱动力。为了更好地管理和利用数据,进行数据共享,充分发挥数据的作用,越来越多的企业开始构建实时数据中台。 一数据中台 定义:数据中台是将企业内部各个部门、系统、应…

【嵌入式软件-STM32】STM32简介

目录 一、STM32定义 二、STM32用途 三、STM32特点 四、STM32 四个系列 五、了解ARM 六、芯片解释 七、片上资源 八、命名规则 九、系统结构 内核 Flash DMA 外设种类和分布 十、引脚定义 类型 名称 引脚 十一、启动配置 十二、STM32最小系统电路 STM32及供电 供电引脚 滤波电容…

机器人动力学和轨迹规划

路径规划(way):规划连接位置A与位置B间序列点或曲线的策略。 注意:这个路径规划是非常重要的,是机器人智能的一个体现。 路径规划主要有3个方法:MoveJ:关节点到点运动,MoveL&#…

Spring Boot学习资源库:Java开发者的新篇章

2 相关技术简介 2.1Java技术 Java是一种非常常用的编程语言,在全球编程语言排行版上总是前三。在方兴未艾的计算机技术发展历程中,Java的身影无处不在,并且拥有旺盛的生命力。Java的跨平台能力十分强大,只需一次编译,任…

crossover和虚拟机哪个好用?Mac电脑玩游戏用哪个软件?

由于大多数热门游戏都是针对Windows平台开发的,这对于Mac用户来说可能会带来一些困扰。幸运的是,有几款虚拟机软件可以帮助解决这个问题,其中最常提到的是Parallels Desktop(简称PD虚拟机)和CrossOver。 PD虚拟机&…

Nodejs-Nestjs框架 RBAC(基于角色的访问控制模型) 微服务 仿小米商城实战视频教程-2024年-试看学习记录

文章目录 前提-安装环境Nestjs框架介绍Nestjs框架环境搭建创建nestjs项目运行nestjs项目demonestjs新项目结构解释nestjs中的控制器、路由、Get、Post、方法参数装饰器nestjs模板引擎、配置静态资源(了解即可)nestjs中的服务(Model)nestjs中的cookie(了解即可)nestjs中的se…

企业工作者如何提高对数据治理的认知度

提高对数据治理的认知度是一个涉及多方面努力的过程,以下是一些建议,可以帮助企业或个人增强对数据治理的理解和重视: 一、教育与培训 组织内部培训:定期举办数据治理相关的培训课程,邀请行业专家或内部资深人士进行…

AI用得好,升职加薪早

最近,K哥在公司里经常说的一句话就是:“AI用得好,升职加薪早!” 而且我们团队每个人都增加了一条KPI,叫做“含AI量”。什么意思呢?就是完成一项工作,使用了多少AI工具。 我不仅这样要求团队&…

JS 数组去重 — 各类场景适合方法大全

JS 数组去重 — 各类场景适合方法大全 本文介绍各种场景 JS 去重 方法使用 性能最好、用的最多、场景大全 文章目录 JS 数组去重 — 各类场景适合方法大全 一、基础篇:简单直观的去重方法1. 使用Set数据结构2. 利用filter和indexOf方法3. reduce方法的应用 二、进阶…

国产长芯微LDC5422单通道、16位、电流源和电压输出DAC,HART连接完全P2P替代AD5422

描述 LDC5422是低成本、精密、完全集成、16位数模转换器(DAC),内置可编程电流源和可编程电压输出,设计用于满足工业过程控制应用的需要。 输出电流范围可编程设置为4 mA至20 mA、0 mA至20 mA或者超量程的0 mA至24 mA。 此产品的LFCSP版本有一个CAP2引脚…

Linux运维_安全狗Apache版本安装

--------->安全狗官网(网站安全狗-网站安全防护,防后门|防SQL注入|防CC攻击|网马查杀|防篡改) 1.下载解压安全狗 2.