PyTorch实现注意力机制及使用方法汇总,附30篇attention论文

news2024/12/26 13:38:50

还记得鼎鼎大名的《Attention is All You Need》吗?不过我们今天要聊的重点不是transformer,而是注意力机制。

注意力机制最早应用于计算机视觉领域,后来也逐渐在NLP领域广泛应用,它克服了传统的神经网络的的一些局限,将有限的注意力集中在重点信息上,因而帮我们节省资源,快速获得最有效的信息。

同样作为热门研究方向,注意力机制近几年相关的论文数量自然是十分可观,我这次就整理了一系列关于PyTorch 代码实现注意力机制以及使用方法的论文。

本次分享Attention系列,共有30篇。有需要的同学看文末领取

Attention

1、Axial Attention in Multidimensional Transformers

一句话概括:Axial Transformers是一种基于自注意力的自动回归模型,它利用轴向注意力机制,在对高维张量数据建模的编码解码过程中,既保持了完全的分布表示能力,又大大减少了计算和存储需求,在多个生成建模基准上都取得了state-of-the-art的结果。

2、CCNet: Criss-Cross Attention for Semantic Segmentation

一句话概括:Criss-Cross网络利用criss-cross注意力和递归操作高效获取全图像依赖,在多个图像理解任务上达到state-of-the-art性能。

3、Aggregating Global Features into Local Vision Transformer

一句话概括:本文在局部窗口Transformer中引入了多分辨率重叠注意力模块聚合全局信息,找到了一种优化的架构设计,在多个图像分类数据集上优于之前的视觉Transformer。

4、CROSSFORMER: A VERSATILE VISION TRANSFORMER HINGING ON CROSS-SCALE ATTENTION

一句话概括:本文提出了跨尺度嵌入层和长短距离注意力机制,实现了在vision transformer中跨尺度特征的提取和互作用。这不仅减少了计算量,还在嵌入中保留了小尺度和大尺度的特征。基于此,构建了一个通用的计算机视觉架构CrossFormer,可以处理不同尺寸的输入。在多个视觉任务上优于其他视觉transformer。

5、Vision Transformer with Deformable Attention

一句话概括:本文提出了可变形的自注意力模块和基于其的可变形注意力Transformer,通过数据依赖方式选择键值对位置,使注意力机制能够关注相关区域,在图像分类和密集预测任务上优于已有方法。

6、Separable Self-attention for Mobile Vision Transformers

一句话概括:本文提出了一个线性复杂度的可分离自注意力机制,使用逐元素操作计算自注意力,大大降低了移动设备上vision transformer的延迟。基于此的模型MobileViTv2在多个移动视觉任务上达到state-of-the-art性能,计算速度比MobileViT提升3.2倍。

7、On the Integration of Self-Attention and Convolution

一句话概括:本文提出卷积和自注意力在计算上存在内在联系,都可分解为多个1x1卷积加上移位和求和操作。基于此,提出了一种混合模块ACmix,融合了卷积和自注意力的优点,计算量也较单独使用两者更低。在图像识别和下游任务上取得了state-of-the-art的结果。

8、Non-deep Networks

一句话概括:本文通过采用并行子网络结构代替层层堆叠,构建了深度仅为12层的“非深度”神经网络,在多个视觉任务上都获得了state-of-the-art的性能,为构建低延迟的识别系统提供了新的思路。

9、UFO-ViT: High Performance Linear Vision Transformer without Softmax

一句话概括:本文提出了一个计算复杂度线性的自注意力机制Unit Force Operated Vision Transformer (UFO-ViT),通过消除原始自注意力中的非线性,将矩阵乘法分解为线性操作,仅修改了自注意力的少量代码。该模型在图像分类和密集预测任务上,在大多数模型容量下都优于基于transformer的模型。

10、Coordinate Attention for Efficient Mobile Network Design

一句话概括:本文提出了坐标注意力机制,通过将位置信息融入通道注意力,生成方向感知和位置敏感的注意力图,增强移动网络在图像分类和下游任务中的表现,计算量几乎没有增加。

11、Rotate to Attend: Convolutional Triplet Attention Module

一句话概括:本文提出了三元组注意力机制,通过三分支结构以很小的计算量编码跨维信息,作为附加模块植入骨干网络,在图像分类和目标检测任务上取得了效果。

12、Global Filter Networks for Image Classification

一句话概括:本文提出了全局滤波网络GFNet,通过频域全局滤波的方式以对数线性复杂度学习长程空间依赖,作为transformer和CNN的一种高效、泛化强且稳健的替代方案。

13、S22-MLPv2: Improved Spatial-Shift MLP Architecture for Vision

一句话概括:本文提出了改进的空间移位MLP网络S2-MLPv2,采用通道扩展和特征图拆分,以及金字塔结构和更小尺寸的patch,在ImageNet上取得83.6%的top-1准确率。

14、Residual Attention: A Simple but Effective Method for Multi-Label Recognition

一句话概括:本文提出了一个极简的模块类特定残差注意力(CSRA),用于多标签图像识别。CSRA通过生成类别特定的空间注意力分数,获得每个类别的特定特征表示,并与类别不可知的平均池化特征组合。CSRA实现了多标签识别的state-of-the-art结果,且比现有方法简单许多。

15、Contextual Transformer Networks for Visual Recognition

一句话概括:本文提出了Contextual Transformer模块,通过邻近键的上下文编码指导注意力矩阵学习,增强了视觉表示能力,可直接替换ResNet中的3x3卷积,形成更强大的Transformer骨干网络。

16、Polarized Self-Attention: Towards High-quality Pixel-wise Regression

一句话概括:本文提出了极化自注意力模块,通过极化过滤和输出分布增强设计,实现了高质量的像素级回归,在多个基准测试中显著提升了姿态估计和语义分割的性能。

17、Scaling Local Self-Attention for Parameter Efficient Visual Backbones

一句话概括:本文通过自注意力的两种扩展和更高效实现,提出了HaloNet模型系列,在参数受限的ImageNet分类中达到state-of-the-art精度,并在目标检测和实例分割等任务上优于传统卷积模型。

18、CoAtNet: Marrying Convolution and Attention for All Data Sizes

一句话概括:本文提出了CoAtNet,一种混合卷积和自注意力的模型家族,通过两点洞见有效结合了两种架构的优势:(1)深度可分卷积和自注意力可通过相对注意力自然统一;(2)原则性地垂直堆叠卷积和注意力层可以惊人地改善推广性、容量和效率。实验表明,在不同的数据集和资源约束下,CoAtNet都达到了state-of-the-art性能。

19、Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition

一句话概括:本文提出了Vision Permutator,一个概念简单且数据效率高的类MLP架构,用于视觉识别。它通过在高度和宽度维度上分别对特征编码,捕获一个空间维度的长程依赖,同时在另一个维度上保留精确的位置信息。这样的位置敏感输出以互补的方式聚合,形成对目标的表达性表示。在不依赖空间卷积或注意力机制的情况下,Vision Permutator在ImageNet上达到81.5%的top-1准确率,使用2500万参数明显优于大多数CNN和transformer。

20、VOLO: Vision Outlooker for Visual Recognition

一句话概括:本文提出了Vision Outlooker (VOLO),一个简单通用的基于注意力的模型架构,在ImageNet图像分类任务上首次无需额外训练数据即超过87%的top-1准确率。VOLO中的outlook注意力机制高效地将细粒度的特征和上下文编码到tokens中,这对识别性能至关重要但自注意力机制缺乏。

21、An Attention Free Transformer

一句话概括:本文提出了Attention Free Transformer (AFT),一种高效的Transformer变体,消除了点积自注意力的需要。在AFT层中,键和值先与一组学习到的位置偏置组合,结果与查询按元素相乘。这种新操作的内存复杂度对上下文大小和特征维度均是线性的,兼容大规模输入和模型大小。文中还提出了AFT-local和AFT-conv两种变体,利用局部性思想和空间权重共享的同时保持全局连接。在两个自回归建模任务(CIFAR10和Enwik8)和图像识别任务(ImageNet分类)上的大量实验表明,AFT在保持高效率的同时达到了竞争性能。

22、A2 -Nets: Double Attention Networks

一句话概括:本文提出“双注意力模块”,通过双重注意力机制高效聚集和传播整个输入时空的全局信息,使卷积网络能有效访问全部特征,从而增强图像和视频的长程依赖建模能力。该模块首先通过二阶注意力池化将全部特征聚集到一个紧凑集,然后自适应地分发特征到每个位置。

23、Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks

一句话概括:CNN通过分层收集不同语义子特征来生成复杂对象的特征表达,这些子特征通常以组的形式分布在各层特征向量中,表示不同语义实体。为校正背景噪声对子特征激活的空间影响,文中提出了空间组别增强(SGE)模块,通过每个语义组在各空间位置生成注意力因子来调节每个子特征的重要性,使各组可自主增强学习表达和抑制噪声。

24、MUSE: Parallel Multi-Scale Attention for Sequence to Sequence Learning

一句话概括:本文探索了在序列数据上进行并行多尺度表示学习,旨在同时捕获长程和短程语言结构。为此,提出了并行多尺度注意力(MUSE)和MUSE-simple。MUSE-simple包含了并行多尺度序列表示学习的基本思想,它使用自注意力和逐点变换并行地以不同尺度编码序列。MUSE在MUSE-simple的基础上,结合卷积和自注意力从更多不同尺度学习序列表示。

25、SA-NET: SHUFFLE ATTENTION FOR DEEP CONVOLUTIONAL NEURAL NETWORKS

一句话概括:本文提出了高效的洗牌注意力(SA)模块,采用洗牌单元有效结合了空间注意力和通道注意力机制。具体来说,SA先将通道维度分组成多个子特征进行并行处理。然后,对每个子特征使用洗牌单元同时建模空间和通道维度之间的依赖关系。最后,聚合所有子特征并采用“通道洗牌”操作者促进不同子特征之间的信息交流。

26、ResT: An Efficient Transformer for Visual Recognition

一句话概括:本文提出了一个高效的多尺度视觉Transformer,名为ResT,它可以作为通用的图像识别骨干网络。与现有的Transformer方法不同,ResT具有以下几个优点:1. 构建了高效的多头自注意力,通过简单的逐点卷积来压缩内存,并在保持多头注意力多样性的同时,实现头维度间的交互。2. 将位置编码构建为空间注意力,更加灵活,可以处理任意大小的输入图像,无需插值或微调。3. 在每个阶段开始时,没有进行直接的标记化,而是将patch嵌入设计为具有步幅的重叠卷积操作的堆叠。

27、EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network

一句话概括:本文提出了一种称为金字塔压缩注意力(PSA)的轻量级有效的注意力机制。通过在ResNet瓶颈块中用PSA模块替换3x3卷积,得到一种称为有效金字塔压缩注意力(EPSA)的新表示块。EPSA块可以轻松地作为即插即用组件添加到成熟的backbone网络中,并显著提高模型性能。

28、Dual Attention Network for Scene Segmentation

一句话概括:本文通过自注意力机制捕获丰富的上下文依赖关系来解决场景分割任务。与之前通过多尺度特征融合来捕获上下文的工作不同,本文提出了双注意力网络DANet,可以自适应地整合局部特征及其全局依赖关系。

29、ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

一句话概括:本文提出了一个高效的通道注意力(ECA)模块,只涉及极少的参数量,但带来了明显的性能提升。通过剖析SENet中的通道注意力模块,我们经验证明避免降维对学习通道注意力非常重要,适当的跨通道交互可以在显著降低模型复杂度的同时保持性能。因此,我们提出了一个没有降维的局部跨通道交互策略,可以通过1D卷积高效实现。此外,我们开发了一种自适应选择1D卷积核大小的方法,确定局部跨通道交互的范围。

30、BAM: Bottleneck Attention Module

一句话概括:本文提出了一个简单有效的注意力模块,称为瓶颈注意力模块(BAM),可以与任何前馈卷积神经网络集成。该模块沿着通道和空间两个独立路径推断注意力图。我们在模型的各个瓶颈放置该模块,即特征图下采样的位置。该模块在瓶颈构建了层次化的注意力,参数量少,可以与任何前馈模型端到端训练。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“注意力机制”获取全部论文+代码合集

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1004466.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【IBMMQ】搭建测试队列

一、安装IBMMQ 网上有教程,可以学习 我用的IBMMQ7.5,安装教程 二、创建测试队列 进入工作台: 右击队列管理器,新建队列管理器 写队列管理器名称 点击下一步 点击下一步 点击下一步 端口默认为1414,建议换一个 注…

短视频引爆销售:TikTok如何改变跨境电商游戏规则

随着数字时代的到来,跨境电商行业正经历着前所未有的变革。在这个变革的浪潮中,TikTok(抖音国际版)作为一款全球短视频社交应用,正逐渐成为跨境电商领域的巨大推动力。它不仅改变了品牌的推广方式,还提供了…

ATFX汇市:离岸人民币大幅升值,昨日盘中跌破7.3关口

ATFX汇市:美国CPI数据即将公布之际,周一美元指数大跌,带动离岸人民币升值0.85%,实现3月14日以来的最大单日升值幅度,当日汇率(USDCNH)最低触及7.292,突破7.3000关口。消息面上&#…

【云原生进阶之PaaS中间件】第二章Zookeeper-2-安装部署

1 Zookeeper安装配置 环境准备: 一台安装有jdk的虚拟机:192.168.152.130 1.1 安装 1.1.1 下载 cd /softwarewget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz 1.1.2 解压 tar -zxvf zookeeper-3.4.6.tar.g…

火山引擎 ByteHouse:两个关键技术,揭秘 OLAP 引擎中的数据导入技术

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 数据导入是衡量 OLAP 引擎性能及易用性的重要标准之一,高效的数据导入能力能够加速数据实时处理和分析的效率。 作为一款 OLAP 引擎,火山引…

Apollo自动驾驶平台:从传感器到决策的技术解析

前言: 随着科技的进步,自动驾驶技术正逐渐成为现实。而在这个领域,Baidu的Apollo自动驾驶平台展现出了强大的技术实力。本文将从传感器融合到决策技术,深入解析Apollo自动驾驶的核心技术链。 1. 传感器:Apollo的眼和耳…

数据结构与算法之(赫夫曼树,哈夫曼树,压缩软件)

一:思考 1.电报发送:二战的时候大家都知道那时候普遍会应用电报,如果让你来设计一个电报的发送编码你该如何设计呢? 2.压缩算法:给你10000个字符(每个字符1btye,也就是8bit)的文件&a…

C++:类的六个默认成员函数

文章目录 前言一、构造函数概念特性 二、析构函数概念特性 三、拷贝构造函数概念特性 四、赋值运算符重载运算符重载赋值运算符重载 五、取地址及const取地址操作符重载const成员取地址及const取地址操作符重载 总结 个人主页 : 个人主页 个人专栏 : 《数…

项目工单管理系统有什么用?“的修”报修系统在工单管理方面的优势是什么?

项目工单管理系统主要用于管理和协调项目中的任务和活动,它以帮助企业在项目管理、客户服务、资源优化和团队协作等多个方面实现显著提升,因此被越来越多的企业所采用。 企业使用项目工单管理系统的原因主要有以下几点:   提升工作效率&…

JOSEF约瑟 JL-A/41DK JL-A/42DK JL-A/43DK 无辅源电流继电器 过负荷

JL-A、B DK系列无辅源电流继电器 JL-A/11DK JL-A/31DK JL-A/12DK JL-A/32DK JL-A/13DK JL-A/33DK JL-A/21DK JL-A/22DK JL-A/23DK JL-A/34DK JL-A/35DK JL-A/41DK JL-A/42DK JL-A/43DK JL-A、B/41 DK无辅源电流继电器概述 JL-A、B/41 DK无辅源电流继电器作为继电保护元…

《Web安全基础》06. 逻辑漏洞越权

web 1:逻辑漏洞2:逻辑越权3:修复防御方案4:越权问题4.1:商品购买4.2:找回重置机制4.3:接口安全问题4.4:验证安全 5:相关资源 本系列侧重方法论,各工具只是实现…

LAND 所有路者线图——2023 年 9 月更新

来自世界各地的 LAND 所有者社区,你们好,欢迎阅读我们最新的路线图更新! 我们很高兴能回顾一下我们为实现元宇宙所做的一切努力。让我们开始吧! 简要介绍: ● 社区为每个地点提供专用赋能,促进品牌和用户之…

【C++】结构体内存对齐规则

一、结构体内存对齐(重要) 结构体内存对齐是结构体大小的计算规则,是校招笔试和面试过程中一个十分热门的考点,希望大家认真对待。 在学习结构体内存对齐之前,我们先给两组计算结构体大小的题目,看看你能否做对: //…

口袋参谋:淘宝不限类目,透视竞品实时销量!快试试这个插件

​在运营一家店铺之前,可以先了解各类目宝贝的市场行情,及时掌握不同类目宝贝的价格、销售情况,根据需求制定出属于自己的营销策略。 【可跨类目竞店透视】功能: 支持一键获取任意店铺宝贝概况信息 【跨类目竞店透视】功能使用 …

WavJourney:进入音频故事情节生成世界的旅程

推荐:使用 NSDT场景编辑器快速搭建3D应用场景 若要正确查看音频生成的强大功能,请考虑以下方案。我们只需要提供一个简单的指令,描述场景和场景设置,模型就会生成一个扣人心弦的音频脚本,突出与原始指令的最高上下文相…

如何应对数字时代的网络安全新挑战?

随着数字时代的来临,我们迎来了无限的机遇,同时也伴随着网络安全领域新的挑战。网络攻击变得更加智能化和复杂化,威胁也在不断演化。为了应对这些新挑战,我们必须采取创新的网络安全策略和技术。本文将探讨数字时代网络安全的新挑…

Windows关闭zookeeper、rocketmq日志输出以及修改rocketmq的JVM内存占用大小

JDK-1.8zookeeper-3.4.14rocketmq-3.2.6 zookeeper 进入到zookeeper的conf目录 清空配置文件&#xff0c;只保留下面这一行。zookeeper关闭日志输出相对简单。 log4j.rootLoggerOFFrocketmq 进入到rocketmq的conf目录 logback_broker.xml <?xml version"1.0&q…

电脑c盘满了怎么清理?最新方法分享!(2023版)

“电脑c盘满了真的太恐怖了&#xff01;我平常没有什么清理的习惯&#xff0c;但是今天用电脑的时候&#xff0c;电脑变得异常卡顿。一看才发现是c盘满了&#xff01;但是我电脑中太多重要文件了&#xff0c;有什么比较简单又不容易误删文件的c盘清理方法推荐吗&#xff1f;” …

0门槛限制!快来领取你的专属元宇宙虚拟展厅!

数字化时代中&#xff0c;元宇宙虚拟展厅仿佛成为了一种新的潮流&#xff0c;虚拟展厅的出现为我们呈现出了一个超越现实的全新世界。元宇宙虚拟展厅以其多样性、互动性、沉浸式展示为特点&#xff0c;同产品进行交互&#xff0c;创造出逼真的虚拟环境&#xff0c;为广大用户打…

c++结构体调用类的构造函数

结构体初始化会调用构造函数 using namespace std;class cls{ public:cls(){c 5;cout << "cls init" << endl;};int c; };struct s{s(){cout << a << endl;cout << b.c << endl;};int a;cls b; };int main(){s s1; }结构体构造…