Twins: Revisiting the Design of Spatial Attention in Vision Transformers

news2024/10/6 20:35:59

Twins: Revisiting the Design of Spatial Attention in Vision Transformers

  • 一、引言
  • 二、Twins-PCPVT
  • 三、Twins-SVT
  • 四、实验
  • 五、消融实验

文章链接: https://arxiv.org/abs/2104.13840
代码链接: https://github.com/Meituan-AutoML/Twins

一、引言

在本文中,重新审视了空间注意力的设计,并证明了精心设计但简单的空间注意力机制与最先进的方案相比表现良好。因此,本文提出了两种视觉转换器架构,即Twins PCPVT和TwinsVT。该架构高效且易于实现,仅涉及在现代深度学习框架中高度优化的矩阵乘法。更重要的是,所提出的体系结构在广泛的视觉任务(包括图像级分类以及密集检测和分割)上实现了优异的性能。
本文的第一个发现是,PVT中的全局子采样注意力是非常有效的,并且使用适用的位置编码,其性能可以与最先进的视觉Transformers(例如,Swin)相当甚至更好。本文第一个提出的架构,称为Twins PCPVT。除此之外,还提出了一种精心设计但简单的空间注意力机制,该架构比PVT更高效。本注意力机制受到广泛使用的可分离深度卷积的启发,因此将其命名为空间可分离自注意力(SSSA)。SSSA由两种类型的注意力操作组成——(i)局部分组的自注意力(LSA)和(ii)全局子采样注意力(GSA),其中LSA捕获细粒度和短距离信息,GSA处理长距离和全局信息。这种架构称为Twins SVT。该体系结构中的两种注意力操作都是高效的,并且易于在几行代码中通过矩阵乘法实现。
金字塔视觉Transformers(PVT),可以像在CNN中一样输出特征金字塔。PVT在许多密集预测任务中表现出良好的性能。最近的Swin Transformer引入了不重叠的窗口分区,并限制了每个局部窗口内的自注意力,导致输入令牌数量的线性计算复杂性。为了在不同的局部区域之间交换信息,其窗口分区特别设计为在两个相邻的自注意力层之间移动。语义分割框架OCNet也交织了局部和全局注意力。

分组和可分离卷积:分组卷积最初在AlexNet中提出,用于分布式计算。事实证明,它们在加快网络速度方面既高效又有效。作为一种极端情况,深度卷积使用等于输入或输出通道的组数,然后是逐点卷积,以聚集不同通道上的信息。在这里,本文提出的空间可分离的自注意与它们有一些相似之处。
位置编码:大多数视觉Transformers使用绝对/相对位置编码,这取决于基于正弦函数或可学习的下游任务。在CPVT中,作者提出了条件位置编码,其动态地取决于输入,并且表现出比绝对和相对编码更好的性能。
本文提供了两种简单而强大的空间设计。第一种方法建立在PVT和CPVT的基础上,仅使用全局注意力。因此,该架构被称为Twins PCPVT。第二种称为Twins SVT,基于所提出的SSSA,该SSSA交织了局部和全局注意力。

二、Twins-PCPVT

在这里插入图片描述
PVT的性能较差主要是由于PVT中使用的绝对位置编码。如CPVT中,绝对位置编码在处理具有不同大小的输入时遇到困难(这在密集预测任务中很常见)。此外,这种位置编码也打破了平移不变性。相反,SwinTransformers利用了相对位置编码,这绕过了上述问题。在这里,证明了这是Swin优于PVT的主要原因,如果使用适当的位置编码,PVT实际上可以实现与SwinTransformers相同或甚至更好的性能。
本文使用CPVT中提出的条件位置编码(CPE)来代替PVT中的绝对PE。CPE以输入为条件,自然可以避免绝对编码的问题。生成CPE的位置编码生成器(PEG)被放置在每个stage的第一编码器块之后。使用最简单的PEG形式,即无需批量归一化的2D深度卷积。对于图像级分类,在CPVT之后,删除了类标记,并在阶段结束时使用全局平均池(GAP)。对于其他视觉任务,遵循PVT的设计。Twins PCPVT继承了PVT和CPVT的优点,这使其易于高效实施。广泛的实验结果表明,这种简单的设计可以与最先进的SwinTransformers的性能相匹配。本文还尝试在Swin中用CPE替换相对的PE,然而,这并没有导致显著的性能提高。这可能是由于Swin中使用了移位窗口,这可能与CPE不兼容。

三、Twins-SVT

由于高分辨率的输入,视觉 Transformers在密集的预测任务中受到计算复杂性的影响。给定H×W分辨率的输入,维数为d的自注意力的复杂性为 O ( H 2 W 2 d O(H^2W^2d OH2W2d)。本文提出了空间可分离的自注意力(SSSA)来缓解这一挑战。SSSA由局部分组的自注意(LSA)和全局子采样注意(GSA)组成。
Locally-grouped self-attention (LSA):受深度卷积中的分组设计的影响,首先将2D特征图平均划分为子窗口,使自注意力通信仅发生在每个子窗口中。这种设计也与多头设计在自注意力方面产生了共鸣,其中通信仅发生在同一个头的通道内。具体而言,特征图被划分为m×n个子窗口。在不失一般性的情况下,我们假设 H % m = 0 H\%m=0 H%m=0 W % n = 0 W\%n=0 W%n=0。每个组包含 H W / m n HW/mn HW/mn元素,因此,该窗口中的自注意力的计算成本为 O ( H 2 W 2 m 2 n 2 d ) O(\frac{H^2W^2}{m^2n^2d}) Om2n2dH2W2,总成本为 O ( H 2 W 2 m n d ) O(\frac{H^2W^2}{mnd}) OmndH2W2。如果我们让 k 1 = H / m k_1=H/ m k1=H/m k 2 = W / n k2=W/n k2=W/n,成本可以计算为 O ( k 1 k 2 H W d ) O(k_1k_2HW d) Ok1k2HWd,当 k 1 < < H k1<<H k1<<H k 2 < < W k2<<W k2<<W并且如果 k 1 k_1 k1 k 2 k_2 k2固定,则与HW线性相关。
尽管局部分组的自注意力机制是计算友好的,但图像被划分为非重叠的子窗口。因此,需要一种机制来在不同的子窗口之间进行通信,如Swin。否则,信息将被限制在局部处理,这会使感受野变小,并显著降低性能,这类似于这样一个事实,即我们不能用CNN中的深度卷积代替所有标准卷积。
在这里插入图片描述

Global sub-sampled attention (GSA):一个简单的解决方案是在每个局部关注块之后添加额外的标准全局自注意力层,这可以实现跨组信息交换。然而,这种方法会带来 O ( H 2 W 2 d ) O(H^2W^2d) OH2W2d的计算复杂性。这里,使用一个代表信息来总结每一个m×n个子窗口中每个子窗口的重要信息,并且该代表用于与其他子窗口进行通信(作为自注意力的关键),这可以显著降低成本,使 O ( m n H W d ) = O ( H 2 W 2 d k 1 k 2 ) O(mnHW d)=O(\frac{H^2W^2d}{k_1k_2}) OmnHWd=Ok1k2H2W2d。这基本上等同于在注意力操作中使用子采样特征图作为关键,因此将其称为全局子采样注意力(GSA)。如果我们可选地使用上述LSA和GSA类可分离卷积(深度方向+点方向),则总计算成本为 O ( H 2 W 2 d k 1 k 2 + k 1 k 2 H W d ) O(\frac{H^2W^2d}{k_1k_2}+k_1k_2HW d) Ok1k2H2W2d+k1k2HWd。在不失一般性的情况下,使用正方形子窗口,即 k 1 = k 2 k_1=k_2 k1=k2。因此, k 1 = k 2 = 15 k_1=k_2=15 k1=k2=15接近于H=W=224的全局最小值。然而,我们的网络设计为包括具有可变分辨率的几个阶段。阶段1具有56×56的特征图,当 k 1 = k 2 = √ 56 ≈ 7. k_1=k_2=√56≈ 7. k1=k2=567.理论上,可以为每个阶段校准最佳k1和k2。为了简单起见,我们处处使用k1=k2=7。对于分辨率较低的阶段,我们控制GSA的汇总窗口大小,以避免生成的密钥太少。具体来说,我们在最后三个阶段分别使用4、2和1的大小。
对于子采样函数,我们研究了几个选项,包括平均池化、深度跨步卷积和标准跨步卷积。经验结果表明,标准跨步卷积在这里表现最好。形式上,我们的空间可分离自我注意(SSSA)可以写成 :
在这里插入图片描述
其中LSA表示子窗口内局部分组的自注意力;GSA是通过与来自每个子窗口的代表键(由子采样函数生成)交互而获得的全局子采样注意力 z i j ^ ∈ R k 1 × k 2 × C \hat{z_{ij}}∈ R^{k_1×k_2×C} zij^Rk1×k2×C。LSA和GSA都有多个头部,正如标准的自注意力一样。LSA的PyTorch代码在算法1中给出(补充)。 同样,使用CPVT的PEG来编码位置信息并实时处理可变长度输入。它被插入到每个阶段的第一个块之后。
Model variants:Twins SVT的详细配置如下表所示。我们尽可能使用Swin中的类似设置,以确保良好的性能是由于新的设计范式。
在这里插入图片描述

四、实验

在这里插入图片描述
与ImageNet-1K分类的最先进方法进行比较。吞吐量在单个V100 GPU上以192的批量大小进行测试。所有模型均在ImageNet-1K数据集上以224×224分辨率进行训练和评估。†:w/CPVT的位置编码。
在这里插入图片描述
ADE20K验证数据集上不同主干的性能比较。FLOP以512×512分辨率进行测试。除了SETR之外,所有主干都在ImageNet-1k上预训练,SETR在ImageNet-21k数据集上预训练。
在这里插入图片描述
使用RetinaNet框架对COCO val2017的对象检测性能。1×是12个轮次,3×是36个轮次。“MS”:多尺度训练。FLOP以800×600分辨率进行评估。
在这里插入图片描述
使用Mask R-CNN框架对COCO val2017数据集的对象检测和实例分割性能。FLOP在800×600图像上进行评估。

五、消融实验

在这里插入图片描述
基于小模型的LSA(L)和GSA(G)块的不同组合的分类性能。
在这里插入图片描述
不同形式的子采样函数对全局子采样注意力(GSA)的ImageNet分类性能。
在这里插入图片描述
使用不同的位置编码策略在COCO上的对象检测性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/30411.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Matlab计算经典CFAR阈值

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;修心和技术同步精进&#xff0c;matlab项目合作可私信。 &#x1f34e;个人主页&#xff1a;Matlab科研工作室 &#x1f34a;个人信条&#xff1a;格物致知。 更多Matlab仿真内容点击&#x1f447; 智能优化算法 …

基于开源 PolarDB-X 打造中正智能身份认证业务数据基座

一、公司及业务介绍 中正智能是全球领先的生物识别和身份认证公司之一。我们曾负责公安部指纹算法国家标准的起草、编写&#xff0c;具备从算法、终端、平台、设计、生产、交付全域自研的能力&#xff0c;拥有多项自主知识产权的产品&#xff0c;并积极与高校合作开展基础研发。…

【Rust 指南】并发编程|无畏并发的原因

文章目录前言1、线程1.1、通过 spawn 创建新线程1.2、join 方法2、move 强制所有权迁移3、使用消息传递跨线程传递数据3.1、Send 方法3.2 、Sync 方法前言 安全高效的处理并发是 Rust 诞生的目的之一&#xff0c;主要解决的是服务器高负载承受能力。 并发&#xff08;concurren…

石家庄正定县恢复种植 国稻种芯·中国水稻节:河北绘就画卷

石家庄正定县恢复种植 国稻种芯中国水稻节&#xff1a;河北绘就画卷 新华社记者 杨世尧 摄 河北日报 通讯员张 晓峰 摄影报道 新闻中国采编网 中国新闻采编网 谋定研究中国智库网 中国农民丰收节国际贸易促进会 国稻种芯中国水稻节 中国三农智库网-功能性农业农业大健康大会…

MongoDB备份与恢复

MongoDB备份与恢复 文章目录MongoDB备份与恢复1.备份恢复工具2.备份工具区别3.mongoexport导出工具命令4.导出MongoDB的表4.1.创建备份的目录4.2.登录数据库4.3.查询表和表中数据4.4.导出数据为json格式4.5.导出数据为csv格式5.mongoimport导入工具5.1.恢复json格式数据5.2.登录…

Python基础-3-列表

一&#xff1a;简述 列表是由一系列按特定顺序排列的元素组成&#xff0c;可以创建包含字母表中所有字母&#xff0c;数字或家庭成员姓名的列表&#xff1b;也可以将任何东西加入列表&#xff0c;其中的元素之间可以没有任何关系。列表中通常包含了多个元素&#xff0c;因此给…

HTTPS中间人攻击实验

HTTPS中间人攻击实验 一.实验基础 1、HTTPS概述 HTTPS (全称: Hyper Text Transfer Protocol over SecureSocketLayer)&#xff0c; 是以安全为目标的HTTP通道&#xff0c;在HTTP的基础上通过传输加密和身份认证保证了传输过程的安全性。 默认端口&#xff1a;443 SSLspli…

【无人机】基于拓展卡尔曼滤波时序四旋翼无人机状态跟踪附matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;修心和技术同步精进&#xff0c;matlab项目合作可私信。 &#x1f34e;个人主页&#xff1a;Matlab科研工作室 &#x1f34a;个人信条&#xff1a;格物致知。 更多Matlab仿真内容点击&#x1f447; 智能优化算法 …

SpringBoot+Vue项目实现疫情期间社区出入管理系统

文末获取源码 开发语言&#xff1a;Java 使用框架&#xff1a;spring boot 前端技术&#xff1a;JavaScript、Vue.js 、css3 开发工具&#xff1a;IDEA/MyEclipse/Eclipse、Visual Studio Code 数据库&#xff1a;MySQL 5.7/8.0 数据库管理工具&#xff1a;phpstudy/Navicat JD…

web前端期末大作业——基于Bootstrap响应式汽车经销商4S店官网21页

&#x1f389;精彩专栏推荐 &#x1f4ad;文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业&#xff1a; 【&#x1f4da;毕设项目精品实战案例 (10…

【prometheus上报和使用】

prometheus上报和使用prometheus环境搭建进行上报CountrateirateincreaseGaugehistogram分位线summaryprometheus Prometheus是由SoundCloud开发的开源监控系统&#xff0c;由GO语言编写而成&#xff0c;采用Pull的方式来获取监控信息&#xff0c;并且提供了多维度的数据模型和…

Linux-sed

sed sed是一种几乎包括所有UNIX平台&#xff08;包括Linux&#xff09;的轻量级流编辑器。sed主要用来将数据进行选取、替换、删除、新增的命令 sed [选项] ‘[动作]’ 文件名 选项&#xff1a; -n&#xff1a;一般sed命令会把所有数据都输出到屏幕&#xff0c;如果加入此选项…

vue.js毕业设计,基于vue.js前后端分离订座预约系统设计与实现(H5移动项目)

功能介绍 【后台功能】 广告管理&#xff1a;设置小程序首页轮播图广告和链接 留言列表&#xff1a;所有用户留言信息列表&#xff0c;支持删除 会员列表&#xff1a;查看所有注册会员信息&#xff0c;支持删除 录入资讯&#xff1a;录入资讯标题、内容等信息 管理资讯&#x…

HTTP Only下的XSS攻击

今天继续给大家介绍渗透测试相关知识&#xff0c;本文主要内容是HTTP Only下的XSS攻击。 免责声明&#xff1a; 本文所介绍的内容仅做学习交流使用&#xff0c;严禁利用文中技术进行非法行为&#xff0c;否则造成一切严重后果自负&#xff01; 再次强调&#xff1a;严禁对未授权…

程序猿成长之路之密码学篇-密码学简介

在阅读本文前需要了解的术语&#xff1a; 授权人/非授权人&#xff1a;授权人指获取了查看数据权限的用户&#xff0c;非授权人则是指未获取到权限的用户。明文/密文&#xff1a;明文指没有加密的数据内容&#xff0c;密文是指加密后的数据内容CIA(密码学中不是美国中情局的意思…

npm 如何更新项目最新依赖包

NPM 是什么&#xff1f; Node 软件包管理器(NPM)提供了各种功能来帮助你安装和维护项目的依赖关系。 由于错误修复、新功能和其他更新&#xff0c;依赖关系可能会随着时间的推移而变得过时。你的项目依赖越多&#xff0c;就越难跟上这些更新。 老旧的软件包会对安全构成威胁&am…

USB-数据传输

一、USB编码-反向不归零编码(NRZI)位填充 规则&#xff1a;数据为0&#xff0c;电平反转&#xff0c;数据为1&#xff0c;电平不翻转;当连续出现6个相同的1穿插一个0&#xff0c;目的是为了防止连续出现多个1导致的同步漂移。 二、USB传输帧 帧是USB传输的时间单位&#xff0…

深入浅出PyTorc——进阶训练技巧

1. 自定义损失函数 1.1 以函数方式定义 手动写出损失的公式并用函数进行存储&#xff0c;方便调用。 def my_loss(output, target):loss torch.mean((output - target)**2)return loss 1.2 以类方式定义 1.2.1 损失函数的继承关系 &#xff08;1&#xff09;Loss函数部分继…

POI及EasyExcel

1.谈谈 POI 和 easyExcel 应用场景 1.将用户信息导出为excel表格&#xff08;导出数据....&#xff09;2.将Excel表中的信息录入到网站数据库&#xff08;习题上传....&#xff09; 开发中经常会设计到excel的处理&#xff0c;如导出Excel&#xff0c;导入Excel到数据库中&…

详解Spring面试IoC和AOP

Spring IOC 和 AOP 文章目录Spring IOC 和 AOP前言什么是 IoC&#xff1f;**为什么叫控制反转**不用IoC&#xff1a;所有对象开发者自己创建使用IoC&#xff1a;对象不用卡法这创建&#xff0c;而是交给Spring框架完成基于XML和基于注解基于XML&#xff1a;基于注解&#xff1a…