CrossViT:用于图像分类的交叉注意多尺度Vision Transformer

news2025/1/24 10:53:13

        提出了一种双支路Transformer来组合不同大小的图像补丁(即变压器中的令牌)以产生更强的图像特征。方法处理具有不同计算复杂度的两个独立分支的小补丁和大补丁令牌,然后这些令牌纯粹通过注意多次融合以相互补充。此外,为了减少计算量,开发了一个简单而有效的基于交叉关注的令牌融合模块,该模块使用每个分支的单个令牌作为查询来与其他分支交换信息。提出的交叉注意只需要计算和记忆复杂度的线性时间,而不是二次时间。大量的实验表明,除了高效的CNN模型外,CrossViT在Vision Transformer上的表现优于或等同于一些并行工作。

1. 引言

        视觉变压器(Vision Transformer, ViT)使用一系列嵌入图像补丁作为标准变压器的输入,是第一种与CNN模型性能相当的无卷积变压器。然而,ViT需要非常大的数据集,如ImageNet21K和JFT300M进行训练。DeiT[35]随后表明,数据增强和模型正则化可以用更少的数据训练高性能的ViT模型。

        研究了如何学习Transformer模型中的多尺度特征表示用于图像识别。多尺度特征表示已被证明对许多视觉任务是有益的。受Big-Little Net[5]和Octave convolutions[6]等多分支CNN架构有效性的启发,提出了一种双分支Transformer,将不同大小的图像patch(即Transformer中的token)组合在一起,产生更强的视觉特征用于图像分类。使用不同计算复杂度的两个独立分支处理大小补丁令牌,并将这些令牌多次融合在一起以相互补充。

        工作的主要重点是开发适合视觉变压器的特征融合方法。通过一个高效的交叉关注模块来实现这一点,其中每个Transformer分支创建一个非补丁令牌作为代理,通过注意力与其他分支交换信息。这允许在融合中线性时间内生成注意力图,而不是二次时间。通过对每个分支的计算负载进行适当的体系结构调整,提出的方法比DeiT[35]的性能高出2%,而FLOPs和模型参数的增加幅度很小(见图)。

1.1 主要工作贡献

        提出了一种新的双分支Vision Transformer来提取多尺度特征表示用于图像分类。此外,开发了一种简单而有效的基于交叉注意的令牌融合方案,该方案在计算和内存上都是线性的,可以将不同尺度的特征组合在一起。 

2. 相关工作

三个主要的研究方向:带注意力的卷积神经网络、Vision Transformer和多尺度CNN。 

2.1 带注意力的卷积神经网络

        注意力以多种不同的形式被广泛用于增强特征表示,例如,SENet[18]使用通道注意,CBAM[41]增加了空间注意,ECANet[37]提出了一种有效的通道注意来进一步改进SENet。将CNN与不同形式的自我关注结合起来[2,32,48,31,3,17,39]。SASA[31]和SAN[48]使用local-attention层代替卷积层。尽管已有的方法取得了良好的结果,但由于其复杂性,将关注范围限制在局部区域。LambdaNetwork[2]引入了一种高效的全局关注模型,用于内容和基于位置的交互,大大提高了图像分类模型的速度-精度权衡。BoTNet[32]在ResNet的最后三个瓶颈块中用全局自关注取代了空间卷积,从而使模型在ImageNet基准上实现了较强的图像分类性能。

2.2 Vision Transformer

        许多Vision Transformer的变体,使用蒸馏进行Vision Transformer的数据高效训练[35],金字塔结构(如CNN[38])或自注意,通过学习抽象表示来提高效率,而不是执行所有到所有的自注意[42]。Perceiver[19]利用不对称注意机制迭代地将输入提炼成一个紧密的潜在瓶颈,使其能够扩展到处理非常大的输入。T2T-ViT[45]引入了分层token -to - token (T2T)转换,为每个token编码重要的局部结构,而不是ViT[11]中使用的幼稚的token化。与这些方法不同,本文提出了一种双路径架构来提取多尺度特征,以便使用Vision Transformer更好地进行视觉表示。

2.3  多尺度CNNs

        多尺度特征表示在计算机视觉中有着悠久的历史(例如,图像金字塔[1],尺度空间表示[29]和粗到精方法[28])。在CNN的背景下,多尺度特征表示已被用于多尺度物体的检测和识别[4,22,44,26],并用于加速Big-Little Net[5]和OctNet[6]中的神经网络。bLVNet-TAM[12]使用两分支多分辨率架构,同时学习跨帧的时间依赖性。慢速网络[13]依赖于类似的两分支模型,但每个分支编码不同的帧速率,而不是具有不同空间分辨率的帧。

3. 方法

交叉注意(crosssvit)学习多尺度特征的Transformer架构

        架构由K个多尺度Transformer Encoder组成。每个多尺度Transformer Encoder使用两个不同的分支来处理不同大小的图像令牌(

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1885949.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

98 - IDEA远程调试服务器Java程序

Java 提供了一套标准的调试协议(JDWP - Java Debug Wire Protocol),允许调试器(IDE)与被调试程序(应用)之间进行通信。 1.服务器特定命令启动程序 在服务器上以以下命令启动Java程序 java -a…

linux 离线安装docker

测试服务器:银河麒麟V10 x86_64 注意:推荐使用国内的镜像站下载,因为官网不挂梯子无法访问,我用的是清华大学开源软件镜像站 一、下载离线包: 官网下载docker离线包 下载地址:https://download.docker.c…

老师怎样一键发布期末考试成绩?

期末考试的钟声一响,老师们便开始了紧张的阅卷工作。成绩出来后,他们又面临着一项繁琐的任务——将成绩单逐一私信给每位学生的家长。这不仅耗费了大量时间,也让老师们在繁忙的期末工作中倍感压力。期末老师的工作已经够多够繁琐,…

仪器校准的概念与定义,计量校准是什么?

仪器校准的定义,在之前所颁布的《国际计量学词汇 基础和通用概念及相关术语》文件中,已经有了明确说明,而该文件做了修改以后,在后续新的定义中,仪器校准具体被分为两部分,第一步是将被计量仪器和计量校准的…

汽车制造企业中MES管理系统还有哪些作用

在当今汽车制造业的飞速发展中,数字化转型已成为企业不可或缺的战略选择。在这个转型浪潮中,MES管理系统扮演着至关重要的角色,成为连接企业资源计划(ERP)与车间自动化系统的关键纽带。它不仅推动了生产流程的智能化、…

SpringSecurity中文文档(Servlet Persisting Authentication)

Persisting Authentication 用户第一次请求受保护的资源时,系统会提示他们输入凭据。提示凭据的最常见方法之一是将用户重定向到登录页。对于请求受保护资源的未经身份验证的用户,总结的 HTTP 交换可能如下所示: Example 1. Unauthenticated User Requ…

数据库测试数据准备厂商 Snaplet 宣布停止运营

上周刚获知「数据库调优厂商 OtterTune 宣布停止运营」。而今天下班前,同事又突然刷到另一家海外数据库工具商 Snaplet 也停止运营了。Snaplet 主要帮助开发团队在数据库中生成仿真度高且合规的测试数据。我们在年初还撰文介绍过它「告别手搓!Postgres 一…

deepin基于rsync和apt-mirror同步软件源及构建本地内网源

一、rsync方式 参考官方文档地址: https://www.deepin.org/index/docs/wiki/05_HOW-TO/08_%E9%95%9C%E5%83%8F%E5%8A%A0%E9%80%9F/%E8%BD%AF%E4%BB%B6%E6%BA%90.md 仓库同步命令所需大小软件仓库rsync -av --delete-after rsync.deepin.com::deepin/ /var/www/deep…

利用STM32的定时器输出PWM方波

脉冲宽度调制 (PWM) ,是英文“ Pulse Width Modulation ”的缩写,简称脉宽调制,是利用 微处理器的数字输出来对模拟电路进行控制的一种非常有效的技术。简单一点,就是对脉冲宽 度的控制。 图中,我们假定定时器工作在…

【neo4j图数据库】入门实践篇

探索数据之间的奥秘:Neo4j图数据库引领新纪元 在数字化浪潮汹涌的今天,数据已成为企业最宝贵的资产之一。然而,随着数据量的爆炸性增长和数据关系的日益复杂,传统的关系型数据库在处理诸如社交网络、推荐系统、生物信息学等高度互…

TypeScript 中 const enum 和 enum 的核心区别在哪?日常开发应该使用哪个?

编译结果 enum 会生成一个对象,引用的地方保持对其引用 const enum 会擦除 enum 定义的代码,引用的地方会生成 inline code 使用enum: 使用const enum: PS:编译选项 preserveConstEnums 可以使 const enum 不去擦除 …

自动扫描范围在减少剂量多相CT肝脏成像中的应用:基于CNN和高斯模型| 文献速递-深度学习自动化疾病检查

Title 题目 Automatic scan range for dose-reduced multiphase CT imaging of theliver utilizing CNNs and Gaussian models 自动扫描范围在减少剂量多相CT肝脏成像中的应用:基于CNN和高斯模型 01 文献速递介绍 肝癌是全球癌症死亡的第四大原因,每…

工作效率倍增:最常用的电脑快捷键大全

文章目录 1. CtrlA(全选)2. CtrlC(复制)3. CtrlX(剪切)4. CtrlV(粘贴)5. CtrlZ(撤销)6. CtrlY(恢复)7. Ctrl1,2,3...(切换…

武汉星起航:成功挂牌上股交,引领跨境电商行业进入全新发展阶段

2023年10月30日,武汉星起航电子商务有限公司在上海股权托管交易中心成功挂牌展示,这一里程碑式的事件标志着武汉星起航正式登陆资本市场,开启了公司发展的新篇章。作为亚马逊跨境电商领域的领军企业之一,武汉星起航此次挂牌不仅是…

SET加密:电子商务安全的基石

随着电子商务的飞速发展,如何确保在线交易的安全性和可信度已成为消费者、商家和金融机构共同关注的焦点。SET协议(Secure Electronic Transaction)作为一种安全电子交易的国际标准,凭借其卓越的安全性能和广泛的行业认可&#xf…

Linux——查找文件-find(详细)

查找文件-find 作用 - 按照文件名、大小、时间、权限、类型、所属者、所属组来搜索文件 格式 find 查找路径 查找条件 具体条件 操作 注意 - find命令默认的操作是print输出 - find是检索文件的,grep是过滤文件中字符串 参数 参数 …

四川赤橙宏海商务信息咨询有限公司是真的吗?

在数字经济的浪潮下,电商行业日新月异,各种创新模式层出不穷。其中,抖音电商以其独特的社交属性和短视频传播优势,迅速崛起成为电商领域的一匹黑马。在这个风起云涌的市场中,四川赤橙宏海商务信息咨询有限公司凭借其专…

VUE3+ AntV Select 选择器:mode=“multiple“和mode=“tags“的区别是什么

文章目录 VUE3 AntV Select 选择器:mode"multiple"和mode"tags"的区别是什么一、解释二、对比演示 VUE3 AntV Select 选择器:mode"multiple"和mode"tags"的区别是什么 一、解释 “mode” 是一个参数&#xff…

TF-IDF和BM25原理和区别

TF-IDF TF-IDF是TF(词频,Term Frequency)和IDF(逆文档频率,Inverse Document Frequency)的乘积。我们先来看他们分别是怎么计算的: TF的计算有多种方式,常见的是 除以文章总词数是…