[Backbone]CAS-ViT: Convolutional Additive Self-attention Vision Transformers

news2024/9/21 0:47:56

1. BaseInfo

TitleCAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications
Adresshttps://arxiv.org/pdf/2408.03703
Journal/Time202408
Author清华
Codehttps://github.com/Tianfang-Zhang/CAS-ViT
Read20240829
TableVisonTransformer

2. Creative Q&A

  1. ViT 矩阵运算计算量大 -> CAS-ViT: Convolutional Additive Self-attention Vision Transformers 平衡效率和结果,轻量化的 backbone
    是 ViT 的进一步改版,可以应用在 image classfication、object detection 、 instance segmentation 、 semantic segmentation
    主要的创新在注意力模块。

3. Concrete

3.1. Model

在这里插入图片描述
a 是经典多头注意力
b 是 MobileViTv2 ,将最后的 NxN 矩阵变为了 1xC 的向量
c 是 SwiftFormer,去掉 V
d 是本文提出的卷积加和注意力,对空间和通道做了融合。
在这里插入图片描述
以分类为例。
下采样 4、8、16、32。
主要有 3 个部分,Integration subnet(借鉴 SwiftFormer 由 ReLU 激活的 3 个卷积层 ), CATM and MLP.

CATM 中的 空间和通道提取特征部分
SpatialOperation 只处理一个通道,为输入特征图的每个位置赋予了不同的权重
ChannelOperation, 它为输入特征图的每个通道赋予了不同的权重

3.1.1. Input

图片

3.1.2. Backbone

ModelParas(M)
CAS-ViT-XS3.20
CAS-ViT-S5.76
CAS-ViT-M12.42
CAS-ViT-T21.76

3.2. Training

3.2.1. Resource

16 V100 GPUs

3.2.2 Dataset

  • ImageNet-1K
  • ADE20K
  • COCO val2017
    几个经典数据集

3.3. Eval

  • ImageNet-1K Classification
    在这里插入图片描述
  • Semantic segmentation result on ADE20K
    在这里插入图片描述
  • Object detection and instance segmentation performance on COCO val2017
    在这里插入图片描述

3.4. Ablation

  1. CATM 的有效性
  2. 空间和通道注意力的有效性
  3. Q 和 K 的不同

在这里插入图片描述

4. Reference

  1. CNN-ViT 混合 [1] HATAMIZADEH A, HEINRICH G, YIN H, et al. FasterViT: Fast Vision Transformers with Hierarchical Attention[J]. 2023.
  2. PVTv2 [2] WANG W, XIE E, LI X, et al. PVT v2: Improved baselines with Pyramid Vision Transformer[J/OL]. Computational Visual Media, 2022: 415-424. http://dx.doi.org/10.1007/s41095-022-0274-8. DOI:10.1007/s41095-022-0274-8.
  3. FLatten Transformer: Vision Transformer using Focused Linear Attention 关注线性注意力模块 Focused Linear Attention
  4. EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers
  5. EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
  6. SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications
  7. EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers

5. Additional

代码挺简单的,主要看 CAS-ViT/classification/model/rcvit.py
实验部分的实验设置写的也挺详细。因为重点不在这就略过不写了。
Limitation 收敛速度快但可能模型越大或者数据集越大效果就不太好了。
结构确实简,参数量很小,试一下效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2085559.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【健康问答】揭秘五大‘天然降压果‘,高血压患者常吃,血压稳稳降!-曹启富医生

曹医生,听说有些水果对高血压患者有特别的益处,能帮助降低血压,是真的吗? 曹医生说:确实如此。在日常饮食中,合理摄入一些富含特定营养素的水果,对于辅助控制高血压有着积极的作用。今天&#…

苹果手机系统崩溃了怎么办?详细修复指南助你快速恢复

苹果手机以其卓越的性能和稳定的系统赢得了众多用户的青睐,但偶尔也会出现系统崩溃的情况,让人措手不及。当面对苹果手机系统崩溃时,不必过于担心,本文将为你提供一套详细的修复指南,帮助你快速恢复手机的正常使用。 …

AI 网关零代码解决 AI 幻觉问题

作者:邢云阳,Higress Contributor 前言 什么是 AI Agent 随着大模型技术的快速发展,越来越多的公司在实际业务中落地了大模型应用。但是人们逐渐发现了大模型能力的不足。例如:由于大模型的训练数据是有限的,因此一…

身体发出的“高压”警报,曹启富医生教你识别高血压症状

高血压,这一慢性“隐形杀手”,正悄然影响着越来越多人的健康。随着生活节奏的加快和不良生活习惯的积累,其发病率逐年攀升,成为威胁人类健康的重要疾病之一。今天,我们有幸邀请到心脑血管科专家曹启富医生,…

摩博会15天倒计时!ONEOS 恒石智能强强联手,即将携多款MODEL系列芯片打造的智能仪表璀璨亮相

随着2024年第二十二届中国国际摩托车博览会(摩博会)的临近,国内领先的操作系统提供商ONEOS与智能硬件领域的佼佼者恒石智能宣布强强合作,将于9月13日至16日在重庆国家会展中心共同揭开多款MODEL系列芯片驱动的彩屏仪表的神秘面纱。…

JavaWeb - Vue项目

创建 命令行 vue create project 图形化界面 vue ui 目录结构 启动 命令行 npm run serve 端口配置 Vue的组件文件以.vue结尾 每个组件有三个部分组成&#xff1a; <template>&#xff1a;模板部分&#xff0c;由它生成HTML代码<script>&#xff1a;控制…

揭秘SQL注入漏洞:为何它成为攻击者的首选?

自Web应用程序开始广泛使用数据库以来&#xff0c;SQL注入漏洞便因其隐蔽性强、潜在危害巨大以及实施门槛相对较低等特性&#xff0c;成为了网络攻击者频繁利用的安全弱点之一。尽管这一漏洞已经存在多年&#xff0c;它仍然是企业组织在数字化转型过程中面临的最为普遍且危险的…

vue2项目 预渲染 Unable to prerender all routes 错误排查与解决方案

前言 今天在做我的Vue2项目的SEO优化时&#xff0c;我采用了prerender-spa-plugin与vue-meta-info的一套官网前端SEO预渲染方案。 但是&#xff0c;在打包时&#xff0c;报错Unable to prerender all routes。尝试了很多种网上方案&#xff0c;都没有成功&#xff0c;最后从源…

用代码和android studio创建flutter项目的区别差异

用代码创建的项目&#xff0c;在lib目录下&#xff0c;不会出现dictory文件夹&#xff0c;操作起来有些不便。

智慧灯塔,照亮企业AI Agent实施明路

AI Agent是能够感知环境&#xff0c;基于目标进行决策并执行动作的智能化应用。随着大模型能力增强以及RAG等技术的成熟&#xff0c;AI Agent的能力得到了质的飞跃。这些模型赋予了AI Agent更接近人类的思维能力&#xff0c;再联动各类工具和组件&#xff0c;使得AI Agent在处理…

虚拟机 Linux 安装 JDK(Vagrant 之二 CentOS7 篇)

本文已首发于&#xff1a;秋码记录 我们已然在上一篇讲解了如何快速的搭建一个Linux虚拟机&#xff0c;通过vagrant命令化工具&#xff0c;我们很方便的构筑了虚拟机&#xff0c;那么&#xff0c;我们所搭建出来的Linux系统主要是为了调试产品&#xff0c;以便产品在部署生产环…

电路笔记(PCB): kicad freerouting自动布线

安装插件 使用自动布线 会自动运行&#xff0c;等待布线完成即可。也可以布到一定程度&#xff0c;单击界面&#xff0c;切换到手动布线。 CG 一个替代的 freerouting 插件 https://forum.kicad.info/t/an-alternative-freerouting-plugin/52736/3

微信视频号的小视频怎么保存?视频号下载助手最实在的下载教程

最近一些朋友在私信问我视频号的视频怎么用下载助手保存到手机相册呢&#xff1f;虽说网络工具很多&#xff0c;但这个工具算是最稳定的工具之一。 软件介绍 工具名称&#xff1a;视频下载助手 工具扩展&#xff1a;视频号下载助手还拥有多种名称如&#xff1a;视频下载小助…

【开端】基于nginx部署的具有网关的web日志分析

一、绪论 基于nginx部署的具有网关的web日志分析&#xff0c;我们可以分析的日志有nginx的access.log &#xff0c;网关的日志和应用的日志 二、日志分析 1、nginx日志 参数 说明 示例 $remote_addr 客户端地址 172.17.0.1 $remote_user 客户端用户名称 -- $time_lo…

在 CentOS 7 上安装 LNMP 环境:MySQL 8.0、PHP 8.3 和 ThinkPHP 8.0

在 CentOS 7 上安装 LNMP 环境&#xff0c;并配置 MySQL 8.0、PHP 8.3 以及 ThinkPHP 8.0&#xff0c;能够为你的 web 应用程序提供一个强大的开发和运行环境。下面是详细的安装步骤&#xff1a; --- ## 在 CentOS 7 上安装 LNMP 环境&#xff1a;MySQL 8.0、PHP 8.3 和 Thin…

鸿蒙( Beta5版)开发实战:基于AVCodecKit【音视频解码】

1&#xff1a;场景描述 场景&#xff1a;基于VideoCoder的音视频解码及二次处理播放。 首先导入选择器picker模块&#xff0c;使用PhotoViewPicker方法拉起图库选择视频文件&#xff0c;将视频文件传递到native侧使用Demuxer解封装器进行解封装&#xff0c;再使用OH_VideoDec…

83、 项目的发布和容器的重启策略

0、强制删除 [rootmaster01 ~]# kubectl run --imagenginx:1.22 nginx1 pod/nginx1 created [rootmaster01 ~]# kubectl get pod NAME READY STATUS RESTARTS AGE nginx1 0/1 ContainerCreating 0 1s [rootmaster01 ~]# kubectl delete…

Mysql基础练习题 577.员工奖金 (力扣)

577.编写解决方案&#xff0c;报告每个奖金 少于 1000 的员工的姓名和奖金数额。 建表插入数据&#xff1a; Create table If Not Exists Employee (empId int, name varchar(255), supervisor int, salary int) Create table If Not Exists Bonus (empId int, bonus int) Tr…

Android 查看代码行数(命令行和Statistic插件)

目录 一、命令行 1.1 使用 1.2 结果分析 二、Statistic 2.1 下载 Statistic 插件 2.2 设置 Statistic 插件 2.3 使用 Statistic 插件 相关推荐 一、命令行 find . -name "*.java" -o -name "*.kt" | xargs wc -l find .&#xff1a;从当前目录&am…

基于Material Design风格开源的Avalonia UI控件库

前言 今天大姚给大家分享一款基于Material Design风格开源、免费&#xff08;MIT License&#xff09;的Avalonia UI控件库&#xff1a;Material.Avalonia。 当前项目还处于alpha阶段。 Avalonia介绍 Avalonia是一个强大的框架&#xff0c;使开发人员能够使用.NET创建跨平台应…