CMT:卷积与Transformers的高效结合

news2024/12/25 0:57:38

论文提出了一种基于卷积和VIT的混合网络,利用Transformers捕获远程依赖关系,利用cnn提取局部信息。构建了一系列模型cmt,它在准确性和效率方面有更好的权衡。

CMT:体系结构

CMT块由一个局部感知单元(LPU)、一个轻量级多头自注意模块(LMHSA)和一个反向残差前馈网络(IRFFN)组成。

1、局部感知单元(LPU)

在以前的transformer中使用的绝对位置编码是为了利用标记的顺序而设计的,它破坏了平移不变性。

为了缓解局限性,LPU使用卷积(MobileNetV1)提取局部信息,其定义为:

2、轻量级多头自我注意(LMHSA)

在原注意力模块中,自注意力模块为:

为了减少计算开销,在注意力操作之前,使用k × k步长为k的深度卷积(MobileNetV1)来减小k和V的空间大小。在每个自注意力模块中添加一个相对位置偏差B(类似于Shaw NAACL ’ 18):

这里的h个是与ViT类似的注意力头。

3、反向残差前馈网络(IRFFN)

原始FFN使用两个线性层,中间是GELU:

IRFFN由扩展层(MobileNetV1)和卷积(投影层)组成。为了更好的性能,还修改了残差连接的位置:

使用深度卷积(MobileNetV1)提取局部信息,而额外的计算成本可以忽略不计。

4、CMT块

有了上述三个组成部分,CMT块可以表述为:

上式中,Yi和Zi分别表示LPU和LMHSA模块对第i块的输出特征。LN表示层归一化。

CMT变体

1、模型的复杂性

Transformer 的计算复杂度(FLOPs)可计算为:

式中,r为FFN的展开比,dk和dv分别为key和value的维度。ViT设d = dk = dv, r = 4,则计算可简化为:

CMT块的FLOPs:

其中k≥1为LMHSA的还原比。

可以看到,与标准Transformer块相比,CMT块对计算成本更友好,并且在更高分辨率(较大n)下更容易处理特征映射。

2、扩展策略

受EfficientNet的启发,使用复合系数φ来均匀缩放层数(深度)、维度和输入分辨率:

增加了α·β^(1.5) ·γ²≈2.5的约束,因此对于给定的新φ,总FLOPS将大约增加2.5^ φ。根据测试,默认为α=1.2, β=1.3, γ=1.15。

3、CMT变体

在CMT-S的基础上,根据提出的缩放策略构建了CMT-Ti、CMT-XS和CMT-B。四种模型的输入分辨率分别为160、192、224和256。

结果

1、消融研究

ViT/DeiT只能生成单尺度的特征图,丢失了大量的多尺度信息,但是这部分信息对密集预测至关重要。

DeiT与CMT-S一样具有4级stage,即DeiT- s - 4stage,可以实现改进。

所有的增量改进都表明,stem、LPU和IRFFN对性能的提高也有重要的贡献。CMT在LMHSA和IRFFN之前使用LN,在卷积层之后插入BN。如果将所有的LN都替换为BN,则模型在训练过程中无法收敛。

2、ImageNet

CMTS以4.0B FLOPs达到83.5%的top-1精度,比基线模型DeiT-S高3.7%,比CPVT高2.0%,表明CMT块在捕获局部和全局信息方面的优势。

值得注意的是,之前所有基于transformer的模型仍然不如通过彻底的架构搜索获得的EfficientNet,但是CMT-S比EfficientNet- b4高0.6%,计算成本更低,这也证明了所提出的混合结构的有效性。

3、下游任务

对于以RetinaNet为基本框架的目标检测,CMT-S优于twin - pcpvt - s (mAP为1.3%)和twin - svt - s (mAP为2.0%)。

以Mask R-CNN为基本框架的分割,CMT-S以1.7%的AP超过了Twins-PCPVTS,以1.9%的AP超过了Twins-SVT-S。

CMT- s在所有数据集中以更少的FLOPs优于其他基于transformer的模型,并在FLOPs减少9倍的情况下与EfficientNet-B7达到相当的性能,这证明了CMT架构的优越性。

论文地址:

https://avoid.overfit.cn/post/2da9f18b7b6d4da89b44eb16c861ab88

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/982463.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

end value has mixed support, consider using flex-end instead

这是因为 应该用flex-end,不应该用end 所以将所有的都改好之后,就不会再报这个错了

python3 修改nacos的yaml配置

一、安装nacos库 pip install nacos-sdk-python 二、代码如下 import nacos import yaml# 连接地址 NACOS_SERVER_ADDRESSES "192.168.xx.xx" NACOS_SERVER_PORT 替换为你的端口号,如8848# 命名空间 NACOS_NAMESPACE "your_namespace"# 账…

【网络层】网络基础 -- IP协议

引入IP协议头格式网段划分特殊的IP地址IP地址的数量限制 私有IP地址和公网IP地址分片与组装如何分片与组装? 引入 我们前面学习了传输层的相关知识,难道真的就是直接传送吗?当然不是,那TCP究竟做了什么?IP又扮演什么角…

RFID溯源驱动汽车座椅制造的智能时代

在今天的快速发展的制造业中,信息化和智能化已经成为不可或缺的部分。信息化和智能化能够极大地提高生产效率、减少浪费,降低成本,提升产品的质量。汽车座椅产线信息化和智能化是汽车座椅产线升级的重要方向,RFID技术方案在汽车座…

有了这个技术,再也不为水浸事件发愁啦!

在现代社会中,电力是我们生活和工作的不可或缺的一部分。电力供应的可靠性对于维持社会的正常运转至关重要。而变电站则是电力系统中的关键环节,它们起着将高压电转换为适用于分配的低压电的重要作用。然而,变电站也存在各种风险,…

学习Bootstrap 5的第六天

目录 信息警告框 警告框 实例 警告框链接 实例 关闭警告框 实例 警告框动画 实例 按钮 按钮样式 实例 按钮轮廓 实例 ​编辑按钮尺寸 实例 块级按钮 实例 实例 活动/禁用按钮 实例 加载器按钮 实例 扩展小知识 信息警告框 警告框 警告框是使用 .aler…

手写Spring:第15章-通过注解注入属性信息

文章目录 一、目标:通过注解注入属性信息二、设计:通过注解注入属性信息三、实现:通过注解注入属性信息3.1 工程结构3.2 自动扫描注入占位符配置和对象类图3.3 读取属性并填充到容器中3.3.1 定义解析字符串接口3.3.2 配置Bean工厂添加解析器3…

低能量电子束曝光技术

引言 直接蚀刻和剥离是两种比较流行的图案转移工艺。在直接蚀刻工艺中,首先使用光刻技术对聚合物抗蚀剂进行构图,然后通过干法蚀刻技术用抗蚀剂作为掩模将图案转移到衬底或子层上。 剥离过程中,膜(通常是金属)被涂覆在抗蚀剂结构上&#xf…

RoboTAP:由 Google DeepMind 开发的一款机器人操作系统

Google DeepMind 开发的一款机器人操作系统RoboTAP。该系统能够通过只需几分钟的示范,就能让机器人学会新的视觉运动任务。你只需要给它展示几次如何做某件事,比如拿起一个苹果放到果冻上,它就能学会这个动作。 工作原理 该系统能够通过视觉…

CMS-织梦[dede]-通用免登发布插件

CMS-织梦[dede]-通用免登发布插件 1. 织梦通用免登陆发布插件功能说明2. 织梦通用免登陆发布接口使用说明2-1 下载插件2-2 安装插件3 对接火车头等采集工具 3 爬虫【古诗文网】示例[可选]测试火车头入库模型 使用火车头,简数采集器,八爪鱼等文章采集工具…

直播系统源码,系统分析篇:不可或缺的云转码系统

科技的进步发展让人们的生活越来越便利,而当今社会我们最常使用让我们生活变得更便利的方式,就是下载适合我们解决困难的相关直播系统源码搭建出来的APP,在一个完整的APP内,有着多种的功能强大的系统,从这篇文章开始&a…

凡邦数据提供了多种API接口服务,包括淘宝API、1688API、京东API、拼多多API、抖音API等

API接口在现代数字化时代中扮演着至关重要的角色,它们连接着不同的系统、软件和服务,促进着数据流动和业务创新。API接口供应商则是提供这些接口的服务的商家,它们为开发者提供了方便快捷的渠道,以便快速获取和使用各种API接口。 …

一站式数字营销SaaS平台Klaviyo申请纳斯达克IPO上市

来源:猛兽财经 作者:猛兽财经 猛兽财经获悉,美国一站式数字营销SaaS平台Klaviyo近期已向美国证券交易委员会(SEC)提交招股书,申请在纳斯达克IPO上市,股票代码为(KVYO)&am…

用Windows自带的工具检查磁盘

例如用的是win7。打开计算机,点击选中某个磁盘,右键点击鼠标,出现弹出菜单: 选中属性,出现下面窗口: 点击“工具”这个tab页: 点击开始检查,出现如下界面: 两个复选框都选…

开源机密计算平台:蓬莱-OpenHarmony

演讲嘉宾 | 杜 东 回顾整理 | 廖 涛 排版校对 | 李萍萍 嘉宾简介 杜东,上海交通大学助理研究员。中国计算机学会CCF会员,ACM会员。研究兴趣为操作系统与体系结构、服务器无感知(Serverless)计算、系统安全。在包括ASPLOS、ISC…

【扩散模型 李宏毅B站教学以及基础代码运用】

李宏毅教学视频: Link1 B站DDPM公式推导以及代码实现: Link2 这个视频里面有论文里面的公式推导,并且1小时10分开始讲解实例代码。 文章目录 扩散模型概念:Diffusion Model工作原理:影像生成模型本质上的共同目标B站…

qt使用QCustomplot绘制cpu和内存使用率图

一、QCustomPlot介绍 QCustomPlot是一个开源的Qt C图表库,用于可视化数据。该库提供了多种类型的可定制的图表,包括散点图、线图、柱状图和等高线图等。它还支持自定义绘制,可以创建任意形状和大小的元素,并使其与其他元素交互。Q…

iPad电容笔贵吗?开学季比较好用的ipad手写笔

“ipad好买,但是ipad的配件不好买”,我相信很多人都会有这个问题,如果你想要购买像Apple Pencil这样的官方配件,却很难舍得下手,因为一款Apple Pencil的价格就已经接近1000元了。就像许多人不愿购买昂贵的苹果官方产品…

05 C/C++ 指针复杂类型说明 9月5日

目录 C语⾔ (1)数组 (2)指针 指针变量 空指针 (3)指针复杂类型 int a 0; int *p &a; int p[3];​​​​​​​ int *p[3]; int (*p)[3]; int **p; int p(int); int(*p)(int); C语⾔ (1)数组 当数据具有相同的数据类型;使用过程中需要保留原始…

在学习DNS的过程中给我的启发

在国内,关于DNS相关的话题一直络绎不绝,比如DNS根服务器为什么中国没有,还有Anycast BGP实现负载,为什么DNS只有13个,还有DNS over HTTPS 和 DNS over TLS的优劣等等问题,接下来我会找出几个一一说一下其中…