深度学习论文: Efficient Modulation for Vision Networks

news2024/9/8 18:07:27

深度学习论文: Efficient Modulation for Vision Networks
Efficient Modulation for Vision Networks
PDF:https://arxiv.org/pdf/2403.19963
PyTorch: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

在这里插入图片描述
本文提出高效调制,一种新颖的高效视觉网络设计。重新审视调制机制,通过卷积上下文建模和特征投影层处理输入,融合特征时采用逐元素乘法与MLP块。实验表明,调制机制适合高效网络,通过高效调制(EfficientMod)块定制设计,成为网络的基本构建块。该设计在精度与效率间实现良好权衡,刷新高效网络性能。结合基本自注意力块,性能进一步提升且效率不变。实验验证EfficientMod性能卓越,参数更少情况下,相比EfficientFormerV2-s2,准确率提升0.6%(top-1),GPU速度快25%;与MobileViTv2-1.0相比,在相同GPU延迟下,性能高出2.9%。此外,在下游任务中表现显著,ADE20K基准测试中mIoU指标高出EfficientFormerV2-s 3.6%。

2 EfficientMod

2-1 Modulation Mechanism

最近的研究显示,纯卷积网络在性能上可与自注意力机制相媲美。FocalNet和VAN因其高计算效率和易实现性而受到关注,性能优于ViT模型。这些方法通常使用大核心卷积进行上下文建模,并通过逐元素乘法调整特征投影,随后是MLP块,这被称为调制机制,它结合了卷积的效率和自注意力的动态性。

调制机制 Modulation Mechanism 可以表示为:
在这里插入图片描述
其中 VAN采用卷积注意力设计,通过全连接层将输入特征投影到新空间,然后通过两个分支处理:一个提取上下文信息,另一个保持映射不变。通过逐元素乘法融合特征,再通过线性投影。即
在这里插入图片描述
FocalNets引入了Focal调制,通过并行分支设计,一个分支聚合上下文信息,另一个分支进行线性投影,然后融合特征。即
在这里插入图片描述
然而,调制机制在计算资源受限时存在推理速度慢的问题,主要原因包括冗余操作和上下文建模分支中的碎片化操作,这增加了延迟。
在这里插入图片描述
为了解决这些问题,提出了高效调制(Efficient Modulation),它作为高效模型的基础构建块,针对移动网络的效率需求进行优化。简化了调制设计,将MLP和调制块中的全连接层融合,同时简化了上下文建模分支,使用单一的大内核深度卷积来平衡效率和大感受野。这种设计在保持调制机制优势的同时,提高了网络的效率。
在这里插入图片描述
与Transformer块相比,高效调制块的计算复杂度与图像尺寸成线性关系,强调大规模局部特征交互,而Transformer则与标记数量的立方相关,直接计算全局交互。与MBConv块相比,高效调制块使用更少的通道进行深度卷积,并融入了动态特性。

2-2 Network Architecture

EfficientMod采用了分阶段的架构,每个阶段包含多个EfficientMod模块,并通过残差连接进行连接。为了降低特征维度,使用重叠的图像块嵌入进行下采样,逐步将特征尺寸减少。每个模块在处理前会先进行层归一化,然后输入到EfficientMod进行进一步处理。模型还采用了随机深度和层缩放技术来增强鲁棒性。

EfficientMod模块与自注意力机制是互补的,可以结合使用形成混合设计。在最后两个阶段引入原始的注意力模块,同时根据EfficientMod模块的参数调整宽度和深度,以确保公平比较。设计了三种不同规模的混合结构,参数量从4M到13M不等,分别命名为EfficientMod-xxs、EfficientMod-xs和EfficientMod-s。
在这里插入图片描述

3 Experiments

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1918199.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java基础-组件及事件处理(下)

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 面板组件 说明 常见组件 JScrollPane常用构造方法 JScrollPane设置面板滚动策略的方法 JScrollPane滚…

ITSS服务经理:WAVE SUMMIT深度学习开发者大会2024在北京召开

在6月28日,由深度学习技术及应用国家工程研究中心主导的WAVE SUMMIT深度学习开发者大会2024于北京隆重举行。 此次盛会由百度飞桨和文心大模型联袂承办。 在大会上,百度震撼发布文心大模型4.0 Turbo版本,并宣布其API接口将向广大开发者开放…

MySQL的事务使用

文章目录 特点JDBC使用事务 特点 事务的基本属性ACID: 数据库事务的ACID特性是指保证数据库在执行事务操作时能够可靠和正确的四个基本属性。ACID是原子性(Atomicity)、一致性(Consistency)、隔离性(Isol…

[leetcode]partition-list 分隔链表

. - 力扣(LeetCode) class Solution { public:ListNode* partition(ListNode* head, int x) {ListNode *smlDummy new ListNode(0), *bigDummy new ListNode(0);ListNode *sml smlDummy, *big bigDummy;while (head ! nullptr) {if (head->val &l…

OpenCV 看这一篇就够了 持续更新中

目录 一、基础操作 1. openCV界面 2. 图像的基础操作 2.1 图像的输入与输出 2.2 图片的数组的本质 2.3 修改像素尺寸 3. 视频的基础操作 3.1 视频的本质 3.2 视频的输入与输出 3.2.1 视频文件读取 3.2.2 摄像头捕获 3.2.3 视频保存 4. 回调函数 二、界面控件 1.…

Affnity 值得购买吗?有Affinity 优惠码?

今年,Affinity 提供了全场 7 折优惠活动,这里包括桌面应用、插件、工作手册等内容,另外针对 iPad 应用提供更为给力的 5 折优惠!对于从事图形设计、排版的用户来说,由于 Affinity 的创意设计应用均采用了一次买断制&am…

2024年最新全国河流湖泊矢量数据

2024最新全国河流湖泊矢量数据 (数据部分预览) 数据介绍 OpenStreetMap(OSM) 一个开放的、免费的、全球性的地图项目,由全球的志愿者和地图爱好者们共同创建和维护。 OSM的数据包括道路、建筑、公园、河流、湖泊等各…

2.快速搭建 SpringBoot hello world

环境要求: Spring Boot 2.6.1 需要Java 8,并且与Java 15(包括)兼容。 还需要Spring Framework 5.2.10.RELEASE或 更高版本。 注意:Spring Boot 3.0版本以上就需要 Java 8以上了,即不能再使用 Java8版本了。…

headerpwn:一款针对服务器响应与HTTP Header的模糊测试工具

关于headerpwn headerpwn是一款针对服务器响应与HTTP Header的模糊测试工具,广大研究人员可以利用该工具查找网络异常并分析服务器是如何响应不同HTTP Header的。 功能介绍 当前版本的headerpwn支持下列功能: 1、服务器安全与异常检测; 2、…

顶顶通呼叫中心中间件-私有化asrproxy配置热词模型

顶顶通呼叫中心中间件-私有化asrproxy配置热词模型 1、配置热词文件 将热词存在一个txt文件中,比如:hotword.txttxt文本里面写热词,一个热词一行,用utf8编码把热词文件上传到asrproxy程序目录中,路径:/dd…

【前端错误】未捕获的语法错误:Uncaught SyntaxError

🔥 个人主页:空白诗 文章目录 一、错误原因分析1. 缺少括号或引号2. 多余的括号或引号3. 使用保留字作为变量名4. 缺少分号5. 对象字面量中缺少属性分隔符 二、解决方案1. 检查括号和引号匹配2. 避免使用保留字作为变量名3. 添加必要的分号4. 正确定义对…

RABBITMQ的本地测试证书生成脚本

由于小程序要求必须访问wss的接口,因此需要将测试环境也切换到https,看了下官方的文档 RabbitMQ Web STOMP Plugin | RabbitMQ里面有这个信息 然后敲打GPT一阵子,把要求输入几个来回,得到这样一个脚本: generate_cer…

从0到1开发一个Vue3的新手引导组件(附带遇到的问题以及解决方式)

1. 前言: 新手引导组件,顾名思义,就是强制性的要求第一次使用的用户跟随引导使用应用,可以让一些第一次使用系统的新手快速上手,正好我最近也遇到了这个需求,于是就想着开发一个通用组件拿出来使用(写完之后才发现element就有,后悔了哈哈哈😭😭) 示例图…

FastGPT连接OneAI接入网络模型

文章目录 FastGPT连接OneAI接入网络模型1.准备工作2.开始部署2.1下载 docker-compose.yml2.2修改docker-compose.yml里的参数 3.打开FastGPT添加模型3.1打开OneAPI3.2接入网络模型3.3重启服务 FastGPT连接OneAI接入网络模型 1.准备工作 本文档参考FastGPT的官方文档 主机ip接…

树的结构(b,b+树)

无论线性表,栈还是队列,都是一对一,查询的时候,效率较低,数据量比较的大的情况 1.树的定义 一种数据结构,有层次关系的集合,根朝上,叶朝下 除了根节点外,每个子节点都…

v-model指令详情——04

V-bind 和v-mode的区别和联系&#xff1a; 1.v-bind 和 v-mode 这两个指令都可以完成数据绑定 2.v-bind是单项数据绑定 data>试图 3.v-mode 是双向数据绑定 data<>试图 4.v-bind 可以使用在任何HTML标签当中。v-mode 只能使用在表单元素上例如&#xff1a; inp…

盘一盘3DGS对哪些行业影响最大?

在日新月异的科技时代&#xff0c;每一个新兴技术的诞生都像是宇宙中的新星&#xff0c;以其独特的光芒照亮并改变着世界。3DGS正是这样一项技术&#xff0c;它的出现无疑对传统3D视觉产生了巨大的冲击&#xff0c;也给各行各业带来了巨大的影响。作为CV界的新晋黑马&#xff0…

【游戏引擎之路】登神长阶(七)——x86汇编学习:凡做难事,必有所得

5月20日-6月4日&#xff1a;攻克2D物理引擎。 6月4日-6月13日&#xff1a;攻克《3D数学基础》。 6月13日-6月20日&#xff1a;攻克《3D图形教程》。 6月21日-6月22日&#xff1a;攻克《Raycasting游戏教程》。 6月23日-7月1日&#xff1a;攻克《Windows游戏编程大师技巧》。 7月…

数据结构-二叉搜索树与红黑树

4.二叉搜索树 又叫二叉查找树、有序二叉树、排序二叉树。树中任意一个结点&#xff0c;其左子树的每个节点值都要小于该节点&#xff0c;其右子树的每个节点值都要大于该节点 作用&#xff1a;能够进行快速查找、插入、删除操作 4.1 二叉搜索树的时间复杂度 注&#xff1a;二…

Python基础教学之五:异常处理与文件操作——让程序更健壮

Python基础教学之五&#xff1a;异常处理与文件操作——让程序更健壮 一、异常处理概念 1. 理解异常 异常是程序运行中发生的错误或意外情况&#xff0c;比如除以零、访问不存在的列表元素等。如果不进行处理&#xff0c;异常会导致程序终止运行。在编程过程中&#xff0c;我…