MobileViT v3 论文解读

news2024/11/16 17:42:44

paper:MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features

official implementation:GitHub - micronDLA/MobileViTv3

出发点

MobileViT v1通过结合CNN和ViT的优势,已经取得了竞争性的结果,但其内部的融合块(fusion block)在模型扩展时存在挑战,并且学习任务复杂。本文提出改进MobileViT v1中的融合块,以解决扩展性和简化学习任务的问题。

创新点

  1. 改进MobileViT v1 block:提出了四点改进:
    (1)fusion block中用1x1卷积代替3x3卷积,简化特征融合任务
    (2)local representation block中用depthwise 3x3卷积替换原来的3x3卷积,减少参数和计算量。
    (3)fusion block中添加输入特征,形成残差连接,有助于深层模型的优化。
    (4)fusion block中融合局部(CNN)和全局(ViT)特征,而不是输入和全局特征。
  2. 扩展性:改进后的MobileViT v3 block允许模型通过增加宽度(层的通道数)来扩展,创建了新的MobileViTv3-S, XS和XXS架构。
  3. 性能提升:MobileViT v3在保持类似参数和FLOPs的情况下,相比于MobileViT v1和MobileViT v2,在多个数据集上取得了更高的准确率。

效果

  • MobileViTv3-XXS和MobileViTv3-XS在ImageNet-1K数据集上分别超过了MobileViTv1-XXS和MobileViTv1-XS 2%和1.9%。
  • 在MobileViTv2的基础上,通过引入提出的融合块,创建了MobileViTv3-0.5, 0.75和1.0模型,这些模型在ImageNet-1k, ADE20K, COCO和PascalVOC2012数据集上的准确率也超过了MobileViTv2。特别是在ImageNet-1K数据集上,MobileViTv3-0.5和MobileViTv3-0.75分别超过了MobileViTv2-0.5和MobileViTv2-0.75 2.1%和1.0%。
  • 此外,MobileViTv3-1.0在ADE20K数据集和PascalVOC2012数据集上的分割任务中,相比于MobileViTv2-1.0,mIOU分别提升了2.07%和1.1%。

方法介绍

MobileViT v3相比于MobileViT v1和v2的改进如图2所示。

fusion block中用1x1卷积代替3x3卷积:在融合过程中替换3x3卷积主要有两个动机,一是融合独立于特征图中其他位置的局部特征和全局特征,以简化融合块的学习任务。从概念上讲,3x3卷积融合了输入特征、全局特征、其它位置的输入、感受野内的全局特征,这是一个复杂的任务。通过让fusion block只融合独立于其它位置的局部特征和全局特征,可以简化它的学习目标。第二个动机是消除MobileViT v1架构缩放的主要限制之一。将MobileViT v1从XXS扩大到S是通过改变网络的宽度同时保持深度不变来实现的。改变宽度(输入和输出通道数)会导致参数和FLOPs大幅增加。例如,如果MobileViT block的输入和输出通道翻倍,则fusion block中3x3卷积的输入通道将会变成4倍,输出变成2倍,这是因为3x3卷积的输入是输入特征和全局特征的拼接。使用1x1卷积避免了网络扩大时参数和FLOPs的大幅增加。

局部和全局特征融合:在融合层中,MobileViT v3 block将局部特征和全局特征concat到一起,而不是输入特征和全局特征。这是因为与输入特征相比,局部特征与全局特征的联系更为密切。

融合输入特征:输入特征被添加到fusion block中1x1卷积的输出中。这种残差连接在ResNet和DenseNet中已被证明是有助于更深的网络层的优化的。通过将输入特征加到fusion block的输出中,这里也引入了残差连接。

局部特征表示block中的深度卷积:为了进一步减少参数,用depthwise 3x3卷积替换local representation block中的3x3卷积。

实验结果

MobileViTv3-S,XS和XXS的配置,括号内是与MobileViTv1对应参数的scaling factor。在ImageNet-1k数据集上,MobileViTv3-XXS、XS和S相比于MobileViTv1-XXS、XS和S分别提升了2%、1.9%、0.9%。

与MobileViT v2类似,作者也设计了MobileViTv3-1.0、0.75、0.5,MobileViTv1、v2、v3的对比如表2所示。可以看到在相似的参数量下,MobileViT v3的性能超过了v1和v2。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1860769.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用户是如何访问网站的?

由于IP地址不方便记忆并且不能显示地址组织的名称和性质,人们设计出了域名,并通过域名系统(DNS,Domain Name System)来将域名和IP地址相互映射,使人更方便地访问互联网,而不用去记住能够被机器直…

数字心动+华为运动健康服务 使用体验指导

一、应用介绍 “数字心动”是一个体育生态平台APP,践行“体育大健康娱乐数字营销”模式,打造深度融合体育平台。APP集跑步运动记录、赛事活动报名、成绩/大众等级证书查询等多功能于一体,采取“线上线下”模式,结合协会、行业、品…

安泰电压放大器有什么作用

电压放大器是一种电子器件,它能够将输入信号的电压增大到所需的输出电压水平。电压放大器在电子电路设计中起到了至关重要的作用,下面将详细介绍电压放大器的作用。 信号放大作用:电压放大器主要作用是放大输入信号的电压,使其具有…

vue3组件通讯-介绍

简介 Vue 3 引入了多种强大的功能和改进,其中包括增强的组件通信机制。了解这些机制对于构建复杂、可维护的应用程序至关重要。下面,我们将介绍在 Vue 3 中组件通信的几种方法。 通讯类型 父子组件通信上下级通信(不仅父子级)兄…

什么牌子的开放式耳机性价比高?2024超靠谱品牌推荐!

开放式耳机最近几年已经成为音乐爱好者们的一个新的选择。它们从最初的基本音质发展到了现在的高解析度,不断的升级。这类耳机开放式、安全的性能和舒适的佩戴体验,无论你是在街上漫步还是在家中享受安静的时光,都能够得到很好的体验。在众多…

Go语言之控制结构

个人网站: http://hardyfish.top/ 免费书籍分享: 资料链接:https://url81.ctfile.com/d/57345181-61545511-81795b?p3899 访问密码:3899 免费专栏分享: 资料链接:https://url81.ctfile.com/d/57345181-6…

HarmonyOS Next开发学习手册——通过startAbilityByType拉起垂类应用

使用场景 开发者可通过特定的业务类型如导航、金融等,调用startAbilityByType接口拉起对应的垂域面板,该面板将展示目标方接入的垂域应用,由用户选择打开指定应用以实现相应的垂类意图。垂域面板为调用方提供统一的安全、可信的目标方应用&a…

Qt-Advanced-Docking-System示例程序

写了一些简单的示例程序,帮助我更好地使用和了解Qt-Advanced-Docking-System 1.写一个如图页面布局的程序 m_pDockMangernew ads::CDockManager(this);this->setCentralWidget(m_pDockManger);ads::CDockWidget* centerDockWidgetnew ads::CDockWidget("中…

MinIO下载和安装(Windows)

1、MinIO下载和安装 | 用于创建高性能对象存储的代码和下载内容 2、在本地硬盘中并新建一个minio文件夹 里面再创建bin文件夹和data文件夹 bin 用于存放下载的minio.exe data 用于存放数据 logs 用于存放日志 3、 编写启动脚本start.bat echo off echo [信息] 运行MinIO文服务…

探索新质生产力,Coremail邮件新品系列重磅发布!

数字化发展至今,新一轮科技革命与产业变革加速推进,利用新质生产力成为企业发展的关键,而邮箱作为日常工作的重要软件应用,如何紧追时代风口助力行业革新? 6月20日,探索新质生产力:Coremail智能…

自动化IC封装模拟分析工作流程

在IC封装制程的制程模拟中,为了同时提升工作效率与质量,CAE团队常会面临到许多挑战。在一般的CAE分析流程中,仿真分析产生结构性网格,是非常繁琐且相当花时间的。必须要先汇入2D (或3D) 图档,接着陆续建立表面网格、高…

华为升腾显卡选型备忘

目录 1. 开发套件 2. 加速模块 3. 加速卡 4. 训练卡 官方地址:https://www.hiascend.com/ 备注: (1)V后缀的都是Video视频解析卡,本质是推理卡; (2)I后缀的都是推理卡&#…

Ubuntu server 22.04 (Linux) 安装部署 redis 7.4 详细步骤 Tab 不能自动补全

1 安装依赖软件 sudo apt update sudo apt-get install tcl-dev 2 下载 wget https://download.redis.io/releases/redis-7.4-rc1.tar.gz 3 编译安装 #解压 tar zxvf redis-7.4-rc1.tar.gz # cd redis-7.4-rc1/ #编译 make make test #安装 sudo make install PREFIX/usr…

防爆气象站的工作原理

TH-FBCQX2防爆气象监测设备是为了在存在爆炸性气体或粉尘的潜在危险环境中进行气象监测而专门设计的设备。以下是对防爆气象监测设备的详细介绍: 防爆气象监测设备符合防爆安全标准,确保在易燃易爆环境中不会产生火花或热源,从而避免引发爆炸…

IDEA2024关闭自动AI代码补全功能

文章目录 一、背景二、教程四、写在后面 一、背景 在本人前段时间的一次面试算法题中,面试官让我关闭代码提示功能,当时气氛尴尬的可以抠出三室一厅,但是这个功能是2024新版参考文献自带的,本次来分享如何关闭新版代码补全功能。…

Model3C芯片方案--86彩屏中控面板Modbus协议说明

一、概述 Model3C芯片是一款基于RISC-V的高性能、国产自主、工业级高清显示与智能控制MCU,配备强大的2D图形加速处理器、PNG/JPEG解码引擎,并支持工业宽温。基于Model3C芯片的86彩屏中控面板,通过集成Modbus协议,实现了与多种控制…

一键登录功能实现(采用极光SDK)

前端流程 1. 引入极光认证 SDK&#xff1a; 通过 <script> 标签引入 &#xff0c;在 public/index.html 中确认 SDK 脚本已正确加载&#xff1a;参考官网Web SDK 概述 - 极光文档 <!-- 引入极光认证 SDK --> <script type"text/javascript" src&qu…

three.js - 置换贴图(displacementMap)、凹凸贴图(bumpMap)

这就是个灰度图 瞅瞅下面的贴图们&#xff0c;加深一下印象吧 说一下灰度图 在灰度图中&#xff0c; 黑色&#xff1a;代表最低的深度&#xff08;或最低的置换&#xff09; 白色&#xff1a;代表最高的深度&#xff08;或最高的置换&#xff09; 中间的灰度值&#xff0c;则…

java基于ssm+jsp 网络视频播放器

1前台首页功能模块 网络视频播放器&#xff0c;在系统首页可以查看首页、视频信息、系统公告、论坛信息、我的、跳转到后台、客服等内容&#xff0c;如图1所示。 图1前台首页功能界面图 用户登录&#xff0c;在登录页面可以填写账号、密码等信息进行登录&#xff0c;如图2所示…

Day4: 两两交换链表中的节点 24 删除链表的倒数第N个节点 19 链表相交 02.07 环形链表II 142

题目24. 两两交换链表中的节点 - 力扣&#xff08;LeetCode&#xff09; /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x), next(nullptr) {}* …