MobileViT论文记录

news2025/1/12 1:32:58

论文原文:https://arxiv.org/abs/2110.02178

源码地址(pytorch实现):https://github.com/apple/ml-cvnets

前言

MobileVit是由CNN和Transformer混合架构组成的,它利用了CNN的空间归纳偏置[1]和加速网络收敛的优势,而且还利用了transformer的自注意力机制和全局视野。在模型参数上,它比主流的transformer架构的网络参数量更低,但是精度却更高,而在与主流轻量级CNN架构相比其参数量也更低,精度也更高。当然了,速度上仍然比主流轻量级CNN架构模型慢很多,不过对比纯transformer架构却快很多

网络结构

图1

组成部分(从左至右):

  1. 普通卷积层:用于对输入图像进行预处理和特征提取。

  2. MV2(MobileNetV2中的Inverted Residual block):一种轻量级的卷积块结构,用于在网络中进行下采样操作。

  3. MobileViT block:MobileViT的核心组件,由多个Transformer block组成,用于对图像特征进行全局上下文的建模和特征融合。

  4. 全局池化层:用于将特征图进行降维,得到全局特征。

  5. 全连接层:用于将全局特征映射到最终的预测输出。

MV2:

是mobile-Net V2中的结构,由2个1×1的卷积和1个3×3的卷积组成

图2

MobileViT block:

核心组件,由多个Transformer block和卷积层(卷积核大小为1×1和3×3)组成

图3

具体过程:

首先将特征图通过一个卷积核大小为nxn(源码为3x3)的卷积层进行局部的特征建模,然后通过一个卷积核大小为1x1的卷积层调整通道数。接着通过Unfold -> Transformer -> Fold结构进行全局的特征建模,然后再通过一个卷积核大小为1x1的卷积层将通道数调整回原始大小。接着通过shortcut捷径分支与原始输入特征图进行Concat拼接(沿通道channel方向拼接),最后再通过一个卷积核大小为nxn(源码3x3)的卷积层做特征融合得到输出

Unfold -> Transformer -> Fold 过程:

首先对特征图进行patch划分,图4中的patch为2×2,即每个patch由4个token组成。在进行自注意(self-attention)计算时,每个token(图4中的每个token,即每个小颜色块)只和自己颜色相同的token进行attention(减少计算量的目的,只需要原始1/4的计算量,原始self-attention每个token都需要与其余token进行attention计算)。

图4

图5

参考解释

[1]:CNN的空间归纳偏置是指CNN在处理图像数据时,利用卷积操作的特性对空间信息进行建模和学习的一种偏置机制。在图像数据中,相邻像素之间的空间关系通常是有意义的,而CNN可以通过卷积操作在局部感受野内获取并学习到这种空间关系。具体来说,CNN通过共享权重的卷积核在不同的位置上提取特征,这种权重共享机制使得CNN具有对平移不变性的特点,即不同位置上提取的特征是具有相似性的。通过这种特性,CNN能够对图像的空间结构进行建模,从而捕捉到图像中不同位置之间的相关性和约束关系。在图像分类任务中,通过卷积操作和池化操作,CNN可以逐渐降低特征图的尺寸,对全局和局部特征进行提取和组合,最后输出分类结果。这种空间归纳偏置使得CNN能够对图像中的空间结构进行建模和理解,提高了图像分类的性能。

相比之下,纯Transformer架构在处理图像数据时缺乏这种空间归纳偏置,而是主要依赖于自注意力机制对不同位置的特征进行关联和整合。因此,在处理图像数据时,引入CNN的空间归纳偏置可以弥补纯Transformer架构的不足,提升模型在图像相关任务中的性能。


参考:MobileViT模型简介_mobilevitattention_太阳花的小绿豆的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1032428.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++面向对象侯捷】11.组合和继承

文章目录 Composition复合,表示has-aDelegation(委托),Composition by referenceInheritance继承,表示 is-a Composition复合,表示has-a Delegation(委托),Composition b…

数字IC验证高频面试问题整理—附答案(四)

好久没更新面试题目了,不少同学在后台催更,这不就来了~ 共150道验证高频面试题整理~含答案(文末可领取全部题目) Q1.illegal_bins和ignore_bins命中分别会怎么样?命中是否会计入覆盖率统计 illegal_bins 表示非法的…

activemq部署

目录 1.下载 2.java环境 3.解压启动 4.访问测试 5.问题记录 5.1.无法启动成功问题 5.2.其他服务器无法访问 1.下载 ActiveMQ 2.java环境 需要注意要求的jdk版本,否则启动不会成功 3.解压启动 tar -zxvf apache-activemq-5.18.2-bin.tar.gz 进入到目录下执行…

MATLAB实现相关性分析

目录 一.基本理论 二.两类相关系数的对比 三.相关系数的假设检验 四.MATLAB的相关操作 五.其他有关的一些列技巧 六.案例展示 七.实战操作 一.基本理论 所谓相关系数,本质上是来衡量两组数据的关系大小——对应呈现函数关心的两种变量,那么我们可以…

“信任危机”?VR数字工厂让你沉浸式漫游在工厂里

网上因为“预制菜”的问题吵的沸沸扬扬,企业工厂说预制菜都是经过精心准备和加工的食物,但是更多人还是不信任预制菜的制作,归根结底还是因为信任危机,如果说有这样一个全新的展示方式,可以将工厂加工环境1:1还原复刻在…

vuex如何安装、报错、安装版本注意事项

npm i vuex报错,为什么呢? 在2022.2.7,Vue3就变成了默认版本, Vue2中,必须要用Vuex的3版本 Vue3中,必须要用Vuex的4版本,否则会报错 npm i vuex 安装的就是4版本 如果我们需要安装3版本&…

Spire.OCR for .NET 1.9.0 Crack

Spire.OCR for .NET 是一个专业的 OCR 库,用于从 JPG、PNG、GIF、BMP 和 TIFF 格式的图像中读取文本。开发人员可以轻松地在 C# 和 VB.NET 的 .NET 应用程序中添加 OCR 功能。它支持常用的图像格式,并提供从图像中​​读取多个字符和字体、粗体和斜体样式…

如何将 JavaScript Excel XLSX 查看器添加到Web应用程序

在 JavaScript 中创建 Excel 查看器可能是一项艰巨的任务,但使用 SpreadJS JavaScript 电子表格,创建过程要简单得多。在本教程博客中,我们将向您展示如何使用 SpreadJS 的强大功能来创建一个查看器,该查看器允许您在 Web 浏览器中…

【AI视野·今日CV 计算机视觉论文速览 第251期】Thu, 21 Sep 2023

AI视野今日CS.CV 计算机视觉论文速览 Thu, 21 Sep 2023 Totally 76 papers 👉上期速览✈更多精彩请移步主页 Interesting: 📚FreeU, Diffusion U-Net提升生成模型的质量。(from 南洋理工) Daily Computer Vision Papers DreamLLM: Synergistic Multi…

腾讯面试题:无网络环境,如何部署Docker镜像?

亲爱的小伙伴们,大家好!我是小米,很高兴再次和大家见面。今天,我要和大家聊聊一个特别有趣的话题——腾讯面试题:无网络环境,如何部署Docker镜像?这可是一个技术含量颇高的问题哦!废…

鼠标移入展示字体操作

鼠标移入展示字体 点击删除实行删除操作&#xff0c;点击图片文字跳转产品详情的逻辑实现 <div class"allProduct-content"><template v-for"(item, index) in obj.product" :key"index"><!-- <img :src"item.image&qu…

云原生Kubernetes:Pod控制器

目录 一、理论 1.Pod控制器 2.Deployment 控制器 3.SatefulSet 控制器 4.DaemonSet 控制器 5.Job 控制器 6.CronJob 控制器 二、实验 1.Deployment 控制器 2.SatefulSet 控制器 3.DaemonSet 控制器 4.Job 控制器 5.CronJob 控制器 三、问题 1. showmount -e 报错…

macOS 下 Termius 中文显示为乱码

&#x1f468;&#x1f3fb;‍&#x1f4bb; 热爱摄影的程序员 &#x1f468;&#x1f3fb;‍&#x1f3a8; 喜欢编码的设计师 &#x1f9d5;&#x1f3fb; 擅长设计的剪辑师 &#x1f9d1;&#x1f3fb;‍&#x1f3eb; 一位高冷无情的编码爱好者 大家好&#xff0c;我是 DevO…

云原生微服务 第五章 Spring Cloud Netflix Eureka集成负载均衡组件Ribbon

系列文章目录 第一章 Java线程池技术应用 第二章 CountDownLatch和Semaphone的应用 第三章 Spring Cloud 简介 第四章 Spring Cloud Netflix 之 Eureka 第四章 Spring Cloud Netflix 之 Ribbon 文章目录 系列文章目录[TOC](文章目录) 前言1、负载均衡1.1、服务端负载均衡1.2、…

pcl--第十一节 点云外接立方体和点云模板匹配

点云外接立方体&#xff08;3D物体包容盒&#xff09; 使用pcl::MomentOfInertiaEstimation类来获取基于偏心率和惯性矩的描述符。该类还允许提取云的轴对齐和定向的边界框。但是提取的OBB并非最小可能的边界框。 原理简述 包围体&#xff08;包容盒&#xff09;是一个简单的…

编写第一个Go程序

编写第一个Go程序 1. 开发环境构建 在Go语言中&#xff0c;开发环境的构建需要设置GOPATH环境变量。在1.8版本之前&#xff0c;必须显式设置GOPATH环境变量。而在1.8版本及之后&#xff0c;如果没有设置GOPATH&#xff0c;Go将使用默认值。 在Unix系统上&#xff0c;默认值为…

【AI视野·今日NLP 自然语言处理论文速览 第三十七期】Thu, 21 Sep 2023

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 21 Sep 2023 Totally 57 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Chain-of-Verification Reduces Hallucination in Large Language Models Authors Shehzaad Dhuliawala, Mojt…

Linux学习记录——이십구 网络基础(2)

文章目录 1、理解网络间通信2、理解协议3、网络字节序4、socket编程接口和sockaddr结构 1、理解网络间通信 宏观上&#xff0c;是主机与主机在发送接收消息&#xff0c;但主机怎么去发送消息&#xff1f;主机间的通信是通过进程完成的&#xff0c;这个进程就是用户发起的进程&…

《深度学习工业缺陷检测》专栏介绍 CSDN独家改进实战

&#x1f4a1;&#x1f4a1;&#x1f4a1;深度学习工业缺陷检测 1&#xff09;提供工业小缺陷检测性能提升方案&#xff0c;满足部署条件&#xff1b; 2&#xff09;针对缺陷样品少等难点&#xff0c;引入无监督检测&#xff1b; 3&#xff09;深度学习 C、C#部署方案&#…

我写过的最蠢的代码

提起这个话题&#xff0c;感慨万千啊。要说最蠢&#xff0c;应该是一个新年庆贺网站。 当时&#xff0c;一个朋友借给我了一个域名。 我当时&#xff0c;还怎么会写代码&#xff0c;刚大一。看到域名都是和网站挂钩的&#xff0c;我就想写一个网站。 后来新年到了&#xff0…