MobileVIT原理详解篇

news2024/9/28 23:28:13

🍊作者简介:秃头小苏,致力于用最通俗的语言描述问题

🍊专栏推荐:深度学习网络原理与实战

🍊近期目标:写好专栏的每一篇文章

🍊支持小苏:点赞👍🏼、收藏⭐、留言📩

MobileVIT原理详解篇

写在前面

Hello,大家好,我是小苏🧒🏽🧒🏽🧒🏽

​  在之前,我已经为大家介绍过各种基础的深度神经网络,像AlexNet、VGG、ResNet等等,也为大家介绍过一些轻量级的网络,如ShuffleNet系列、MobileNet系列等等,当然也做过一系列Transformer的教学,感兴趣的可以去我主页搜搜看喔。🍵🍵🍵

​  今天将为大家介绍一种新的网络结构——MobileVIT。🍄🍄🍄在具体介绍MobileVIT之前呢,我还是希望大家去阅读一些先验知识,链接如下:

  • CV攻城狮入门VIT(vision transformer)——近年超火的Transformer你再不了解就晚了! 🍁🍁🍁
  • CV攻城狮入门VIT(vision transformer)之旅——VIT原理详解篇 🍁🍁🍁
  • CV攻城狮入门VIT(vision transformer)之旅——VIT代码实战篇🍁🍁🍁
  • 详细且通俗讲解轻量级神经网络——MobileNets【V1、V2、V3】🍁🍁🍁

​  如果你理解了上面四篇文章的话,那么其实MobileVIT对你来说会是很好理解的。当然如果你对Transformer感兴趣的话,可以再看看下面的两篇博客:

  • Swin Transformer原理详解篇🍀🍀🍀
  • Swin Transformer代码实战篇🍀🍀🍀

MobileVIT的优势

在介绍MobileVIT的网络结构之前,我们先来聊聊为什么使用MobileVIT,即MobileVIT有什么优势?其实呢,在我看来,为什么使用MobileVIT,就是希望减少Transformer模型庞大的模型参数和较慢的推理速度,希望能将其部署在移动端。那么在论文中也有说到MobileVIT的优势,让我们一起来看看叭。

  • 更好的性能: 在给定的参数预算下,与现有的轻量化cnn相比,MobileViT模型在不同的移动视觉任务中获得了更好的性能。
  • 更好的泛化能力:泛化能力是指训练和评价指标之间的差距。对于两个具有类似训练指标的模型,具有更好的评估指标的模型更具有通用性,因为它可以更好地预测不可见的数据集。。之前的ViT变体(带卷积和不带卷积)与CNN相比,即使有广泛的数据增强,其泛化能力也很差,MobileViT显示出更好的泛化能力。如下图所示,MobileViT显示了与cnn类似的泛化能力。

image-20230521185508909

  • 更好的鲁棒性:一个好的模型应该对超参数具有鲁棒性,因为调优这些超参数会消耗时间和资源。与大多数基于ViT的模型不同,MobileViT模型使用基本增强训练,对L2正则化不太敏感。

MobileVIT网络结构

​ 论文中先是帮我们回顾了VIT的结构,如下图所示:

image-20230521190615575

​  你或与会发现这个图和我介绍VIT的原理时介绍的有些许差别,但是它们表达的含义都是一样的。首先会将图片划分成一个个patch,然后通过linear层将其转换成Token的形式,接着会加上位置编码并通过一系列Transformer结构,最后通过Linear层得到最终的输出。你对比一下上图和VIT中的结构,你会发现基本一致,主要是这里少加了Class token。


​  上文回顾了一下VIT,下面就让我们直接来看一看MobileVIT的整体结构叭~~~🌵🌵🌵如下图所示:

在这里插入图片描述

这个图画的非常简洁明了,我觉得大家可能存在疑惑的地方应该只有两个地方,第一个是这个MV2MV2 ↓2是什么结构?另一个就MobileViT block是什么结构?下面就让我们一个一个来看叭🌽🌽🌽

  • MV2MV2 ↓2结构

    这个结构其实就是MobileNetv2中的Inverted Residuals结构,不熟悉的点击☞☞☞了解详情。🌼🌼🌼这里我再简单帮大家回忆一下,Inverted Residuals的结构大致如下,即1x1卷积升维->3x3DW卷积->1x1卷积降维。🍚🍚🍚

    image-20230521212911167

    细心的朋友应该发现了MV2MV2 ↓2有两个结构,这个Inverted Residuals就一个结构呀,怎么对应的呀?其实呢,MV2 ↓2表示进行了2倍下采样,MV2MV2 ↓2的结构分别如下:

    image-20230521213228647

  • MobileViT block结构

MobileViT block结构如下图所示:

image-20230521192322162

​  我们先来一些看一下上图,首先对于一个 H × W × C H×W×C H×W×C的特征图X,首先经过一个Local representations层,其由一个 n × n n×n n×n的卷积和一个 1 × 1 1×1 1×1的卷积构成, 1 × 1 1×1 1×1的卷积用来调整通道数,经过Local representations层后得到特征图尺寸为 H × W × d H×W×d H×W×d。跟在Local representations层后面的是Transformers as Convolution层,这一层是一个Unfold->Transformer->Fold结构,也是MobileVIT的重中之重,我们后面再详细为大家介绍,现在你只要知道经过这个Transformers as Convolution层后特征图的尺寸没有发生变换,仍然是 H × W × d H×W×d H×W×d。之后会通过 1 × 1 1×1 1×1的卷积将特征图通道数调整为 C C C,即特征图尺寸变换成 H × W × C H×W×C H×W×C。最后会通过shortcut分支和原始特征图进行拼接,并通过一个 n × n n×n n×n的卷积得到最后的输出特征图。🍋🍋🍋

​  相信你已经知道了MobileViT block的大体结构,但是对于Transformers as Convolution层还是一头雾水,下面就让我带领大家一起来看看这一部分。🍗🍗🍗

​  这一部分分为三个结构,Unfold、Transformer以及Fold。先来说说Unfold和fold的操作叭。其实呀,这两个操作只是对数据的shape做了一些改变,让其符合Self-Attention结构的输入。那它们是怎么进行reshape的呢,如下图所示:

image-20230521214233919

图片来源于B站霹雳吧啦Wz

​  我想这里你应该会有疑问,这里为什么分patch操作,并弄不同的颜色表示呢?其实这就和后面的Transformer有关了。这里的Transformer结构相较与我之前介绍的有所改变,它会先对特征图进行patch划分,如下图划分patch大小为 2 × 2 2×2 2×2,即每个Patch由4个像素构成。在进行Transformer的时候,图中的相同颜色的小色块会进行Attention,而不同颜色的则不会进行Attention操作,这样会减少计算量。🍦🍦🍦

​  很多人可能都会问为什么要这么做,以及这么做的原因是什么。我给出霹雳吧啦Wz的看法,我认为是很有道理的:对于图像数据本身就存在大量的数据冗余,比如对于较浅层的特征图(H, W下采样倍率较低时),相邻像素间信息可能没有太大差异,如果每个Token做Attention的时候都要去看下相邻的这些像素,个人感觉有些浪费算力。这里并不是说看相邻的像素没有意义,只是说在分辨率较高的特征图上收益可能很低,增加的计算成本远大于Accuracy上的收益。而且前面已经通过nxn的卷积层进行局部建模了,进行全局建模时就没必要再看这么细了。🍍🍍🍍

image-20230521214657996

图片来源于B站霹雳吧啦Wz

MobileVIT实验效果

​  下图展示了MobileVIT在ImageNet上的效果,总的来说,MobileViTs易于优化和鲁棒性强。因此,MobileViT 可以很容易地应用于新的任务和数据集。

image-20230521215447682

小结

​  MobileVIT的原理部分就为大家介绍到这里啦,如果有不明白的地方欢迎评论区交流讨论。在下一节我将为大家介绍MobileVIT的代码实现,会进一步辅助大家理解MobileVIT的原理,一起加油叭~~~🥂🥂🥂

如若文章对你有所帮助,那就🛴🛴🛴

一键三连 (1).gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1550763.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

win11蓝牙图标点击变灰,修复过程

问题发现 有一天突然心血来潮想着连接蓝牙音响放歌来听,才发现win11系统右下角菜单里的蓝牙开关有问题。 打开蓝牙设置,可以正常直接连上并播放声音,点击右下角菜单里的蓝牙开关按钮后,蓝牙设备也能正常断开,但是按钮直接变深灰色,无法再点击打开。 重启电脑,蓝牙开关显…

使用yolov9来实现人体姿态识别估计(定位图像或视频中人体的关键部位)教程+代码

yolov9人体姿态识别: 相较于之前的YOLO版本,YOLOv9可能会进一步提升处理速度和精度,特别是在姿态估计场景中,通过改进网络结构、利用更高效的特征提取器以及优化损失函数等手段来提升对复杂人体姿态变化的捕捉能力。由于YOLOv9的…

国内ip切换app,让切换ip变得简单

在数字化快速发展的今天,互联网已经成为我们生活中不可或缺的一部分。然而,随着网络应用的深入,用户对于网络环境的需求也日益多样化。其中,IP地址作为网络中的关键标识,其切换与管理显得尤为重要。为了满足用户对于IP…

刚刚,百度和苹果宣布联名

百度 Apple 就在刚刚,财联社报道,百度将为苹果今年发布的 iPhone16、Mac 系统和 iOS18 提供 AI 功能。 苹果曾与阿里以及另外一家国产大模型公司进行过洽谈,最后确定由百度提供这项服务,苹果预计采取 API 接口的方式计费。 苹果将…

HelpLook AI ChatBot:自定义Prompts综合指南

AI问答机器人(AI Chatbot)日益在各行业普及,但回答准确率的不足仍是其面临的痛点。用户在与AI问答机器人的互动中常发现,机器人难以完全理解和准确回答复杂问题。HelpLook可以通过自定义提示词(Prompts)和集…

基于springboot+vue+Mysql的酒店管理系统

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

Calico配置路由反射器 (RR) 模式

RR介绍 在 Calico 网络中,默认使用 Node-to-Node Mesh 全互联模式,即集群中的每个节点之间都会相互建立 BGP 连接,用于路由交换。然而,随着集群规模的扩大,全互联模式会导致连接数成倍增加,产生性能问题。为…

【爬虫基础】第6讲 opener的使用

在爬虫中,opener是一个用来发送HTTP请求的对象。它可以用来模拟浏览器发送请求,包括设置请求头、处理Cookie等操作。使用opener可以实现一些高级功能,如模拟登录、处理验证码等。 方法1: from urllib.request import Request,bu…

AJAX~

概念:AJAX(Asynchronous JavaScript And XML):异步的JavaScript和XML AJAX作用: 1.与服务器进行数据交换:通过AJAX可以给服务器发送请求,并获取服务器响应的数据 使用了AJAX和服务器进行通信,就可以使用HTMLAJAX来替换JSP页面了 2&#xf…

亮数据——让你的IP走出去,让价值返回来

亮数据——让你的IP走出去,让价值返回来 前言跨境电商最最最大的痛点——让IP走出去超级代理服务器加速网络免费的代理管理软件亮数据解决痛点亮数据优势介绍亮数据浏览器的使用示例总结 前言 当前社会信息的价值是不可想象的,今天在亮数据中看到了个【…

element表格 加滚动,监听底部实现分页加载

表格要实现滚动很简单,给他加一个高度即可 height"300" 然后是监听事件 mounted() {this.lazyLoading();}, methods:{lazyLoading(){let dom document.querySelector(".el-table__body-wrapper");dom.addEventListener("scroll", (…

java之jvm调优实战

我们今天是讲java虚拟机,我们刚学java的时候写过hellowWorld 我们通过javaC指令把java 文件编译成字节码文件(class) 最终通过我们jvm 将class文件运行在 windows和linux平台上 我们也都知道java 语言有个跨平台,对我们java程序来说我们写的一份Java代码…

发掘非结构化数据价值:AI 在文档理解领域的现状与未来

编者按: 在当今这个由数据主导的时代,我们被海量多样的信息所环绕,但大部分数据都以非结构化的形式存在,诸如文档、电子邮件、合同等,这使得从中提取有价值的信息成为一大挑战。 幸运的是,AI 领域正在悄然孕…

负荷频率控制LFC,自抗扰ADRC控制,麻雀SSA算法优化自抗扰参数,两区域二次调频simulink/matlab

红色曲线为优化结果,蓝色曲线为没有自抗扰和没有优化的结果!

JWT认证原理

简介: JSON Web Token (JWT) is an open standard (RFC 7519) that defines a compact and self-contained way for securely transmitting information between parties as a JSON object. This information can be verified and trusted because it is digitally …

用户下单、订单支付

一、用户下单 1.1 需求分析和设计 1.2 代码开发 1.2.1 Controller层 import com.sky.dto.OrdersSubmitDTO; import com.sky.result.Result; import com.sky.service.OrderService; import com.sky.vo.OrderSubmitVO; import io.swagger.annotations.Api; import io.swagger.a…

友商健康巡检分析

1、腾讯云 健康检查的参考资料:​​cloud.tencent.com​​ 检查的项目(参数说明) 检查类别 检查项 检查内容 资源状态 kube-apiserver 的状态 检测组件是否正在运行,如果组件以 Pod 形式运行,则检测其24小时内是…

《系统架构设计师教程(第2版)》第7章-系统架构设计基础知识-05-特定领域软件体系结构(DSSA)

文章目录 1. DSSA的定义1.1 概述1.2 DSSA 的必备特征如下 2. DSSA的基本活动2.1 领域分析2.2 领域设计2.3 领域实现 3. 参与DSSA的人员3.1 领域专家3.2 领域分析人员3.3 领域设计人员3.4 领域实现人员 4. DSSA的建立过程4.1 定义领域范围4.2 定义领域特定的元素4.3 定义领域特定…

[密码学] 密码学基础

目录 一 为什么要加密? 二 常见的密码算法 三 密钥 四 密码学常识 五 密码信息威胁 六 凯撒密码 一 为什么要加密? 在互联网的通信中,数据是通过很多计算机或者通信设备相互转发,才能够到达目的地,所以在这个转发的过程中,如果通信包…

安静:内向性格的竞争力 - 三余书屋 3ysw.net

精读文稿 这期我们介绍的这本书叫做《安静》,副标题是《内向性格的竞争力》。本书共有267页,我会用大约25分钟的时间为你讲述书中的精髓。内向性格具备什么样的竞争力?内向性格的人在人际交往和日常生活中似乎总是吃亏,因为他们不…