MobileVIT原理详解篇

news2025/7/16 0:42:10

🍊作者简介：秃头小苏，致力于用最通俗的语言描述问题

🍊专栏推荐：深度学习网络原理与实战

🍊近期目标：写好专栏的每一篇文章

🍊支持小苏：点赞👍🏼、收藏⭐、留言📩

MobileVIT原理详解篇

写在前面

Hello，大家好，我是小苏🧒🏽🧒🏽🧒🏽

在之前，我已经为大家介绍过各种基础的深度神经网络，像AlexNet、VGG、ResNet等等，也为大家介绍过一些轻量级的网络，如ShuffleNet系列、MobileNet系列等等，当然也做过一系列Transformer的教学，感兴趣的可以去我主页搜搜看喔。🍵🍵🍵

今天将为大家介绍一种新的网络结构——MobileVIT。🍄🍄🍄在具体介绍MobileVIT之前呢，我还是希望大家去阅读一些先验知识，链接如下：

CV攻城狮入门VIT(vision transformer)——近年超火的Transformer你再不了解就晚了！ 🍁🍁🍁
CV攻城狮入门VIT(vision transformer)之旅——VIT原理详解篇 🍁🍁🍁
CV攻城狮入门VIT(vision transformer)之旅——VIT代码实战篇🍁🍁🍁
详细且通俗讲解轻量级神经网络——MobileNets【V1、V2、V3】🍁🍁🍁

如果你理解了上面四篇文章的话，那么其实MobileVIT对你来说会是很好理解的。当然如果你对Transformer感兴趣的话，可以再看看下面的两篇博客：

Swin Transformer原理详解篇🍀🍀🍀
Swin Transformer代码实战篇🍀🍀🍀

MobileVIT的优势

在介绍MobileVIT的网络结构之前，我们先来聊聊为什么使用MobileVIT，即MobileVIT有什么优势？其实呢，在我看来，为什么使用MobileVIT，就是希望减少Transformer模型庞大的模型参数和较慢的推理速度，希望能将其部署在移动端。那么在论文中也有说到MobileVIT的优势，让我们一起来看看叭。

更好的性能：在给定的参数预算下，与现有的轻量化cnn相比，MobileViT模型在不同的移动视觉任务中获得了更好的性能。
更好的泛化能力：泛化能力是指训练和评价指标之间的差距。对于两个具有类似训练指标的模型，具有更好的评估指标的模型更具有通用性，因为它可以更好地预测不可见的数据集。。之前的ViT变体(带卷积和不带卷积)与CNN相比，即使有广泛的数据增强，其泛化能力也很差，MobileViT显示出更好的泛化能力。如下图所示，MobileViT显示了与cnn类似的泛化能力。

更好的鲁棒性：一个好的模型应该对超参数具有鲁棒性，因为调优这些超参数会消耗时间和资源。与大多数基于ViT的模型不同，MobileViT模型使用基本增强训练，对L2正则化不太敏感。

MobileVIT网络结构

论文中先是帮我们回顾了VIT的结构，如下图所示：

你或与会发现这个图和我介绍VIT的原理时介绍的有些许差别，但是它们表达的含义都是一样的。首先会将图片划分成一个个patch，然后通过linear层将其转换成Token的形式，接着会加上位置编码并通过一系列Transformer结构，最后通过Linear层得到最终的输出。你对比一下上图和VIT中的结构，你会发现基本一致，主要是这里少加了Class token。

上文回顾了一下VIT，下面就让我们直接来看一看MobileVIT的整体结构叭~~~🌵🌵🌵如下图所示：

在这里插入图片描述

这个图画的非常简洁明了，我觉得大家可能存在疑惑的地方应该只有两个地方，第一个是这个MV2和MV2 ↓2是什么结构?另一个就MobileViT block是什么结构？下面就让我们一个一个来看叭🌽🌽🌽

MV2、MV2 ↓2结构

这个结构其实就是MobileNetv2中的Inverted Residuals结构，不熟悉的点击☞☞☞了解详情。🌼🌼🌼这里我再简单帮大家回忆一下，Inverted Residuals的结构大致如下，即1x1卷积升维->3x3DW卷积->1x1卷积降维。🍚🍚🍚

细心的朋友应该发现了MV2、MV2 ↓2有两个结构，这个Inverted Residuals就一个结构呀，怎么对应的呀？其实呢，MV2 ↓2表示进行了2倍下采样，MV2、MV2 ↓2的结构分别如下：
MobileViT block结构

MobileViT block结构如下图所示：

我们先来一些看一下上图，首先对于一个 $H \times W \times C$ 的特征图X，首先经过一个Local representations层，其由一个 $n \times n$ 的卷积和一个 $1 \times 1$ 的卷积构成， $1 \times 1$ 的卷积用来调整通道数，经过Local representations层后得到特征图尺寸为 $H \times W \times d$ 。跟在Local representations层后面的是Transformers as Convolution层，这一层是一个Unfold->Transformer->Fold结构，也是MobileVIT的重中之重，我们后面再详细为大家介绍，现在你只要知道经过这个Transformers as Convolution层后特征图的尺寸没有发生变换，仍然是 $H \times W \times d$ 。之后会通过 $1 \times 1$ 的卷积将特征图通道数调整为 $C$ ，即特征图尺寸变换成 $H \times W \times C$ 。最后会通过shortcut分支和原始特征图进行拼接，并通过一个 $n \times n$ 的卷积得到最后的输出特征图。🍋🍋🍋

相信你已经知道了MobileViT block的大体结构，但是对于Transformers as Convolution层还是一头雾水，下面就让我带领大家一起来看看这一部分。🍗🍗🍗

这一部分分为三个结构，Unfold、Transformer以及Fold。先来说说Unfold和fold的操作叭。其实呀，这两个操作只是对数据的shape做了一些改变，让其符合Self-Attention结构的输入。那它们是怎么进行reshape的呢，如下图所示：

图片来源于B站霹雳吧啦Wz

我想这里你应该会有疑问，这里为什么分patch操作，并弄不同的颜色表示呢？其实这就和后面的Transformer有关了。这里的Transformer结构相较与我之前介绍的有所改变，它会先对特征图进行patch划分，如下图划分patch大小为 $2 \times 2$ ，即每个Patch由4个像素构成。在进行Transformer的时候，图中的相同颜色的小色块会进行Attention，而不同颜色的则不会进行Attention操作，这样会减少计算量。🍦🍦🍦

很多人可能都会问为什么要这么做，以及这么做的原因是什么。我给出霹雳吧啦Wz的看法，我认为是很有道理的：对于图像数据本身就存在大量的数据冗余，比如对于较浅层的特征图（H, W下采样倍率较低时），相邻像素间信息可能没有太大差异，如果每个Token做Attention的时候都要去看下相邻的这些像素，个人感觉有些浪费算力。这里并不是说看相邻的像素没有意义，只是说在分辨率较高的特征图上收益可能很低，增加的计算成本远大于Accuracy上的收益。而且前面已经通过nxn的卷积层进行局部建模了，进行全局建模时就没必要再看这么细了。🍍🍍🍍