EfficientVMamba:Atrous Selective Scan for LightWeightVisualMamba

摘要

https://arxiv.org/pdf/2403.09977.pdf

先前的轻量级模型开发努力主要集中在基于CNN和Transformer的设计上，但仍面临持续的挑战。CNN擅长局部特征提取，但会牺牲分辨率，而Transformer提供了全局范围，但会加剧计算需求 $\mathcal{O}(N^{2})$ 。这种持续存在的准确性和效率之间的权衡仍然是一个重大障碍。最近，状态空间模型（SSM），如Mamba，已在语言建模和计算机视觉等各种任务中显示出出色的性能和竞争力，同时将全局信息提取的时间复杂度降低到 $\mathcal{O}(N)$ 。受此启发，这项工作旨在探索视觉状态空间模型在轻量级模型设计中的潜力，并引入一种新颖的高效模型变体，称为EfficientVMamba。具体来说，我们的EfficientVMamba通过有效的跳跃采样集成了基于空洞的选择性扫描方法，构成了旨在利用全局和局部表示特征的基本构建块。此外，我们还研究了SSM块和卷积之间的集成，并引入了一个与额外卷积分支相结合的高效视觉状态空间块，这进一步提升了模型性能。实验结果表明，EfficientVMamba在降低计算复杂度的同时，在各种视觉任务中取得了具有竞争力的结果。例如，我们的EfficientVMamba-S在1.3G FLOPs下，相比于1.5G FLOPs的VimTi，在ImageNet上的准确率大幅提高了 $5.6\%$ 。代码可在https://github.com/TerryPei/EfficientVMamba获取。

关键词：轻量级架构；高效网络；状态空间模型

1、引言

卷积网络，以ResNet[14]、Inception[38, 39]和EfficientNet[41]等模型为代表，以及基于Transformer的网络，如SwinTransformer[25]、Beit[1]和Resformer[59]，已被广泛应用于图像分类、检测和分割等视觉任务，并取得了显著成果。最近，Mamba[7]作为一种基于状态空间模型（SSMs）[9-11, 20, 31]的网络，在序列建模任务（如语言建模）中表现出了与Transformers[47]相当的竞争性能。受此启发，一些工作[22, 24, 33, 55, 61]开始率先将SSMs引入视觉任务中。在这些方法中，Vmamba[24]通过引入SS2D方法，通过从多个方向扫描图像来保留2D空间依赖性，从而脱颖而出。

然而，这些不同架构所取得的令人印象深刻的性能通常来自于模型规模的扩大，这使得在资源受限的设备上应用它们成为一个关键的挑战。为了追求轻量级模型，已经进行了许多研究，以减少视觉模型的资源消耗，同时保持竞争性的性能。早期关于高效CNN的研究主要集中在通过有效的组卷积[4, 15, 34]、轻量级跳跃连接[12, 27]等方式来缩小原始的卷积块。而最近，由于将Transformer的全局表示能力成功引入到视觉任务中，一些工作提出了减少ViT[17, 25, 46, 49]的计算复杂度，并在轻量级模型中融合ViT与CNN[19, 28, 46]。然而，ViT的轻量化通常是以牺牲自注意力中的全局捕获能力为代价的。由于全局自注意力的时间复杂度为 $\mathcal{O}(N)$ ，其计算和内存成本在高分辨率下会急剧增加。因此，现有的高效ViT方法不得不在划分的窗口内进行局部自注意力操作[17, 25, 46]，或者仅在分辨率较低的更深阶段进行全局自注意力操作[19, 28]。这种令人尴尬的权衡和ViT向CNN的回退阻碍了进一步提高轻量级模型性能的能力。
在这里插入图片描述

在本文中，我们回顾了先前提到的SSM中的线性缩放复杂度，并受到启发，通过将SSM纳入模型设计，在轻量级视觉模型中获得高效的全局捕获能力。其出色的性能如图1所示。我们通过首先引入跳跃采样机制来实现这一点，该机制减少了在空间维度中需要扫描的令牌数量，同时保持了令牌之间的全局感受野，从而节省了SSM序列建模中的多次计算成本，如图2所示。另一方面，我们认识到，在只需要局部表示的情况下，卷积提供了一种更有效的特征提取方式，因此我们补充了一个卷积分支到原始的全局SSM分支中，并通过通道注意力模块SE[16]对它们进行特征融合。最后，为了各种块类型的最佳能力分配，我们在浅层和高分辨率层中使用全局SSM块，而在更深层中采用高效的卷积块（如MobileNetV2块[34]）。通过我们在图像分类、目标检测和语义分割任务上的实验，最终的网络实现了高效的SSM计算和卷积的高效集成，与之前的基于CNN和ViT的轻量级模型相比，取得了显著的改进。
在这里插入图片描述

总结来说，本文的贡献如下：

我们提出了一种基于空洞的选择性扫描策略，该策略通过新颖的空间域的跳跃采样和重新分组补丁实现。该策略细化了构建块，以在降低计算复杂度（从 $\mathcal{O}(N)$ 降至 $\mathcal{O}\left(N / p^{2}\right)$ ，其中 $p$ 是步长）的同时有效提取全局依赖。
我们引入了一个双路径模块，该模块结合了我们的高效全局特征捕获扫描策略和用于高效局部特征提取的卷积分支，以及一个通道注意力模块，以平衡全局和局部特征的融合。此外，我们提出了SSM和CNN块的更优分配方案，通过在早期高分辨率阶段采用SSM以更好地捕获全局信息，而在低分辨率阶段采用CNN以提高效率。
我们在图像分类、目标检测和语义分割任务上进行了广泛实验。图1中展示的结果和说明表明，我们的EfficientVMamba模型在有效降低模型浮点运算次数（FLOPs）的同时，与现有的轻量级模型相比实现了显著的性能提升。

2、相关工作

2.1、轻量级视觉模型

近年来，视觉任务领域主要由卷积神经网络（CNNs）和视觉转换器（ViT）架构主导。为了使这些架构更加轻量级以提高效率，已成为研究中的一个实用且充满希望的方向。对于CNNs，已经取得了显著进展，提高了图像分类的准确性，这体现在如ResNet [14]、RegNet [35]和DenseNet [18]等具有影响力的架构的发展上。这些进展不仅设定了新的准确性基准，也引发了对轻量级架构的需求[51,52]。这种需求已通过各种基于分解的方法得到满足，使CNNs更适合移动设备。例如，Xception引入的可分离卷积在这方面发挥了重要作用，促成了如MobileNets [15]、ShuffleNetv2 [27]、ESPNetv2 [29]、MixConv [42]、MNASNet [40]和GhostNets [13]等最先进的轻量级CNN的发展。这些模型不仅功能多样，而且相对更容易训练。

继CNNs之后，Transformer在各种视觉任务（如图像分类、目标检测和自动驾驶）中获得了广泛关注，并迅速成为主流方法。Transformer的轻量级版本已通过多种方法实现。在训练方面，采用了复杂的数据增强策略和技术，如Mixup [60]、CutMix [58]和RandAugment [6]，这在如CaiT [45]和DeiTIII [44]等模型中得到了体现，这些模型展示了出色的性能，且无需大型专有数据集。从架构设计角度来看，研究工作主要集中在优化自注意力输入的分辨率以及设计计算成本更低的注意力机制。例如，PVT-v1 [49] 通过模仿 CNN 的特征图金字塔结构实现创新；Swin-T [25] 和 LightViT [17] 则采用层次化的特征图和移位窗口机制；而 Deformable DETR [62] 中引入的（多尺度）可变形注意力模块也是这一领域的重要进展。此外，还有针对 ViTs 的神经网络架构搜索（NAS）方法 [37]。这些创新不仅提高了模型的性能，同时也降低了计算复杂度，使得轻量级视觉模型在实际应用中更加高效和实用。

2.2、状态空间模型

状态空间模型（SSM）是一种包含序列到序列转换的架构族，具有处理具有长依赖关系的标记的潜力，但由于其高计算量和内存使用，训练起来颇具挑战。然而，最近的工作[7-9,11,36]使得深度状态空间模型在与CNN和Transformer的竞争中逐渐展现出竞争力。特别是，S4 [9]通过利用Woodbury矩阵求逆恒等式，采用正规加低秩（NPLR）表示法来高效地计算卷积核。随后，Mamba [7]通过特定于输入的参数化和可扩展、硬件优化的算法增强了SSM，实现了更简单的设计以及在处理语言和基因组学中的长序列时的卓越效率。继SSM的成功之后，将该框架应用于计算机视觉任务的趋势也在激增。S4ND [30]首次将SSM块引入视觉任务，通过连续信号的方式，促进了在1D、2D和3D视觉数据上的建模。Vmamba [24]开创了一种基于Mamba的视觉骨干网络，采用跨扫描模块解决了1D序列与多通道图像之间的差异导致的方向敏感性问题。同样地，Vim [61]通过利用双向状态空间建模，为视觉任务引入了一种高效的状态空间模型，以捕获数据依赖的全局视觉上下文，同时避免特定于图像的偏差。Mamba骨干网络在各种视觉任务中的出色性能激发了一波研究热潮[2,22,33,33,48]，这些研究专注于将基于Mamba的模型适应于特定的视觉应用。最近的工作，如Vm-unet [33]、U-Mamba [22]和SegMamba [55]，已将基于Mamba的骨干网络适应于医学图像分割，集成了独特的功能，如Vm-unet中的U形架构、U-Mamba中的编码器-解码器框架以及SegMamba中的整体体积特征建模。在图的表示学习领域，GraphMamba [48] 将图引导的消息传递（GMB）与消息传递神经网络（MPNN）集成到Graph GPS架构中，这增强了图嵌入的训练和上下文过滤能力。此外，GMNs [2] 提出了一个全面的框架，该框架涵盖了标记化、可选的位置或结构编码、局部编码、标记的序列化，并利用一系列双向Mamba层来处理图数据。这一框架为图的表示学习提供了新的视角，并有望在多个图相关的任务中取得优异性能。通过整合这些技术，GraphMamba和GMNs等模型为图数据的处理和分析提供了强大的工具，进一步推动了图表示学习领域的发展。

3、预备知识

3.1、状态空间模型（S4）

状态空间模型（SSMs）是深度学习中使用的一类通用序列模型，它们受到能够以连续方式映射一维序列的系统的影响。这些模型通过利用不可直接观测的可学习潜在状态 $\in \mathbb{R}^{N \times D}$ ，将输入 $D$ 维序列 $\in \mathbb{R}^{L \times D}$ 转换为输出序列 $\in \mathbb{R}^{L \times D}$ 。映射过程可以表示为：

$\begin{aligned} h^{\prime}(t) & = \boldsymbol{A} h(t) + \boldsymbol{B} x(t), \\ y(t) & = \boldsymbol{C} h(t), \end{aligned}$

其中， $\boldsymbol{A} \in \mathbb{R}^{N \times N}$ ， $\boldsymbol{B} \in \mathbb{R}^{D \times N}$ ，和 $\boldsymbol{C} \in \mathbb{R}^{D \times N}$ 。

离散化。离散化的目的是将连续的微分方程转换为离散函数，使模型与输入信号的采样频率对齐，以实现更高效的计算[10]。根据[11]的工作，连续参数 $(\boldsymbol{A}, \boldsymbol{B})$ 可以通过零阶保持规则在给定的样本时间尺度 $\Delta \in \mathbb{R}^{D}$ 下进行离散化：

$\begin{array}{l} \overline{\boldsymbol{A}}=e^{\Delta \boldsymbol{A}}, \\ \overline{\boldsymbol{B}}=\left(e^{\Delta \boldsymbol{A}}-\boldsymbol{I}\right) \boldsymbol{A}^{-1} \boldsymbol{B}, \\ \overline{\boldsymbol{C}}=\boldsymbol{C}, \\ \overline{\boldsymbol{B}} \approx(\Delta \boldsymbol{A})(\Delta \boldsymbol{A})^{-1} \boldsymbol{A} \boldsymbol{B}=\Delta \boldsymbol{B}, \\ h(t)=\overline{\boldsymbol{A}} h(t-1)+\overline{\boldsymbol{B}} x(t), \\ y(t)=\overline{\boldsymbol{C}} h(t), \end{array}$

其中， $\overline{\boldsymbol{A}} \in \mathbb{R}^{N \times N}$ ， $\overline{\boldsymbol{B}} \in \mathbb{R}^{D \times N}$ ，和 $\overline{\boldsymbol{C}} \in \mathbb{R}^{D \times N}$ 。

为了简化计算，可以使用全局卷积方法同时高效地执行方程2的重复应用。

$\begin{aligned} \boldsymbol{y} & =\boldsymbol{x} \circledast \overline{\boldsymbol{K}} \\ \text { with } \overline{\boldsymbol{K}} & =\left(\boldsymbol{C} \overline{\boldsymbol{B}}, \boldsymbol{C} \overline{\boldsymbol{A} B}, \ldots, \boldsymbol{C} \overline{\boldsymbol{A}}^{L-1} \overline{\boldsymbol{B}}\right), \end{aligned}$

其中， $\circledast$ 表示卷积操作， $\overline{\boldsymbol{K}} \in \mathbb{R}^{L}$ 是SSM核。

3.2、选择性状态空间模型（S6）

Mamba[7]通过引入选择性状态空间模型（S6）改进了SSM的性能。S6允许连续参数随输入变化，从而增强了序列间的选择性信息处理。它通过选择机制扩展了离散化过程：

$\begin{aligned} \overline{\boldsymbol{B}} & =s_{\boldsymbol{B}}(x) \\ \overline{\boldsymbol{C}} & =s_{\boldsymbol{C}}(x) \\ \Delta & =\tau_{\boldsymbol{A}}\left(\text { Parameter }+s_{\boldsymbol{A}}(x)\right) \end{aligned}$

其中， $s_{\boldsymbol{B}}(x)$ 和 $s_{\boldsymbol{C}}(x)$ 是将输入 $x$ 投影到 $N$ 维空间的线性函数，而 $s_{\boldsymbol{A}}(x)$ 将 $D$ 维线性投影扩展到必要的维度。对于视觉任务，VMamba提出了二维选择性扫描（SS2D）[24]，它通过扫描四个有向特征序列来保持二维图像结构的完整性。每个序列在S6块内独立处理，然后组合成全面的二维特征图。

4、方法

为了设计对资源受限设备友好的轻量级模型，我们提出了EfficientVMamba，其总体框架如图3所示。在4.1节中，我们介绍了一种高效的选择性扫描方法，以减少计算复杂度；在4.2节中，我们构建了一个同时考虑全局和局部特征提取的模块，融合了SSM和CNN。至于架构设计，4.4节将深入探讨针对不同模型大小定制的多种架构变体。

在这里插入图片描述

4.1、高效二维扫描（ES2D）

在深度神经网络中，通过池化或带步长的卷积进行下采样，可以扩大感受野并降低计算成本；然而，这通常是以牺牲空间分辨率为代价的。先前的工作[46,57]表明，采用空洞卷积策略可以在不牺牲分辨率的情况下扩大感受野。受这一观察的启发，并为了减轻选择性扫描的计算复杂度，我们提出了一种高效二维扫描（ES2D）方法，通过跳过特征图上每个区域的采样来缩小视觉选择性扫描块（SS2D）。

给定输入特征图 $\boldsymbol{X} \in \mathbb{R}^{C \times H \times W}$ ，我们不再对整个区域进行交叉扫描，而是跳过步长为 $p$ 的区域进行扫描，并将选定的空间维度特征划分为 $\{\boldsymbol{O}_{i}\}_{i=1}^{4}$ ：

$\begin{array}{l} \boldsymbol{O}_{i} \stackrel{\text { scan }}{\longleftarrow} \boldsymbol{X}[:, m:: p, n:: p], \\ \left\{\tilde{\boldsymbol{O}}_{i}\right\}_{i=1}^{4} \leftarrow \mathrm{SS} 2 \mathrm{D}\left(\left\{\boldsymbol{O}_{i}\right\}_{i=1}^{4}\right), \\ \boldsymbol{Y}[:, m:: p, n:: p] \stackrel{\text { merge }}{\longleftarrow} \tilde{\boldsymbol{O}}_{i}, \end{array}$

其中， $n)=\left(\left\lfloor\frac{1}{2}+\frac{1}{2} \sin \left(\frac{\pi}{2}(i-2)\right)\right\rfloor,\left\lfloor\frac{1}{2}+\frac{1}{2} \cos \left(\frac{\pi}{2}(i-2)\right)\right\rfloor\right)$ ，

$\boldsymbol{O}_{i}, \tilde{\boldsymbol{O}}_{i} \in \mathbb{R}^{C \times \frac{H}{p} \times \frac{W}{p}}$ ，操作 $[:, m :: p, n :: p]$ 表示在每个通道上切片矩阵，从高度 $H$ 上的 $m$ 位置和宽度 $W$ 上的 $n$ 位置开始，每隔 $p$ 步跳过一个区域。ES2D方法将传统的全扫描方法分解为局部和全局稀疏两种形式。通过对局部感受野进行跳步采样，它选择性地扫描特征图上的较小区域，从而显著降低计算复杂度。具体来说，使用步长 $p$ ，我们在间隔 $p$ 的位置采样大小为 $(C, H / p, W / p)$ 的块。这与SS2D方法不同，后者处理的是大小为 $(C, H, W)$ 的块。通过这种方式，每次扫描和合并操作处理的令牌数量从 $N$ 减少到 $\frac{N}{p^{2}}$ ，从而提高了特征提取的效率。ES2D还涉及全局空间特征图的重新分组。这一步将处理过的块组合起来，以重建特征图的全局结构。这种整合允许捕获更广泛的上下文信息，有效地在特征提取过程中平衡局部细节和全局上下文。因此，我们的设计旨在简化扫描和合并模块，同时保持状态空间架构中全局集成的关键优势，以确保特征提取在空间维度上保持全面。

4.2、高效视觉状态空间块（EVSS）

基于高效选择性扫描方法，我们引入了高效视觉状态空间（EVSS）块。该块旨在协同地合并全局和局部特征表示，同时保持计算效率。它利用经过SqueezeEdit修改的ES2D来捕获全局信息，以及一个专门设计用于提取关键局部特征的卷积分支。这两个分支都经过后续的Squeeze-Excitation（SE）块[16]。ES2D模块通过实现4.1节中提出的智能跳过机制，高效地抽象全局上下文信息。它以步长 $p$ 选择性地扫描特征图，减少了冗余，同时不牺牲全局上下文在所得空间维度特征中的表示质量。与此同时，经验证据表明，卷积操作在特征提取方面提供了更有效的方法，特别是在局部表示足够的情况下。我们添加的卷积分支通过步长为1的 $\times 3$ 卷积专注于识别精细的局部细节。随后的SE块自适应地重新校准特征，使网络能够自动重新平衡特征图上的局部和全局视野。

各自SE块的输出通过逐元素求和的方式结合，以构建EVSS的输出，该双路径可以表示为：

$\boldsymbol{X}^{l+1} = \text{SE}(\text{ES2D}(\boldsymbol{X}^{l})) + \text{SE}(\text{Conv}(\boldsymbol{X}^{l}))$

其中 $\boldsymbol{X}^{l}$ 表示第 $l$ 层的特征图， $\text{SE}(\cdot)$ 是Squeeze-Excitation操作。由于每个路径都使用了SE块，EVSS确保全局和局部信息的各自特征得到动态重新平衡，以强调最显著的特征。这种融合旨在同时保留广阔的全局视角和复杂的局部细节，从而实现全面的特征表示。

4.3、EfficientNet块的逆序插入

众所周知，卷积操作的计算效率通常高于基于全局的块（如Transformer）。先前的轻量级工作主要在前期阶段使用计算高效的卷积来减少特征数量，以降低计算复杂度，然后在后续阶段集成基于全局的块（例如，计算复杂度为 $\mathcal{O}(N^{2})$ 的Transformer）来捕获全局上下文。这种策略允许模型在保持计算效率的同时，逐渐引入全局信息，以优化特征表示。例如，MobileViT[28]在前两个下采样阶段采用纯MobileNetV2块，仅在低分辨率的后续阶段集成自注意力操作。EfficientFormer[19]引入了两种基本块，前三个阶段使用带有局部池化的基于卷积的块，而最后阶段仅利用类似Transformer的自注意力块。这种逆序插入的设计思路，使得模型能够在保持轻量级的同时，有效地融合局部和全局特征，提升模型的性能。

然而，基于Mamba的块的情况与此相反。在SSM框架中，全局表示的计算复杂度为 $\mathcal{O}(N)$ ，这表明将局部表示模块置于阶段的前端或后端都是合理的。通过表6中的经验观察，我们发现将这些局部表示模块放在阶段的较后层能够获得更好的结果。这一发现显著偏离了先前基于CNN和Transformer的轻量级模型的设计原则，因此我们称之为逆序插入。因此，我们设计的 $L$ 阶段架构是EfficientNet块的逆序插入（带有SE模块的MobileNetV2块），在前两个阶段使用EVSS块（4.2节）来捕获全局表示，在后续阶段使用Inverted Residual块 $\text{InRes}(\cdot)$ [34]来提取局部特征图：

$\boldsymbol{X}^{l+1}=\left\{\begin{array}{ll} \text{EVSS}(\boldsymbol{X}^{l}) & \text{ if } \quad \boldsymbol{X}^{l} \in\{\text{stage1, stage 2}\} \\ \text{InRes}(\boldsymbol{X}^{l}) & \text{ otherwise } \end{array}\right.$

其中 $\boldsymbol{X}^{l}$ 是第 $l$ 层的特征图。逆序插入设计直接在瓶颈层之间使用捷径，这在内存使用上更加高效[34]。

4.4、模型变体

为了充分展示我们提出模型的有效性，我们详细设计了基于简单结构的模型变体，如[61]中所述。这些变体被命名为EfficientVMamba-T、EfficientVMamba-S和EfficientVMamba-B，如表1所示，它们对应于模型的不同规模。EfficientVMamba-T是最轻量级的模型，包含6M个参数，其次是EfficientVMamba-S，包含11M个参数，而EfficientVMamba-B是最复杂的模型，包含33M个参数。在计算负载方面，以FLOPs衡量，模型表现出与复杂度和特征大小直接相关的平行增长，EfficientVMamba-T为0.8G，EfficientVMamba-S为1.3G，EfficientVMamba-B为4.0G。
在这里插入图片描述

5、实验

为了严格评估我们不同模型变体的性能，我们在第5.1节中展示了图像分类任务的结果，在第5.2节中调查了目标检测性能，并在第5.3节中探索了图像语义分割。在第5.4节中，我们进一步进行了消融研究，以全面考察空洞选择性扫描的影响、SSM-Conv融合块的影响，以及在模型的不同阶段引入卷积块的影响。

5.1、ImageNet分类

训练策略。我们遵循先前的工作[24, 25, 43, 61]的训练策略，使用AdamW优化器训练模型300个周期，基础批次大小为1024。我们采用余弦退火学习率调度器，初始值为 $10^{-3}$ ，并在前20个周期进行预热。在训练数据增强方面，我们使用了随机裁剪、AutoAugment[5]（采用rand-m9-mstd0.5策略）、每个图像以0.25的概率随机擦除像素，并在每个批次中采用MixUp[60]策略，其比例为0.2。我们还采用了衰减率为0.9999的模型指数移动平均。
在这里插入图片描述

微型模型（ $\in [0,1]$ ）。在追求效率的过程中，微型模型的结果如表2所示。EfficientVMamba-T以76.5%的Top-1准确率达到了最先进性能，与那些需要更高计算成本的同类模型相比具有竞争力。在仅消耗0.8 GFLOPs的适度成本下，我们的模型在准确率上比PVTv2-B0高出6%，比MobileViT-XS高出1.7%，且计算需求更少。

小型模型（ $\in [1,2]$ ）。我们的模型EfficientVMamba-S在准确率方面表现出显著的提升，达到了78.7%的Top-1准确率。这相对于DeiT-Ti和MobileViTS分别实现的72.2%和78.4%准确率有了实质性的提高。值得注意的是，EfficientVMamba-S在保持这种高准确率水平的同时，还实现了计算效率，仅需要1.3 GFLOPs，这与DeiT-Ti相当，并且低于MobileViT-S的2.0 GFLOPs。

基础模型（ $\in [4,5]$ ）。EfficientVMamba-B以令人印象深刻的81.8%的Top-1准确率，在表2的第三组中超越了DeiT-S的准确率2%，并且比Vim-S高出1.5%。这个基础模型证明了将大量参数（33M）与适度的计算需求（4.0 GFLOPs）相结合的可行性。相比之下，具有相似参数数量（22M）的VMamba-T需要更高的5.6 GFLOPs。

5.2、目标检测

训练策略。我们在MSCOCO 2017[21]数据集上评估了EfficientVMamba模型在目标检测任务上的有效性。我们的评估框架依赖于mmdetection库[3]。在与轻量级骨干网络进行比较时，我们遵循PvT[49]使用RetinaNet作为检测器，并采用 $\times$ 训练计划。在与较大骨干网络进行比较时，我们的实验遵循Swin[25]中详细描述的超参数设置。我们使用AdamW优化方法来微调在ImageNet-1K上预训练的网络权重，持续12和36个周期。对于EfficientVMamba-T/S/B变体，我们统一应用0.2%的丢弃路径率。学习率从 $1 e - 5$ 开始，并在第9和第11个周期时降低到十分之一。在训练过程中，我们实施了多尺度训练和随机翻转，批处理大小为16，遵循评估目标检测系统的标准程序。
在这里插入图片描述

结果。我们在表3中总结了RetinaNet检测器的结果。值得注意的是，每个变体在减小尺寸的同时都展现出了性能的提升。EfficientVMamba-T模型以13M的参数数量和37.5%的AP脱颖而出，相比于拥有21.3M参数的ResNet-18，性能略高5.7%。EfficientVMamba-T的性能也超过了PVTv1-Tiny，同时参数数量与之相当。拥有仅19M参数的EfficientVMamba-S实现了令人称赞的39.1%的AP，超过了较大的ResNet50模型，后者尽管拥有37.7M参数，但AP却较低，为36.3%。在更高的层级中，拥有44M参数的EfficientVMamba-B获得了42.8%的AP，显著领先于ResNet101和ResNeXt101-32x4d，即使参数数量较小，也凸显了我们模型的效率。值得注意的是，拥有13M参数的PVTv2-b0实现了37.2%的AP，EfficientVMamba-T的性能与之接近，表明在类似参数预算下具有竞争性的性能。关于Mask R-CNN上与其他骨干网络的比较，请参见附录。
在这里插入图片描述

5.3、语义分割

训练策略。我们遵循Vmamba[24]的设置，将UperHead集成到预训练模型结构中。使用AdamW优化器，学习率初始设置为 $\times 10^{-5}$ 。微调阶段包含160k次迭代，批处理大小为16。标准输入分辨率为 $512 \times 512$ ，我们还进行了 $640 \times 640$ 输入的实验，并应用多尺度（MS）测试以扩大评估范围。

结果。EfficientVMamba-T模型在单尺度（SS）和多尺度（MS）下分别实现了38.9%和39.3%的mIoU，尽管参数远少于ResNet-50，但其mIoU仍达到了42.1%。EfficientVMamba-S在SS和MS下分别取得了41.5%和42.1%的mIoU，尽管计算量较小，但性能仍优于DeiT-S + MLN。EfficientVMamba-B在SS和MS下分别达到了46.5%和47.3%的mIoU，性能超过了较重的VMamba-S。这些发现证明了EfficientVMamba系列在语义分割任务中准确性与计算效率之间的平衡。
在这里插入图片描述

5.4、消融研究

空洞选择性扫描的效果。我们在表5中进行了实验，以验证空洞选择性扫描的有效性。从SS2D升级到ES2D显著降低了计算复杂度，从0.8 GFLOPs降至较低水平，同时保持了具有竞争力的73.6%的准确率，比小型变体提高了1.5%。同样，在基础变体的情况下，使用ES2D的模型不仅将GFLOPs从VMamba-B的4.2降低到4.0，而且准确率也从80.2%提高到80.9%。这些结果表明，在EfficientVMamba模型中引入ES2D是实现通过跳过采样降低计算复杂度的关键因素之一，同时保持全局相对字段以保持具有竞争力的性能。GFLOPs的减少也显示了ES2D在保持甚至提高模型准确性的同时，显著减少计算开销的潜力，这证明了其在资源受限场景中的可行性。

SSM-Conv融合块的效果。在SE块之后集成一个卷积分支增强了模型的性能。对于小型变体，添加局部融合特征提取将准确率从73.6%提高到75.1%。在EfficientVMamba-B的情况下，引入融合机制将准确率从80.9%提高到81.2%。观察到的性能提升表明，额外的卷积分支增强了局部特征提取。通过集成Fusion，模型可能受益于更多样化的特征集，这些特征集捕获了更广泛的空间细节，从而提高了模型的泛化能力，进而提升了准确率。这表明，通过提供输入特征图的更全面和更细致的全局视野，这种分支的战略性添加可以有效地增强模型的性能。
在这里插入图片描述

在不同阶段注入卷积块的比较。在本文中，我们获得了一个有趣的观察结果，即基于SSM的块EVSS在网络早期阶段更为有益。相比之下，以前关于轻量级ViT的研究工作通常在网络早期阶段注入卷积块，并在深层阶段采用Transformer块。如表6所示，我们比较了在EfficientVMamba-T的不同阶段注入卷积块的性能，结果表明，在深层阶段采用Inverted Residual块比早期阶段性能更好。我们轻量级的VSSMs与ViT之间出现相反现象的一个解释是，Transformer中的自注意力具有较高的计算复杂度，因此在高分辨率下的计算效率较低；而SSM是为高效建模长序列而定制的，在高分辨率下全局捕获信息更为高效和有益。

6、结论

本文提出了EfficientVMamba，这是一种轻量级的状态空间网络架构，它巧妙地结合了全局和局部信息提取的优点，解决了模型准确性与计算效率之间的权衡问题。通过结合基于空洞的选择性扫描和高效的跳过采样，EfficientVMamba确保了全面的全局感受野覆盖，同时最小化了计算负载。将这种扫描方法与卷积分支相结合，并通过Squeeze-and-Excitation模块进行优化，可以实现全局和局部特征的稳健再平衡。此外，创新地使用反向残差插入进一步细化了模型的多层阶段，增强了其深度和有效性。实验结果证实，EfficientVMamba不仅将计算复杂度降低到O(N)，而且在各种视觉任务中都表现出具有竞争力的性能。EfficientVMamba的成就突显了其在轻量级、高效且通用的视觉模型发展中的巨大潜力。

附录

Mask R-CNN上与其他主干的比较

我们还调查了EfficientVMamba作为Mask R-CNN框架中的轻量级主干时的性能表现，如表7所示。在Mask R-CNN 1×调度下，我们的EfficientVMamba-T模型具有11M参数和60G FLOPs，实现了35.6%的平均精度（AP）。这比ResNet-18高1.6%，而ResNet-18具有31M参数和207G FLOPs。EfficientVMamba-S具有更多的参数（31M）和197G FLOPs，达到了39.3%的AP，这比具有44M参数和260G FLOPs的ResNet-50模型高出0.5%。我们最大的模型EfficientVMamba-B以53M参数和降低了的计算需求（252G FLOPs）实现了43.7%的优越AP，比VMamba-T高出2.8%。在Mask R-CNN 3× MS调度下，EfficientVMamba-T保持了38.3%的AP，比ResNet-18的性能高出1.4%。小型变体记录了41.5%的AP，这与具有相似参数数量的PVT-T相比有了0.5%的改进。最后，EfficientVMamba-B实现了45.0%的AP，比VMamba-T显著提高了2.2%。

在这里插入图片描述

与MobileNetV2主干的比较

我们比较了不同架构变体，并揭示了基于我们创新块EVSS与特定阶段中反向残差（InRes）块集成的显著性能差异。结果如表8所示，在tiny和base两种变体中，在所有阶段一致使用InRes可以实现良好的性能，特别是base变体达到了81.4%的准确率。当在所有阶段都应用EVSS（即MobileNetV2 [34]的策略）时，我们观察到两种变体的准确率都略有下降，这表明在架构一致性和计算效率之间存在微妙的平衡。我们的融合方法结合了初始阶段中的EVSS和后续阶段中的InRes，将tiny和base变体的准确率分别提升至76.5%和81.8%。这种策略受益于EVSS在早期的效率优势和InRes在高级阶段的卷积能力，从而通过利用两种块类型的优势并限制计算资源来优化网络性能。
在这里插入图片描述

局限性

相对于序列长度具有线性时间复杂度O(N)的视觉状态空间模型（SSMs）在高分辨率下游任务中展现出了显著的改进，这与先前的基于CNN和基于Transformer的模型形成了对比。然而，SSMs的计算设计本质上比卷积和自注意力机制具有更高的计算复杂性，这增加了高效并行处理的难度。对于优化视觉状态空间模型（SSMs）的计算效率和可扩展性，仍具有广阔的研究前景。