EfficientViT: 高效视觉transformer与级联组注意力

news2025/1/9 0:08:26

文章目录

  • 摘要
  • 1、简介
  • 2、用视觉transformer加速
    • 2.1. 内存效率
    • 2.2. 计算效率
    • 2.3. 参数效率
  • 3、高效视觉Transformer
    • 3.1、EfficientViT的构建块
    • 3.2、EfficientViT网络架构
  • 4、实验
    • 4.1、实现细节
    • 4.2、ImageNet上的结果
    • 4.3、迁移学习结果
    • 4.4、 消融实验
  • 5、相关工作
  • 6、结论

摘要

2305.07027.pdf (arxiv.org)

由于视觉transformers具有高度的模型能力,因此它们在视觉任务上取得了巨大的成功。然而,这种出色的性能同时也伴随着沉重的计算成本,使得它们不适合用于实时应用。在这篇文章中,我们提出了一种名为EfficientViT的高效transformers系列。我们发现,现有transformer模型的运行速度通常受到内存效率低下的操作的限制,特别是多头自注意力机制(MHSA)中的张量重塑和逐元素函数。因此,本文设计了一种新的夹层布局的构建块,即在高效的FFN层之间使用单一的内存bound MHSA,在提高内存效率的同时增强了信道通信。此外,我们还发现,不同的注意力头产生的注意力图之间具有很高的相似性,这导致了计算冗余。为了解决这个问题,我们提出了一种级联组注意力模块,它以不同的方式将全部特征分割并输入到注意力头中,这不仅节省了计算成本,而且提高了注意力的多样性。全面的实验结果表明,EfficientViT比现有的高效模型表现得更出色,在速度和精度之间达到了良好的平衡。例如,我们的EfficientViT-M5在准确率上超过了MobileNetV3-Large 1.9%,同时在Nvidia V100 GPU和Intel Xeon CPU上的吞吐量分别提高了40.4%和45.2%。与最近的的高效模型MobileViT-XXS相比,EfficientViT-M2在准确率上提高了1.8%,同时在GPU / CPU上的运行速度提高了5.8×/3.7×,并且在转换为ONNX格式时速度提高了7.4×。相关的代码和模型可以在https://github.com/microsoft/Cream/tree/main/EfficientViT获取。

1、简介

由于视觉transformers(ViTs)具有高度的模型能力和出色的性能表现,它们在计算机视觉领域中引起了极大的热潮[18, 44, 69]。然而,不断提高的准确率是以模型尺寸增加和计算开销增大为代价的。例如,SwinV2使用了3.0B个参数,而V-MoE使用了14.7B个参数,在ImageNet上达到了当前最佳的性能表现[17]。如此大的模型尺寸以及伴随而来的沉重的计算成本使得这些模型不适合具有实时要求的应用场景[40, 78, 86]。

最近有一些工作设计了轻量级和高效的视觉transformer模型[9,19,29,49,50,56,79,81]。然而,这些方法中的大多数旨在减少模型参数或浮点运算次数(Flops),它们是衡量速度的间接指标,并不能反映模型的的实际推理吞吐量。例如,MobileViT-XS [50]使用700M Flops,在Nvidia V100 GPU上比使用1,220M Flops的DeiT-T [69]慢很多。尽管这些方法已经通过更少的Flops或参数取得了良好的性能,但与标准的同构或层次转换器(例如DeiT [69]和Swin [44])相比,它们中的许多并没有显示出明显的时钟速度优势,并且并没有得到广泛应用。

为了解决这个问题,在本文中,我们探索如何让视觉transformer更快,旨在找到设计高效的transformer架构的原理。基于流行的视觉transformers DeiT [69]和Swin [44],我们系统地分析了影响模型推理速度的三个主要因素,包括内存访问、计算冗余和参数使用。特别是,我们发现transformer模型的运行速度通常受到内存限制。换句话说,内存访问延迟阻碍了GPU/CPU计算能力的充分利用[21, 32, 72],对transformer的运行时间产生了极为负面的影响[15, 31]。最内存效率低下的操作是多头自注意力(MHSA)中的频繁张量重塑和逐元素函数。我们观察到,通过适当调整MHSA层和前馈网络(FFN)层之间的比率,可以显著减少内存访问时间,同时不损害性能。此外,我们发现一些注意力头倾向于学习相似的线性投影,导致注意力图中的冗余。分析表明,通过向它们提供不同的特征来显式地分解每个头的计算,可以缓解这个问题,同时提高计算效率。此外,现有轻量级模型往往忽略了不同模块中的参数分配,因为它们主要遵循标准transformer模型[44,69]的配置。为了提高参数效率,我们使用结构化剪枝[45]来识别最重要的网络组件,并总结了模型加速的参数重新分配的经验指南。

根据分析和研究结果,我们提出了一系列名为EfficientViT的内存高效transformer模型。具体而言,我们设计了一个具有夹心布局的新块来构建模型。夹心布局块在FFN层之间应用单一的内存受限MHSA层。这减少了MHSA中内存受限操作引起的时间成本,并应用了更多的FFN层,以允许不同通道之间的通信,从而更具内存效率。然后,我们提出了一个新的级联组关注(CGA)模块来提高计算效率。核心思想是增强输入到注意力头的特征的多样性。与先前使用相同特征的所有头部的自注意力相比,CGA将不同的输入分割馈送到每个头部,并将输出特征级联到头部。这个模块不仅减少了多头注意力中的计算冗余,还通过增加网络深度提高了模型容量。最后但同样重要的是,我们通过扩展关键网络组件(如值投影)的通道宽度,同时缩小FFN中的隐藏维度等不太重要的组件,来重新分配参数。这个重新分配最终提高了模型参数的效率。

在这里插入图片描述

实验证明,我们的模型在速度和准确性方面均明显优于现有的高效CNN和ViT模型,如图1所示。例如,我们的EfficientViT-M5在Nvidia V100 GPU上以每秒10,621张图像的吞吐量获得了77.1%的ImageNet top-1准确性,在Intel Xeon E5-2690 v4 CPU @ 2.60GHz上则为每秒56.8张图像,准确性优于MobileNetV3-Large [26] 1.9%,GPU推理速度提高了40.4%,CPU速度提高了45.2%。此外,EfficientViT-M2获得了70.8%的准确性,超越了MobileViT-XXS [50] 1.8%,在GPU/CPU上运行速度分别提高了5.8倍和3.7倍,并在转换为ONNX [3]格式时提高了7.4倍。当部署到移动芯片上,例如iPhone 11中的Apple A13 Bionic芯片上,EfficientViT-M2模型比MobileViT-XXS [50]在CoreML [1]上运行快2.3倍。

总结一下,这项工作的贡献有两个方面:

  1. 我们对影响视觉transformer推理速度的因素进行了系统分析,并得出了一组有效模型设计准则。
  2. 我们设计了一系列新的视觉transformer模型,它们在效率和准确性之间取得了良好的平衡。这些模型还在多种下游任务上展现出良好的迁移能力。

2、用视觉transformer加速

在这一节中,我们从三个角度探讨如何提高视觉transformer的效率:内存访问、计算冗余和参数使用。我们试图通过经验研究来确定潜在的速度瓶颈,并总结有用的设计准则。

2.1. 内存效率

内存访问开销是影响模型速度的关键因素[15,28,31,65]。在transformer中有许多运算操作[71],如频繁的重塑、逐元素相加和归一化,这些操作在内存上效率低下,需要耗费时间进行跨不同内存单元的访问,如图2所示。尽管已经提出了一些方法来解决这个问题,例如简化标准softmax自注意力计算的稀疏注意力[34, 57, 61, 75]和低秩逼近[11,51,74],但它们通常会以准确性下降和加速有限的代价为代价。
在这里插入图片描述

在这项工作中,我们通过减少内存效率低下的层来降低内存访问成本。最近的研究发现,内存效率低下的操作主要位于MHSA层,而不是FFN层[31, 33]。然而,大多数现有的ViT模型[18, 44, 69]在这两种层中使用了相等数量的操作,这可能无法实现最佳效率。因此,我们探索了在具有快速推理的小型模型中MHSA层和FFN层的最佳分配。具体来说,我们将Swin-T [44]和DeiT-T [69]缩小到具有1.25×和1.5×更高推理吞吐量的几个小型子网络中,并比较具有不同比例MHSA层的子网络的性能。如图3所示,具有20%-40% MHSA层的子网络往往具有更好的准确性。这种比例远小于采用50% MHSA层的典型ViT模型。此外,我们测量了内存绑定操作的时间消耗,以比较内存访问效率,包括重塑、逐元素相加、复制和归一化。在具有20% MHSA层的Swin-T-1.25×中,内存绑定操作占总运行时间的44.26%。这一观察也适用于DeiT和具有1.5×加速的较小模型。这表明,适当减少MHSA层的利用率可以提高内存效率,同时提高模型性能。

在这里插入图片描述

2.2. 计算效率

MHSA将输入序列嵌入到多个子空间(头部)中,并分别计算注意力图,已被证明在提高性能方面是有效的[18, 69, 71]。然而,注意力图的计算成本很高,研究表明其中许多并不是至关重要的[52, 73]。为了节省计算成本,我们探索了如何在小型ViT模型中减少冗余的注意力。我们训练了宽度缩小的Swin-T [44]和DeiT-T [69]模型,具有1.25×的推理速度提升,并测量了每个头部与每个块内其余头部的最大余弦相似度。从图4中,我们观察到在注意力头之间存在高度相似性,特别是在最后的块中。这一现象表明,许多头部学习了相似的完整特征的投影,并引起了计算冗余。为了明确地鼓励头部学习不同的模式,我们采用了一种直观的方法,即只将每个头部馈送给完整特征的一个分割,这类似于[10, 87]中的组卷积的思想。我们训练了带有修改后的MHSA的缩小模型的变种,并在图4中计算了注意力相似性。结果表明,在不同的头上使用不同的特征通道分割,而不是像MHSA那样在所有头上使用相同的完整特征,可以有效地减少注意力计算冗余。

在这里插入图片描述

2.3. 参数效率

典型的ViT主要继承了自NLP变换器[71]的设计策略,例如,在Q、K、V投影中使用等宽度,逐渐增加头部数量,并在FFN中将扩展比设置为4。对于轻量级模型,这些组件的配置需要经过精心重新设计[7, 8, 39]。受[45, 82]的启发,我们采用了Taylor结构剪枝[53]来自动找到Swin-T和DeiT-T中的重要组件,并探索参数分配的基本原则。剪枝方法在一定资源限制下移除不重要的通道,保留最关键的通道以最大程度地保持准确性。它使用梯度和权重的乘积作为通道重要性,这近似表示了在移除通道时的损失波动[38]。

图5中绘制了剩余输出通道与输入通道之间的比率,同时也给出了未剪枝模型中的原始比率作为参考。可以观察到:1)前两个阶段保留了更多的维度,而最后一个阶段保留的维度要少得多;2)Q、K和FFN的维度被大幅剪裁,而V的维度几乎保持不变,只是在最后几个块中才有所减少。这些现象表明,1)典型的通道配置,即每个阶段加倍通道[44]或对所有块使用等效通道[69],可能会在最后几个块中产生大量的冗余;2)当Q、K与V具有相同维度时,Q、K的冗余要比V大得多,V更倾向于具有相对较大的通道,接近输入嵌入维度。

3、高效视觉Transformer

根据上述分析,在本节中,我们提出了一种名为EfficientViT的分层模型,该模型具有快速推断能力。其体系结构概述如图6所示。
在这里插入图片描述

3.1、EfficientViT的构建块

我们提出了一种新的视觉transformer的高效构建块,如图6(b)所示。它由一个内存高效的夹层布局、一个级联组注意力模块和一个参数重新分配策略组成,分别关注于从内存、计算和参数方面提高模型的效率。

夹心布局。为构建一个内存高效的块,我们提出了一种夹心布局,它使用了更少的内存受限的自注意层和更具内存效率的FFN层进行通道通信。具体而言,它应用一个自注意层 $\Phi_{i}^{\mathrm{A}} $用于空间混合,位于FFN层 Φ i F \Phi_{i}^{\mathrm{F}} ΦiF之间。计算可以表达为:
X i + 1 = ∏ N Φ i F ( Φ i A ( ∏ N Φ i F ( X i ) ) ) , (1) X_{i+1}=\prod^{\mathcal{N}} \Phi_{i}^{\mathrm{F}}\left(\Phi_{i}^{\mathrm{A}}\left(\prod^{\mathcal{N}} \Phi_{i}^{\mathrm{F}}\left(X_{i}\right)\right)\right), \tag{1} Xi+1=NΦiF(ΦiA(NΦiF(Xi))),(1)

其中 X i X_{i} Xi是第 i 个块的完整输入特征。在单个自注意层之前和之后,该块通过 N \mathcal{N} N 个FFN将 X i X_{i} Xi转化为 X i + 1 X_{i+1} Xi+1。这种设计降低了模型中自注意层引起的内存时间消耗,并应用了更多的FFN层,以有效实现不同特征通道之间的通信。我们还在每个FFN之前应用了一个额外的token交互层,使用深度卷积(DWConv)[27]。它引入了局部结构信息的归纳偏差,以增强模型的能力[14]。

级联组注意力。在MHSA中,注意力头冗余是一个严重的问题,导致计算效率低下。受到高效CNNs中组卷积的启发[10, 37, 64, 87],我们提出了一种新的视觉变换器注意力模块,称为级联组注意力(CGA)。它将每个头部与完整特征的不同分割连接起来,因此明确地将注意力计算分解到各个头部。形式上,这个注意力可以表示为:
X ~ i j = Attn ⁡ ( X i j W i j Q , X i j W i j K , X i j W i j V ) X ~ i + 1 = Concat ⁡ [ X ~ i j ] j = 1 : h W i P (2) \begin{aligned} \widetilde{X}_{i j} & =\operatorname{Attn}\left(X_{i j} W_{i j}^{\mathrm{Q}}, X_{i j} W_{i j}^{\mathrm{K}}, X_{i j} W_{i j}^{\mathrm{V}}\right) \\ \widetilde{X}_{i+1} & =\operatorname{Concat}\left[\widetilde{X}_{i j}\right]_{j=1: h} W_{i}^{\mathrm{P}} \end{aligned} \tag{2} X ijX i+1=Attn(XijWijQ,XijWijK,XijWijV)=Concat[X ij]j=1:hWiP(2)
其中,第 j 个头部计算了对输入特征分割 X i j X_{i j} Xij 的自注意力,即 X i = [ X i 1 , X i 2 , … , X i h ] X_{i}= \left[X_{i 1}, X_{i 2}, \ldots, X_{i h}\right] Xi=[Xi1,Xi2,,Xih],其中 1 ≤ j ≤ h 1 ≤ j ≤ h 1jh。这里 h 是头部的总数, W i j Q , W i j K 和 W i j V W_{i j}^{\mathrm{Q}}, W_{i j}^{\mathrm{K}} 和 W_{i j}^{\mathrm{V}} WijQ,WijKWijV 是将输入特征分割映射到不同子空间的投影层, W i P W_{i}^{\mathrm{P}} WiP 是一个线性层,将连接的输出特征投影回与输入一致的维度。

尽管对于每个头部使用特征分割而不是完整特征更加高效并减少了计算开销,但我们仍然通过鼓励 Q、K、V 层学习富信息特征的投影来提高其容量。我们以级联方式计算每个头部的注意力图,如图6(c)所示,它将每个头部的输出添加到后续头部,逐渐改进特征表示:
X i j ′ = X i j + X ~ i ( j − 1 ) , 1 < j ≤ h , (3) X_{i j}^{\prime}=X_{i j}+\tilde{X}_{i(j-1)}, \quad 1<j \leq h, \tag{3} Xij=Xij+X~i(j1),1<jh,(3)
其中, X i j ′ X_{i j}^{\prime} Xij 是第 j 个输入分割 X i j X_{i j} Xij 和由公式 (2) 计算的第 (j-1) 个头部输出 X ~ i ( j − 1 ) \widetilde{X}_{i(j-1)} X i(j1)相加。在计算自注意力时,它替代了 X i j X_{i j} Xij作为第 j 个头部的新输入特征。此外,在 Q 投影之后应用了另一个token交互层,它使自注意力能够联合捕获局部和全局关系,进一步增强了特征表示。

这种级联设计具有两个优势。首先,将不同特征分割馈送到每个头部可以提高注意力图的多样性,正如在第2.2节中验证的那样。类似于组卷积[10, 87],级联组关注可以通过 h× 减少QKV层中的输入和输出通道,从而节省Flops和参数。其次,级联注意力头允许增加网络深度,进一步提高模型容量,而不引入任何额外的参数。它只会引入较小的延迟开销,因为每个头部中的注意力图计算使用较小的QK通道维度。

参数重新分配。为了提高参数的效率,我们通过扩展关键模块的通道宽度,同时缩小不重要的模块,来重新分配网络中的参数。具体来说,基于第2.3节中的Taylor重要性分析,我们为所有阶段中的每个头部的Q和K投影设置了较小的通道维度。对于V投影,我们允许它具有与输入嵌入相同的维度。由于参数冗余,FFN中的扩展比也从4减小到2。采用提出的重新分配策略,重要模块具有更多的通道来学习高维空间中的表示,从而防止特征信息的丢失。同时,不重要模块中的冗余参数被移除,以加速推理并增强模型的效率。

3.2、EfficientViT网络架构

EfficientViT网络架构如图6(a)所示。具体来说,我们引入了重叠的图像块嵌入[20, 80],将16×16的图像块嵌入到具有C1维度的标记中,从而增强了模型在低级别视觉表示学习方面的能力。该架构包括三个阶段。每个阶段堆叠了提出的EfficientViT构建块,每个子采样层(分辨率的2倍子采样)将标记数量减少了4倍。为了实现高效的子采样,我们提出了一个EfficientViT子采样块,它也具有夹心布局,不同之处在于自注意力层被一个反向残差块所替代,以减少子采样过程中的信息丢失[26, 63]。值得注意的是,我们在整个模型中采用BatchNorm(BN)[30]而不是LayerNorm(LN)[2],因为BN可以折叠到前面的卷积或线性层中,这在运行时优于LN。我们还使用ReLU [54]作为激活函数,因为通常使用的GELU [25]或HardSwish [26]速度较慢,有时在某些推理部署平台上得不到很好的支持[1, 3]。

我们构建了一个包含六种不同宽度和深度比例的模型系列,并为每个阶段设置了不同数量的头部。与MobileNetV3 [26]和LeViT [20]类似,我们在早期阶段使用较少的块,而在后期阶段使用较多的块,因为在较大分辨率的早期阶段进行处理更加耗时。我们逐渐增加阶段的宽度,采用小因子 ( ≤ 2 ) (\leq 2) (2)来减轻后期阶段的冗余,如第2.3节所分析。我们的模型系列的架构细节如表1所示。 C i C_{i} Ci L i L_{i} Li H i H_{i} Hi分别表示第 i阶段的宽度、深度和头数。
在这里插入图片描述

4、实验

4.1、实现细节

在ImageNet-1K[17]上进行图像分类实验。模型使用PyTorch 1.11.0[59]和Timm 0.5.4[77]构建,并使用AdamW[46]优化器和余弦学习率调度器在8块Nvidia V100 gpu上从头训练300次。我们将总batchsize设置为2048。输入的图像被调整大小并随机裁剪成224×224。初始学习率为1×10−3,权重衰减为2.5×10−2。我们使用与[69]相同的数据增强,包括Mixup[85]、自动增强[13]和随机擦除[88]。此外,我们还提供了在不同硬件上的吞吐量评估。对于GPU,我们在Nvidia V100上测量吞吐量,内存中的最大批处理大小为2的幂次[20,69]。对于CPU和ONNX,我们在Intel Xeon E5-2690 v4 @ 2.60 GHz处理器上测量运行时,batchsize为16,并在[20]之后的单线程中运行模型。还测试了EfficientViT在下游任务上的可迁移性。对于下游图像分类的实验,我们使用批量大小256、学习率1×10−3和权重衰减1×10−8的AdamW[46]对模型进行了300 epoch的微调[86]。在COCO[42]上使用RetinaNet[41]进行目标检测,在mmdetection[6]上使用与[44]相同的设置对模型进行12个epoch (1× schedule)的训练。例如分割,请参阅补充说明。

4.2、ImageNet上的结果

在ImageNet[17]上将EfficientViT与流行的高效CNN和ViT模型进行了比较,结果见表2和图1。结果表明,在大多数情况下,EfficientViT在不同的评估设置中实现了最佳的精度和速度权衡。

在这里插入图片描述

与高效CNN模型的比较。首先,我们将EfficientViT与普通的CNN模型进行比较,如MobileNets [26, 63]和EfficientNet [67]。具体来说,与MobileNetV2 1.0× [63]相比,EfficientViT-M3在V100 GPU上运行速度提高了2.5倍,在Intel CPU上提高了3.0倍,同时获得了1.4%更高的top-1准确性。与最先进的MobileNetV3-Large [26]相比,EfficientViT-M5获得了更高的准确性,例如,在V100 GPU上快了40.5%,在Intel CPU上快了45.2%,但在ONNX模型上慢了11.5%。这可能是因为ONNX实现中的重塑操作较慢,而在计算自注意力时不可避免。此外,EfficientViT-M5在V100 GPU/Intel CPU上以及ONNX模型上都比EfficientNet-B0 [67]获得了可比的准确性,但速度分别快了2.3倍/1.9倍和2.1倍。尽管我们的模型使用了更多的参数,但它减少了影响推理速度的内存效率低下的操作,并实现了更高的吞吐量。

与高效的ViTs的比较。我们还将我们的模型与最近的高效视觉transformer[5, 9, 50, 51, 56]进行比较,如表2所示。特别是,当在ImageNet-1K [17]上获得类似的性能时,我们的EfficientViT-M4在经过测试的CPU和GPU设备上分别比最近的EdgeViT-XXS [56]快了4.4倍和3.0倍。即使转换为ONNX运行格式,我们的模型仍然获得了3.7倍的更高速度。与最先进的MobileViTV2-0.5 [51]相比,我们的EfficientViT-M2在具有更高吞吐量的情况下实现了略微更好的性能,例如,在GPU和CPU设备上测试时,吞吐量分别提高了3.4倍和3.5倍。此外,我们还与最先进的大型ViTs的微小变种进行了比较,如表3所示。PoolFormer-12S [83]在准确性上与EfficientViT-M5相当,但在V100 GPU上运行速度较慢,慢了3.0倍。与Swin-T [44]相比,EfficientViT-M5的准确性稍逊,但在Intel CPU上快了12.3倍,展示了所提出设计的效率。此外,我们在附录材料中提供了关于移动芯片上的速度评估和比较。

在这里插入图片描述

在更高分辨率上进行微调。最近关于ViTs的研究表明,使用更高分辨率进行微调可以进一步提高模型的容量。我们也将我们最大的模型EfficientViT-M5微调到更高分辨率。EfficientViT-M5↑384在V100 GPU上的吞吐量为3,986张图像/秒,达到了79.8%的top-1准确性,而EfficientViT-M5↑512将top-1准确性进一步提高到80.8%,展示了在处理更高分辨率图像时的效率和良好的模型容量。

4.3、迁移学习结果

为了进一步评估迁移能力,将EfficientViT应用于各种下游任务。

下游图像分类。将EfficientViT迁移到下游图像分类数据集,以测试其泛化能力:1)CIFAR-10和CIFAR100 [36];2)细粒度分类:Flowers [55], Stanford Cars [35], Oxford-IIIT Pets[58]。我们将结果报告在表4中。与现有的高效模型[18,26,27,63,89]相比,EfficientViT-M5在所有数据集上都实现了相当或略高的精度,具有更高的吞吐量。汽车是个例外,我们的模型在精度上稍差一些。这可能是因为类之间的细微差异更多地存在于局部细节中,因此更容易用卷积捕获。

物体检测。在COCO[42]物体检测任务上,我们将EfficientViT-M4与高效模型[12,22,26,63,66,68]进行了比较,结果见表5。具体来说,EfficientViT-M4比MobileNetV2[63]高出4.4% AP,但同样失败。与搜索的SPOS[22]方法相比,EfficientViT-M4使用的Flops减少了18.1%,同时实现了2.0%的AP提高,展示了其在不同视觉任务中的能力和泛化能力。

4.4、 消融实验

在本节中,我们消融了ImageNet-1K[17]上提出的EfficientViT中的重要设计元素。所有模型都进行了100次训练,以放大差异并减少训练时间[20]。表6给出了结果。

在这里插入图片描述

夹心布局块的影响。首先,我们进行了一个剔除研究,以验证所提出的夹心布局设计的效率,将夹心布局块替换为原始的Swin块 [44]。为了进行公平比较,深度调整为{2, 2, 3},以保证与EfficientViTM4具有类似的吞吐量。在类似的速度下,top-1准确性下降了3.0%,验证了相对于内存受限的MHSA,应用更多的FFN对于小型模型更有效。此外,为了分析自注意力之前和之后的FFN数量N的影响,我们将数量从1增加到2和3。相应地减少块的数量以保持类似的吞吐量。如表6所示(#3和#4),进一步增加FFN的数量并不有效,因为缺乏长距离的空间关系,N =1获得了最佳的效率。

级联组注意力的影响。我们已经提出了CGA来提高MHSA的计算效率。如表6所示(#5和#6),将CGA替换为MHSA会降低准确性1.1%和ONNX速度5.9%,表明解决头部冗余有助于提高模型的效率。对于没有级联操作的模型,其性能与MHSA相当但差于CGA,证明了增强每个头部的特征表示的有效性。

参数重新分配的影响。我们的EfficientViTM4的top-1准确性比没有进行QKV通道维度重新分配或FFN比例降低的模型分别提高了1.4%/1.5%,GPU吞吐量提高了4.9%/3.8%,表明参数重新分配的有效性(#1与#7、#8相比)。此外,我们研究了每个头部的QK维度和V维度与输入嵌入之间的比例选择,如图7所示。结果显示,随着QK维度从4增加到16,性能逐渐提高,但进一步增加它会导致性能下降。此外,当将V维度与输入嵌入之间的比例从0.4增加到1.0时,性能从70.3%提高到71.3%。当进一步增加比率到1.2时,只有0.1%的改善。因此,将V的通道设置为接近输入嵌入的最佳参数效率,这符合我们在第2.3节中的分析和设计策略。

在这里插入图片描述

其他组件的影响。我们消除了使用DWConv进行token交互、规范化层和激活函数的影响,如表6所示(#9、#10和#11)。使用DWConv时,准确率提高了1.4%,延迟开销较小,证明了引入局部结构信息的有效性。用LN替换BN会使精度降低0.9%,GPU速度降低2.9%。使用HardSwish代替ReLU将准确率提高0.9%,但会导致nx速度大幅下降20.0%。激活函数是元素级操作,在GPU/CPU上占用了大量的处理时间[15,48,72],因此使用ReLU代替更复杂的激活函数具有更好的效率。
在这里插入图片描述

1000次训练和蒸馏的结果。表7显示了在ImageNet-1K[17]和ImageNet-ReaL[4]上的[20]之后,使用RegNetY-16GF[60]作为教师模型进行1000次训练和知识蒸馏的结果。与levit128s[20]相比,EfficientViT-M4在ImageNet-1K和ImageNetReaL上分别超过了0.5%和1.0%。在推理速度方面,该模型在ONNX上的吞吐量提高了34.2%,在其他场景下也表现出了优越性。结果表明,EfficientViT强大的性能和泛化能力可以在更长的训练计划下进一步发掘。

5、相关工作

高效CNN。随着在资源受限的场景中部署CNN的需求,高效CNN已经在文献中进行了深入研究 [23, 24, 26, 48, 63, 67, 87]。Xception [10]提出了一个由深度可分离卷积构建的架构。MobileNetV2 [63]构建了一个倒转的残差结构,将输入扩展到更高的维度。MobileNetV3 [26]和EfficientNet [67]采用神经架构搜索技术来设计紧凑型模型。为了在硬件上提高实际速度,ShuffleNetV2 [48]引入了通道分离和洗牌操作,以改善通道组之间的信息传递。然而,卷积核的空间局部性阻碍了CNN模型捕捉长距离依赖关系,从而限制了它们的模型容量。

高效的ViTs。ViT及其变体[18, 44, 69, 76]在各种视觉任务上取得了成功。尽管性能优越,但它们中的大多数在推理速度上不如典型的CNN。最近提出了一些高效的变换器,它们分为两个阵营:1)高效的自注意力;和2)高效的架构设计。高效的自注意方法通过稀疏注意[34, 57, 61, 75]或低秩逼近[11, 51, 74]来减少softmax注意的成本。然而,它们在与softmax注意[71]相比的推理加速上性能下降不大或适度。另一方面的工作将ViTs与轻量级CNN结合起来构建高效的架构[9, 47, 49, 50, 81]。LVT [81]提出了增强的注意机制,采用扩张卷积来改善模型性能和效率。Mobile-Former [9]设计了一个并行的CNN-transformer块,用于编码局部特征和全局交互。然而,它们中的大多数旨在最小化Flops和参数[16],这些参数可能与实际推理延迟[70]的相关性较低,并且在速度方面仍然不如高效的CNN。与它们不同,我们通过直接优化不同硬件和部署设置上的吞吐量来探索具有快速推理的模型,并设计了一系列层次模型,速度和准确性之间取得了良好的折衷。

6、结论

在本文中,我们对影响视觉transformer推理速度的因素进行了系统分析,并提出了一种新的快速视觉transformer家族,具有内存高效操作和级联组注意力,名为EfficientViT。大量实验证明了EfficientViT的有效性和高速性,还展示了它在各种下游基准测试中的优越性。

局限性。EfficientViT的一个局限性是,尽管其推理速度很快,但由于引入了额外的FFNs,与最先进的高效CNN [26]相比,模型大小略大。此外,我们的模型是根据构建高效视觉transformer的指导原则手动设计的。在未来的工作中,我们有兴趣减小模型大小,并采用自动搜索技术来进一步提高模型的容量和效率。

致谢。Yuan教授部分得到了香港研究资助局(RGC)的支持,项目编号为11211221,以及创新及科技署-创新及科技基金的支持,项目编号为ITS/100/20。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1068294.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

手机投屏电脑软件AirServer5.6.3.0最新免费版本下载

随着智能手机的普及&#xff0c;越来越多的人喜欢用手机观看视频、玩游戏、办公等。但是&#xff0c;有时候手机屏幕太小&#xff0c;不够清晰&#xff0c;也不方便操作。这时候&#xff0c;如果能把手机屏幕投射到电脑上&#xff0c;就可以享受更大的视野&#xff0c;更流畅的…

【C++设计模式之命令模式:行为型】分析及示例

简介 命令模式是一种行为型设计模式&#xff0c;它将请求封装成一个对象&#xff0c;从而使不同的请求可以被参数化、队列化或记录化。这种模式允许请求的发送者和接收者进行解耦&#xff0c;同时提供更高的灵活性和可扩展性。 描述 命令模式的核心思想是通过命令对象来封装…

WIN11右键菜单更改为WIN7风格

1.按键盘上的 Win R 组合键&#xff0c;打开运行&#xff0c;输入 regedit 命令&#xff0c;按确定或回车&#xff0c;打开注册表编辑器&#xff1b; 2.注册表编辑器窗口中&#xff0c;依次展开到以下路径&#xff1a; HKEY_CURRENT_USER\Software\Classes\CLSID\ 3.左侧定位…

ICE综述

ICE综述 ICE(Internet Communications Engine)是ZeroC提供的一款高性能的中间件&#xff0c;基于ICE可以实现电信级的解决方案。在设计网站架构的时候可以使用ICE实现对网站应用的基础对象操作&#xff0c;将基础对象操作和数据库操作封装在这一层&#xff0c;在业务逻辑层以及…

notepad++ 如何去除换行

选中下方的“扩展” “查找目标”输入&#xff1a;\r\n&#xff0c;替换为:空白 最后全部替换。

钡铼DLT645和IEC104转Modbus协议网关BL120DT:构建智能电力网的关键角色

在电力行业中&#xff0c;DLT645和IEC104转Modbus协议网关已成为重要的通信工具&#xff0c;用于将电力设备的数据和状态信息转换为Modbus协议&#xff0c;以便于远程监控和管理。以下是关于钡铼DLT645和IEC104转Modbus协议网关BL120DT在电力行业应用的案例介绍。 某电力公司需…

记一次地市hw从供应商-目标站-百万信息泄露

起因&#xff1a;某市hw、给了某医院的资产&#xff0c;根据前期进行的信息收集就开始打&#xff0c;奈何目标单位资产太少&#xff0c;唯有一个IP资产稍微多一点点&#xff0c;登录框就两个&#xff0c;屡次尝试弱口令、未授权等均失败。 事件型-通用性-反编译jar-Naocs-后台-…

node-red opc-ua节点操作

node-red opc-ua节点操作 一、使用OPC UA客户端工具Softing OPC Client读写OPC节点数据二、 NodeRed通过OPC UA读取数据并写入mysql三、NodeRed订阅opcua数据&#xff0c;并通过mqtt发布 一、使用OPC UA客户端工具Softing OPC Client读写OPC节点数据 使用OPC UA客户端工具Soft…

超级扫描-专业、快速、安全的二维码和条形码工

官网下载地址&#xff1a; 安果移动 视频介绍&#xff1a;超级扫描-专业、快速、安全的二维码和条形码工具_哔哩哔哩_bilibili 在今天的数字化时代&#xff0c;无论您身处哪里&#xff0c;二维码和条形码无处不在。从商店的货架到在线广告&#xff0c;从名片到活动海报 &…

长江存储YMTC 232L QLC量产,低调上架

有粉丝朋友提醒小编&#xff0c;反馈长江存储232L QLC已经量产&#xff0c;并已经开始售卖了。小编一搜&#xff0c;还真是&#xff0c;“当季新品”。 技术规格信息显示&#xff0c;来自长江存储原厂QLC颗粒。 评论区有用户反馈确认是232层的QLC SSD。 但是&#xff0c;有个奇…

Delphi编程:pagecontrol组件的tab字体变大

1、将pagecontrol组件属性中的font的字体变成四号。 2、将tabsheet1属性中的font的字体设置成八号。 结果如下&#xff1a;

Excel插件:StatPlus Pro 7.7.0 Crack

Windows 版 StatPlus 借助 StatPlus&#xff0c;人们可以获得一套强大的统计工具和图形分析方法&#xff0c;可以通过简单直观的界面轻松访问。StatPlus 的可能应用范围几乎是无限的 - 社会学、金融分析、生物统计学、经济学、保险业、医疗保健和临床研究 - 仅举几个该程序已被…

8、Docker数据卷与数据卷容器

一、数据卷(Data Volumes) 为了很好的实现数据保存和数据共享&#xff0c;Docker提出了Volume这个概念&#xff0c;简单的说就是绕过默认的联合文件系统&#xff0c;而以正常的文件或者目录的形式存在于宿主机上。又被称作数据卷。 数据卷 是一个可供一个或多个容器使用的特殊目…

分分钟搞定MAC丝滑切换node版本,升级node

需求描述 在日常工作中&#xff0c;我们经常会遇到不同项目的依赖需要不同的node版本来运行&#xff0c;这个时候就需要切换node版本啦~~ 如何切换 用node.js的多版本管理器 n 来解决问题 查看node所有版本 npm view node versions 查看当前node版本 node -v安装n模块: …

氟化钡镜片

氟化钡晶体具有良好的光学透过性能&#xff0c;在0.15μm-14.5μm的光谱范围内&#xff0c;可以用作紫外和红外光学窗口。同时&#xff0c;又具有优良的闪烁性能&#xff0c;成为高能物理与核物理、核医学等领域中重要的晶体材料。 特此记录 anlog 2023年10月7日

SpringBoot解决LocalDateTime返回数据为数组问题

现象&#xff1a; 在SpringBoot项目中&#xff0c;接口返回的数据出现LocalDateTime对象被转换成了数组 原因分析&#xff1a; 默认序列化情况下会使用SerializationFeature.WRITE_DATES_AS_TIMESTAMPS。使用这个解析时就会打印出数组。 解决方法&#xff1a; 在配置类中…

什么是原型链(prototype chain)?如何实现继承?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 欢迎来到前端入门之旅&#xff01;感兴趣的可以订阅本专栏哦&#xff01;这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

Windows 10 也能安装Kafka?这篇教程让你轻松掌握!

&#x1f389;&#x1f389;欢迎来到我的CSDN主页&#xff01;&#x1f389;&#x1f389; &#x1f3c5;我是尘缘&#xff0c;一个在CSDN分享笔记的博主。&#x1f4da;&#x1f4da; &#x1f449;点击这里&#xff0c;就可以查看我的主页啦&#xff01;&#x1f447;&#x…

英特尔® NUC迷你电脑设置带电自启

连接电源后英特尔 NUC迷你电脑可以自动启动吗&#xff1f; (intel.cn) 想死的风还是吹到了公司 | &#x1f468;‍✈️喂&#xff0c;劳动仲裁吗&#xff1f;这里有人强迫猫咪打工&#xff01;&#x1f63f;

苹果ios系统几种开发者账号区别是什么?注册条件和作用以及内部测试人数哪里不一样?怎么选择开发者账号?

苹果ios系统几种开发者账号区别是什么&#xff1f;注册条件和作用以及内部测试人数哪里不一样&#xff1f;怎么选择开发者账号&#xff1f; 苹果有几种开发者账号区别是什么&#xff1f;&#xff1f;注册条件和作用以及内部测试人数哪里不一样&#xff1f;作为开发者我要怎么选…