Vision Transformers(ViT)在一系列的视觉任务中取得了显著的成功。然而,这些Transformer模型通常依赖大量的计算成本来实现高性能,这使得在资源受限的设备上部署它们变得非常困难。研究者们从深度可分离卷积(depthwise separable convolution)中汲取经验,并模仿其设计理念,设计了一个高效的Transformer主干网络,即Separable Vision Transformer,简称SepViT。
SepViT使用深度可分离自注意力(depthwise separable self-attention)机制来帮助在窗口内部和窗口之间按顺序执行局部-全局的信息交互。这种方法通过两种新的技术来实现:
- 窗口标记嵌入(window token embedding):以可忽略的成本计算窗口之间的注意力关系。
- 分组自注意力(grouped self-attention):在多个窗口之间建立长距离的视觉交互。
1. 引言
ViT将Transformer引入到图像识别任务中。它将整个图像分割成补丁(小块),并将每个补丁作为令牌提供给Transformer。然而,基于补丁的Transformer由于计算效率低下的全注意机制而难以部署。
为了解决这一问题,Swin (Liu et al . 2021)提出了基于窗口的自注意,以限制非重叠子窗口的自注意计算。显然,基于窗口的自关注在很大程度上降低了复杂性,但在窗口之间建立连接的算子移位给 ONNX 或 TensorRT 的部署带来了困难。
ONNX(Open Neural Network Exchange)是一个用于表示深度学习模型的开放格式,它使得模型可以在不同的框架和硬件之间轻松转移。
TensorRT是NVIDIA的一个高性能深度学习推理优化器和运行时,它用于NVIDIA GPU的推理加速。
Twins (Chu et al . 2021a)利用基于窗口的自注意和来自PVT的空间缩减注意(Wang et al . 2021c),提出了空间可分离的自注意。虽然Twins是部署友好的,并且取得了出色的性能,但它的计算复杂度很难降低。CSWin (Dong et al . 2021)通过新颖的十字形窗口自关注显示了最先进的性能,但其吞吐量较低。
为了克服上述问题,提出了一种高效的 Transformer 主干,称为可分离视觉变压器(SepViT),它可以按顺序捕获本地和全局依赖关系。SepViT的一个关键设计元素是其深度可分离的自注意模块。受MobileNets中的深度可分离卷积的启发,重新设计了自注意力模块,并提出了深度可分离自注意力,它由深度自注意(PSA)和点自注意(PSA)组成,分别对应于MobileNets中的深度和点卷积。
深度自注意力用于捕获每个窗口内的局部特征,而点向自注意力用于建立窗口之间的联系,显著提高了表达能力。此外,为了获得局部窗口的全局表示,开发了一种新的窗口令牌嵌入方法,该方法用于计算窗口间的注意关系。此外,还将AlexNet (Krizhevsky, Sutskever, and Hinton 2012)的分组卷积思想扩展到我们的深度可分离自注意中,并提出了分组自注意力,以进一步提高性能。
1.1 主要贡献
设计了一种轻量级而高效的深度可分离自注意,并将其扩展到分组自注意,实现了单个Transformer块中窗口内部和窗口之间的信息交互。
提出了窗口令牌嵌入来学习每个窗口的全局特征表示,用于在计算成本可以忽略的情况下建立窗口之间的注意关系。
提出了一种高效的可分离视觉变压器(SepViT),它在各种视觉任务的性能和延迟之间实现了最先进的权衡。
2. 相关工作
2.1 Vision Transformer
Vision Transformer是在ViT (Dosovitskiy et al . 2020)诞生时首次进入我们的视野,并在分类任务上取得了优异的表现。基于ViT的一系列视觉变压器相继诞生,如DeiT (Touvron et al . 2021)、T2T (Yuan et al . 2021)、TNT (Han et al . 2021)、CPVT (Chu et al . 2021b)等。随后,PVT (Wang et al . 2021c)和Swin (Liu et al . 2021)同步提出了适合于对象检测、语义和实例分割等密集预测任务的分层结构。同时,Swin (Liu et al . 2021)作为先驱提出了基于窗口的自注意力来计算局部窗口内的注意力。不久之后,Twins (Chu et al . 2021a)和CSWin (Dong et al . 2021)相继提出了基于层次结构的空间可分自注意和十字形窗口自注意。
另一方面,一些研究人员将CNN的空间归纳偏差纳入Transformer中。CoaT (Xu et al . 2021)、CVT (Wu et al . 2021)和