SepViT: Separable（分离式） Vision Transformer

news2026/1/2 2:44:07

Vision Transformers（ViT）在一系列的视觉任务中取得了显著的成功。然而，这些Transformer模型通常依赖大量的计算成本来实现高性能，这使得在资源受限的设备上部署它们变得非常困难。研究者们从深度可分离卷积（depthwise separable convolution）中汲取经验，并模仿其设计理念，设计了一个高效的Transformer主干网络，即Separable Vision Transformer，简称SepViT。

SepViT使用深度可分离自注意力（depthwise separable self-attention）机制来帮助在窗口内部和窗口之间按顺序执行局部-全局的信息交互。这种方法通过两种新的技术来实现：

窗口标记嵌入（window token embedding）：以可忽略的成本计算窗口之间的注意力关系。
分组自注意力（grouped self-attention）：在多个窗口之间建立长距离的视觉交互。

1. 引言

ViT将Transformer引入到图像识别任务中。它将整个图像分割成补丁（小块），并将每个补丁作为令牌提供给Transformer。然而，基于补丁的Transformer由于计算效率低下的全注意机制而难以部署。

为了解决这一问题，Swin (Liu et al . 2021)提出了基于窗口的自注意，以限制非重叠子窗口的自注意计算。显然，基于窗口的自关注在很大程度上降低了复杂性，但在窗口之间建立连接的算子移位给 ONNX 或 TensorRT 的部署带来了困难。

ONNX（Open Neural Network Exchange）是一个用于表示深度学习模型的开放格式，它使得模型可以在不同的框架和硬件之间轻松转移。

TensorRT是NVIDIA的一个高性能深度学习推理优化器和运行时，它用于NVIDIA GPU的推理加速。

Twins (Chu et al . 2021a)利用基于窗口的自注意和来自PVT的空间缩减注意(Wang et al . 2021c)，提出了空间可分离的自注意。虽然Twins是部署友好的，并且取得了出色的性能，但它的计算复杂度很难降低。CSWin (Dong et al . 2021)通过新颖的十字形窗口自关注显示了最先进的性能，但其吞吐量较低。

为了克服上述问题，提出了一种高效的 Transformer 主干，称为可分离视觉变压器(SepViT)，它可以按顺序捕获本地和全局依赖关系。SepViT的一个关键设计元素是其深度可分离的自注意模块。受MobileNets中的深度可分离卷积的启发，重新设计了自注意力模块，并提出了深度可分离自注意力，它由深度自注意(PSA)和点自注意(PSA)组成，分别对应于MobileNets中的深度和点卷积。

深度自注意力用于捕获每个窗口内的局部特征，而点向自注意力用于建立窗口之间的联系，显著提高了表达能力。此外，为了获得局部窗口的全局表示，开发了一种新的窗口令牌嵌入方法，该方法用于计算窗口间的注意关系。此外，还将AlexNet (Krizhevsky, Sutskever, and Hinton 2012)的分组卷积思想扩展到我们的深度可分离自注意中，并提出了分组自注意力，以进一步提高性能。

1.1 主要贡献

设计了一种轻量级而高效的深度可分离自注意，并将其扩展到分组自注意，实现了单个Transformer块中窗口内部和窗口之间的信息交互。

提出了窗口令牌嵌入来学习每个窗口的全局特征表示，用于在计算成本可以忽略的情况下建立窗口之间的注意关系。

提出了一种高效的可分离视觉变压器(SepViT)，它在各种视觉任务的性能和延迟之间实现了最先进的权衡。

2. 相关工作

2.1 Vision Transformer

Vision Transformer是在ViT (Dosovitskiy et al . 2020)诞生时首次进入我们的视野，并在分类任务上取得了优异的表现。基于ViT的一系列视觉变压器相继诞生，如DeiT (Touvron et al . 2021)、T2T (Yuan et al . 2021)、TNT (Han et al . 2021)、CPVT (Chu et al . 2021b)等。随后，PVT (Wang et al . 2021c)和Swin (Liu et al . 2021)同步提出了适合于对象检测、语义和实例分割等密集预测任务的分层结构。同时，Swin (Liu et al . 2021)作为先驱提出了基于窗口的自注意力来计算局部窗口内的注意力。不久之后，Twins (Chu et al . 2021a)和CSWin (Dong et al . 2021)相继提出了基于层次结构的空间可分自注意和十字形窗口自注意。

另一方面，一些研究人员将CNN的空间归纳偏差纳入Transformer中。CoaT (Xu et al . 2021)、CVT (Wu et al . 2021)和

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1915994.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！