面向图像分类的视觉Transformer

一种面向对象分类的视觉Transformer，即ViT。该模型避免了卷积带来的归纳偏置，弥补了卷积神经网络在超长周期建模的不足。

1、DeiT（data-efficient image transformer）采用了知识蒸馏策略（将大型模型的复杂知识（包括其中的泛化能力和细节知识）传递给小型模型，使得小型模型能够在有限的数据集上达到与大型模型相当的性能），使得视觉Transformer能够学习归纳偏差（机器学习算法在学习过程中出现的不准确和不稳定的情况）；

2、Swin Transformer将自注意力的计算范围限制在不重叠的局部窗口内，并通过移位窗口操作实现局部窗口间的交互。

3、DINO（DETR with imporoved denoising anchor boxes）结合自监督学习和Transformer，使得可学习的特征更具解释性（DETR指的是目标检测算法）

ViT是首个针对图像分类任务提出的纯Transformer的模型，并在超大规模数据集上取得了超越CNN的效果。

ViT的三个模块

嵌入层

嵌入层由图像块嵌入、可学习的嵌入和位置嵌入组成，旨在将输入的三维图像数据转换为Transformer要求输入的一维token序列。

图像块嵌入将输入的二维图像进行切分并转化为Transformer可处理的一维向量，即图像块token。
可学习的嵌入使用一个可学习的类别向量与图像块token通过自注意力层实现对图像特征的信息交互，用于存储学习到的分类向量，即class token。
位置嵌入通过位置编码添加图像块序列的位置信息，以解决Transformer因自注意力机制无法保留图像空间信息的问题。

位置编码与图像块嵌入及可学习嵌入按元素拼接得到一个完整的类别嵌入输入至Transformer编码器中

Transformer编码器

Transformer编码器负责提取输入图像的全局特征，由L（ViT中为12）个相同的层堆叠而成。每个层由多头注意力层和多层感知机两个子层组成。

将类别嵌入向量输入编码器中后，Transformer编码器通过自注意力层实现对图像特征的信息交互或聚合。并将class token送入MLP Head进行分类预测。

MLP Head

其负责最终的多分类任务。以全局特征为输入，通过计算编码器输入的类别嵌入向量与图片标签损失反向约束网络完成分类预测。

传统领域的图像分类任务

表征能力

尽管基于注意力机制的ViT善于捕捉全局特征，但它在特征提取方面仍存在一些挑战。

一方面，ViT在特征提取过程中始终保持图像块token的尺度不变，不具备构建多尺度特征之间交互的能力；

另一方面，ViT将每个图像块视作一个单元token，仅捕捉token间的关联关系，不具备捕捉图像块内部信息的能力。

Transformer采用绝对位置编码无法实现对不同长度的序列的表达不变性。

多尺度表征能力

多尺度特征在CNN中得到了广泛的应用。

通过利用多尺度信息，模型可以有效地融合高分辨率特征和高语义特征，从而实现对不同尺度目标的有效学习。

多尺度是指深度网络中有n个conv_kernel可以将一张图片的维度扩展至长宽n，这就把一个高为1的长方体扩展为一个高为n的长方体，在这里提取的信息就与原图像中提取的信息尺度不同，后面经过不同比例的下采样后，每个比例内获得的信息统称为"多尺度"信息

多尺度嵌入

主要通过对不同尺度的图像 / 特征图进行早融合和晚融合，进而捕捉输入图像的多尺度信息。

早融合方式

通过下采样等一系列的操作，使得模型在嵌入之前就已经获得了多尺度图像信息。

CrossFormer使用单分支网络，首先通过使用不同大小的卷积核对原始图像块进行采样，然后对采样得到的多尺度图像进行投影和拼接等嵌入融合操作，进而得到一个包含多尺度信息的token，然后将其输入到Transformer编码器。

晚融合方式

通过构建多分支网络将图像 / 特征图进行不同尺度的划分，然后将其独立输入到参数互不共享的Transformer编码其中提取不同尺度的特征，最后使用不同的特征融合策略融合各分支的特征。

CrossViT

将输入图像划分为两种不同尺度的图像块序列，构造了双分支Transformer编码器网络分别生成不同尺度的初始特征，最后通过交叉注意力融合模块实现尺度间的特征融合。

MPViT

通过多路径结构对特征图并行使用不同大小卷积核的卷积操作，进而生成相同序列长度的不同尺度的序列。不同尺度的序列通过多条路径并行输入到Transformer编码器中，并使用拼接等特征融合操作聚合所得的特征，从而在同一特征级别实现精细和粗略的特征表示。

现有的多尺度嵌入方式主要通过融合多尺度图像或多尺度特征进而捕捉输入图像的多尺度信息

多尺度注意力机制

在ViT中，图像块token具有固定且相等的感受野，并且模型单层内的注意力机制作用在相同尺度的token上，导致Transformer无法捕获不同尺度的特征。

多尺度注意力机制使注意力在图像 / 特征图的作用范围不同，捕捉从大到小、从全局到局部的特征，最终通过特征融合操作融合各分支的特征。

Cross Former 提出长短距离注意力（ long short distance attention， LSDA ）机制捕捉从大到小、从全局到局部的特征。短距离注意力对特征图在局部范围内（G × G ）提取局部特征，即小尺度特征，建立相邻图像块间的依赖关系；长距离注意力在全局范围内通过固定步长 I 对特征图进行采样，建立较远图像块间的依赖关系，进而获取全局特征，即大尺度特征。CrossFormer 可以同时获取不同尺度的特征，进而提升模型的表征能力。实验证明，该模型在降低计算成本的同时获得了多尺度特征的建模能力，在图像分类任务中取得了具有竞争力的结果。

DW-ViT

DW- ViT （ dynamic window visual transformer ）提出动态多尺度窗口策略来探索窗口设置对模型性能的影响。在 DW-ViT 中，通过将不同大小的窗口分配给窗口多头注意力机制的不同注意力头来获得多尺度信息。然后，通过对多尺度窗口分支赋予不同的权重，实现多尺度信息的动态融合。

VSA

从图像数据中学习自适应窗口配置。基于每个默认窗口内的token，VSA运用窗口回归模块来预测目标窗口的大小和位置。通过对每个注意力头独立采用VSA，构建一个长期依赖模型能够从多种窗口中捕获丰富的上下文信息。

注意力层通过下采样改变注意力图的尺寸

结构融合方法将Transformer和CNN的模块融合为全新的网络结构。HRViT将HRNet和视觉Transformer相结合，通过Transformer与CNN相结合的多分支架构，HRViT可以并行提取多尺度特征并进行多次融合，生成具有丰富语义信息的多分辨率表示，增强了视觉Transformer在学习语义丰富且空间精确的多尺度表示方面的能力。

特征融合方式是在特征级别实现CNN特征和Transformer特征之间的双向桥接来实现融合。采用并行的CNN和Transformer分支，通过CNN分支中池化操作实现特征的多尺度操作。