摘要

把transformer直接应用于图像块序列，也可以在图像分类任务上表现很好。
通过在大数据集上预训练，然后迁移到中等规模和小规模数据集上，ViT可以取得和SOTA的卷积网络同样出色（甚至更好）的结果，同时需要更少的训练资源。

介绍

1、将标准transformer直接应用于图像，只做最小可能修改

将一幅图像分割成多个图像块，然后将这些图像块的embedding序列作为输入，送到transformer。这里的图像块类似于NLP中的token。

2、在中等规模数据集（如ImageNet）上训练ViT，模型结果会比resnet结构的模型低一点。

和CNN相比，transformer缺乏一些归纳偏置（inductive bias），比如平移不变性和局部性。但是在大规模数据集上，直接从数据中学习，更加有效。

方法

网络结构

图片来源：https://zhuanlan.zhihu.com/p/342261872

输入图像维度为$$H×W×C$$，分割成N个$$P×P$$大小的图像块，N为$$HW/P^2$$，图像块通过线性映射得到D维的向量，D在transformer的所有层中保持不变。

不同层的操作计算过程如下：

公式1是将图像块映射成embedding，这里加了一个可学习的class token $$x_{class}$$（类似BERT），与其他图像块嵌入向量一起输入到 Transformer 编码器中，其在网络最后的输出，作为整个图像的表示y，就是公式4中的结果。Transformer 编码器中的具体过程这里不作展开，可参考https://tech.xiaomi.com/#/pc/article-detail?id=16932。

公式2是multiheaded self-attention的计算过程，公式3是MLP的计算过程。

实际实现过程中，图像块映射成embedding可以通过卷积实现：

# 其中fh，fw是patch的高和宽，让卷积核的大小和stride与patch大小相等
self.patch_embedding = nn.Conv2d(in_channels, dim, kernel_size=(fh, fw), stride=(fh, fw))

另外，网络最后接MLP head的时候，可以只使用class token对应的结果（如公式4中描述），也可以对所有结果进行pooling，然后接MLP head。参考https://github.com/lucidrains/vit-pytorch.git中实现：

    def forward(self, img):
        x = self.to_patch_embedding(img) #图像转成embedding
        b, n, _ = x.shape

        cls_tokens = repeat(self.cls_token, '1 1 d -> b 1 d', b = b)
        x = torch.cat((cls_tokens, x), dim=1) #引入cls_tokens
        x += self.pos_embedding[:, :(n + 1)]  #加入位置embedding
        x = self.dropout(x)

        x = self.transformer(x)
        # 根据设置选择cls_tokens对应的输出或者进行pooling
        x = x.mean(dim = 1) if self.pool == 'mean' else x[:, 0]

        x = self.to_latent(x)
        return self.mlp_head(x)