论文连接:https://arxiv.org/abs/2010.11929
GitHub·:https://github.com/google-research/vision_transformer
摘要
虽然Transformer架构已成为自然语言处理任务的实际标准,但其在计算机视觉中的应用仍然有限。在计算机视觉中,注意力机制要么与卷积网络结合使用,要么在保持卷积网络整体结构不变的情况下,用于替换卷积网络的某些组件。我们证明了对卷积神经网络(CNN)的这种依赖是不必要的,直接应用于图像块序列的纯Transformer在图像分类任务中可以表现得非常好。当在大量数据上进行预训练并迁移到多个中型或小型图像识别基准(如ImageNet、CIFAR-100、VTAB等)时,与最先进的卷积网络相比,视觉Transformer(Vision Transformer,ViT)取得了出色的结果,同时所需的训练计算资源大大减少。
1 引言
基于自注意力机制的架构,特别是Transformer(Vaswani等,2017