Multiscale Vision Transformers

news2025/7/5 18:48:46

1、引言

论文链接：https://arxiv.org/abs/2104.11227

Haoqi Fan[1] 等通过在 ViT[2] 中引入多尺度特征层次结构，提出了一种用于视频和图像识别的 Multiscale Vision Transformers(MViT)[1]。在视频识别任务中，它优于依赖大规模外部预训练的视觉 Transformers，并且在计算和参数量方面减少了 5-10 倍[1]。在图像分类任务中其性能优于之前的视觉 Transformers。

2、模型结构

2.1 整体结构

图1 MViT-B整体结构

接下来以 MViT-B 为例来介绍该模型的结构。如图 1 所示，首先由 Patch Partition(cube1) 模块对输入视频进行分块和 reshape；然后通过 Position Encodeing 模块拼接 CLS 并进行时空类别位置嵌入；后续的 scale 2、3、4 和 5 使用 Multi Head Pooling Attention (MHPA)[1] 逐步下采样时空分辨率，同时在 MLP 层中增加通道维度，每个阶段由 n 个 Transformer[3] 块 (MultiscaleBlock)组成，且只在 scale 2、3、4 阶段的最后一块中增加通道维度，在 scale 3、4、5 阶段的第一块中下采样时空分辨率，scale 2 中 MHPA 的头数 h=1(嵌入维度 d 较小)，后面阶段的 h 均是前一阶段的 2 倍。

2.2 data layer

[1] 中的 data layer 是指对原始视频进行抽帧并将抽帧结果转换为 tensor，以得到 shape 为 (3,t,h,w) 的输入样本，其中 t 为输入视频片段的帧数、h 为视频帧的高度、w 为视频帧的宽度。

2.3 Patch Partition

这个模块在 [1] 中被称为 “cube1”， Patch Partition 和 ViT 的类似，只是这里的 patch_size 和嵌入维度较小，且采用重叠的 patch 划分方式，即划分卷积的 stride 比 patch_size 小。

2.4 Position Encoding

这个模块用于拼接 CLS 并进行时空类别位置嵌入，同一帧的所有 token 共享一个空间位置嵌入，相同空间位置的所有 token 共享一个时间位置嵌入，空间位置嵌入和时间位置嵌入相加得到时空位置嵌入，再与类别位置嵌入拼接即得到时空类别位置嵌入。

2.5 MultiscaleBlock

n 个 MultiscaleBlock 构成一个 scale 阶段，每个 MultiscaleBlock 依次由一个具有残差结构的MHPA 和一个具有残差结构的 MLP 组成，并引入了随机深度。

2.5.1 Pool

Pool 的作用是下采样时空分辨率，核心是 3d pool 操作，CLS 不参与 pool ，故需先取出 CLS，然后将剩下部分 reshape为 shape = (D,T,H,W) 的 tensor，其中 D、T、H、W 依次为输入的嵌入维度、帧数、高度和宽度。pool 后将 shape 形式恢复并拼接上 CLS。

2.5.2 MHPA

图2 Pooling Attention

这里的 Pooling Attention 具有残差结构，本质上就是点乘缩放注意力机制[3]，如图 2 所示。只是 q、k、v 在 Linear 层后要先经过 Pool。如上所述，MViT 只在 scale 3、4、5 阶段的第一块中下采样时空分辨率，故只在这些块中真正地对 q 执行 Pool，stride = (1,2,2)，若对 q 执行了 Pool，分支中也应使用相应的 Pool。scale 2 中 k 和 v 的 Pool 的 stride = (1,8,8)，为了使 k, v 张量在所有块中都具有一致的尺度，后面阶段中 k 和 v 的 Pool 的空间 stride 的每个元素都是前一阶段的一半。

使用 h 个头来并行化计算，其中每个头都在 D 维输入张量 X 的 D/h 通道的非重叠子集上执行 Pooling Attention，即 MHPA。

2.5.3 MLP

这里使用的 MLP 与 ViT 的类似，如上所述，MViT 需要在 scale 2、3、4 阶段的最后一块中增加通道维度，故在这些块中 MLP 的输出维度为输入维度的两倍，且分支中也应使用一个 Linear 层。

3、总结

[1] 中将多尺度特征层次结构的基本概念与 Transformer 模型结合从而提出 MViT，MViT 分阶段地降低视觉分辨率的同时扩展了特征复杂性。在视频和图像识别方面的实验评估中，MViT 表现得明显比单尺度视觉 Transformer 优秀。

参考文献

[1] Haoqi Fan, Bo Xiong, Karttikeya Mangalam , Yanghao Li, Zhicheng Yan , Jitendra Malik, and Christoph Feichtenhofer. Multiscale vision transformers. In ICCV, 2021.

[2] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2021.

[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, 2017.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1617381.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！