中文标题:基于多路视觉Transformer的密集预测
提出问题
创新点
- 提出了一种具有多路径结构的多尺度嵌入方法,以同时表示密集预测任务的精细和粗糙特征。
- 全局到局部的特征交互(GLI),以同时利用卷积的局部连通性和转换器的全局上下文。
网络结构
- 建立了一个四阶段的特征层次图来生成不同尺度的特征映射。
- 步骤:
- 第1层:对于输入HxWx3,我们设计了一个由两个3x3,步长为4,输出通道数为 C 2 C_2 C2的卷积。
- 第2-5层:反复叠加MS-PatchEmbed(multi-scale patch embedding)以及MP-Transformer(multi-path Transformer)
Multi-Scale Patch Embedding
- 输入特征
X
i
∈
R
H
i
−
1
×
W
i
−
1
×
C
i
−
1
X_i \in \mathbb{R}^{H_{i-1} \times W_{i-1} \times C_{i-1}}
Xi∈RHi−1×Wi−1×Ci−1, 学习一个
F
k
×
k
(
⋅
)
F_{k\times k}(·)
Fk×k(⋅)将
X
i
X_i
Xi排布成新Tokens
F
k
×
k
∈
R
H
i
×
W
i
×
C
i
F_{k \times k} \in \mathbb{R}^{H_{i} \times W_{i} \times C_{i}}
Fk×k∈RHi×Wi×Ci,它的通道数为
C
i
C_i
Ci。F的构型为一个大小
k
×
k
k \times k
k×k,步长s,padding为p的卷积。
- 通过改变 k × k k \times k k×k的大叫改变Patch的尺寸。卷积补丁嵌入层使我们能够通过改变stride和padding来调整标记的序列长度(输出尺寸)。
- 接着我们得到 F 3 × 3 , F 5 × 5 , F 7 × 7 F_{3\times 3}, F_{5\times 5},F_{7\times 7} F3×3,F5×5,F7×7
Global-to-Local Feature Interaction
- 虽然变形金刚中的自我关注可以捕获大范围依赖关系(即全局上下文),但它很可能会忽略每个补丁中的结构性信息和局部关系。
- 此外,变形金刚受益于shape-bias[52],允许他们专注于图像的重要部分。
- 卷积可以利用平移不变性中的局部连通性——图像中的每个补丁都由相同的权值处理。这种归纳偏差鼓励CNN在对视觉对象进行分类时,对纹理有更强的依赖性,而不是形状。
- 因此,MPViT以一种互补的方式将cnn的局部连接与全局上下文转换器结合起来。
- 分别使用卷积以及Transformer对tokens F k × k F_{k \times k} Fk×k提取特征。 H ( ⋅ ) H(·) H(⋅)是特征通道融合器。
参考文献
[1] Lee Y, Kim J, Willette J, et al. Mpvit: Multi-path vision transformer for dense prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 7287-7296.
[52] Shikhar Tuli, Ishita Dasgupta, Erin Grant, and Thomas L
Griffiths. Are convolutional neural networks or transformers
more like human vision? arXiv preprint arXiv:2105.07197,
2021. 4