中文标题：基于多路视觉Transformer的密集预测

在这里插入图片描述

提出问题

创新点

提出了一种具有多路径结构的多尺度嵌入方法，以同时表示密集预测任务的精细和粗糙特征。
全局到局部的特征交互（GLI），以同时利用卷积的局部连通性和转换器的全局上下文。

网络结构

在这里插入图片描述

建立了一个四阶段的特征层次图来生成不同尺度的特征映射。
步骤：
第1层：对于输入HxWx3，我们设计了一个由两个3x3，步长为4，输出通道数为 $C_2$ 的卷积。
第2-5层：反复叠加MS-PatchEmbed(multi-scale patch embedding)以及MP-Transformer（multi-path Transformer）

Multi-Scale Patch Embedding

输入特征 $X_i \in \mathbb{R}^{H_{i-1} \times W_{i-1} \times C_{i-1}}$ , 学习一个 $F_{k\times k}(·)$ 将 $X_i$ 排布成新Tokens $F_{k \times k} \in \mathbb{R}^{H_{i} \times W_{i} \times C_{i}}$ ，它的通道数为 $C_i$ 。F的构型为一个大小 $\times k$ ，步长s，padding为p的卷积。
通过改变 $\times k$ 的大叫改变Patch的尺寸。卷积补丁嵌入层使我们能够通过改变stride和padding来调整标记的序列长度（输出尺寸）。
接着我们得到 $F_{3\times 3}, F_{5\times 5},F_{7\times 7}$

Global-to-Local Feature Interaction

虽然变形金刚中的自我关注可以捕获大范围依赖关系（即全局上下文），但它很可能会忽略每个补丁中的结构性信息和局部关系。
此外，变形金刚受益于shape-bias[52]，允许他们专注于图像的重要部分。
卷积可以利用平移不变性中的局部连通性——图像中的每个补丁都由相同的权值处理。这种归纳偏差鼓励CNN在对视觉对象进行分类时，对纹理有更强的依赖性，而不是形状。
因此，MPViT以一种互补的方式将cnn的局部连接与全局上下文转换器结合起来。
分别使用卷积以及Transformer对tokens $F_{k \times k}$ 提取特征。 $H (\cdot)$ 是特征通道融合器。

参考文献

[1] Lee Y, Kim J, Willette J, et al. Mpvit: Multi-path vision transformer for dense prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 7287-7296.
[52] Shikhar Tuli, Ishita Dasgupta, Erin Grant, and Thomas L
Griffiths. Are convolutional neural networks or transformers
more like human vision? arXiv preprint arXiv:2105.07197,
2021. 4

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/381522.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！