论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction

news2024/9/28 23:27:36

中文标题:基于多路视觉Transformer的密集预测

在这里插入图片描述

提出问题

创新点

  • 提出了一种具有多路径结构的多尺度嵌入方法,以同时表示密集预测任务的精细和粗糙特征。
  • 全局到局部的特征交互(GLI),以同时利用卷积的局部连通性和转换器的全局上下文。

网络结构

在这里插入图片描述

  • 建立了一个四阶段的特征层次图来生成不同尺度的特征映射。
  • 步骤
  • 第1层:对于输入HxWx3,我们设计了一个由两个3x3,步长为4,输出通道数为 C 2 C_2 C2的卷积。
  • 第2-5层:反复叠加MS-PatchEmbed(multi-scale patch embedding)以及MP-Transformer(multi-path Transformer)

Multi-Scale Patch Embedding

  • 输入特征 X i ∈ R H i − 1 × W i − 1 × C i − 1 X_i \in \mathbb{R}^{H_{i-1} \times W_{i-1} \times C_{i-1}} XiRHi1×Wi1×Ci1, 学习一个 F k × k ( ⋅ ) F_{k\times k}(·) Fk×k() X i X_i Xi排布成新Tokens F k × k ∈ R H i × W i × C i F_{k \times k} \in \mathbb{R}^{H_{i} \times W_{i} \times C_{i}} Fk×kRHi×Wi×Ci,它的通道数为 C i C_i Ci。F的构型为一个大小 k × k k \times k k×k,步长s,padding为p的卷积。
    在这里插入图片描述
  • 通过改变 k × k k \times k k×k的大叫改变Patch的尺寸。卷积补丁嵌入层使我们能够通过改变stride和padding来调整标记的序列长度(输出尺寸)。
  • 接着我们得到 F 3 × 3 , F 5 × 5 , F 7 × 7 F_{3\times 3}, F_{5\times 5},F_{7\times 7} F3×3,F5×5,F7×7

Global-to-Local Feature Interaction

  • 虽然变形金刚中的自我关注可以捕获大范围依赖关系(即全局上下文),但它很可能会忽略每个补丁中的结构性信息和局部关系。
  • 此外,变形金刚受益于shape-bias[52],允许他们专注于图像的重要部分。
  • 卷积可以利用平移不变性中的局部连通性——图像中的每个补丁都由相同的权值处理。这种归纳偏差鼓励CNN在对视觉对象进行分类时,对纹理有更强的依赖性,而不是形状。
  • 因此,MPViT以一种互补的方式将cnn的局部连接与全局上下文转换器结合起来。
  • 在这里插入图片描述
  • 分别使用卷积以及Transformer对tokens F k × k F_{k \times k} Fk×k提取特征。 H ( ⋅ ) H(·) H()是特征通道融合器。

参考文献

[1] Lee Y, Kim J, Willette J, et al. Mpvit: Multi-path vision transformer for dense prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 7287-7296.
[52] Shikhar Tuli, Ishita Dasgupta, Erin Grant, and Thomas L
Griffiths. Are convolutional neural networks or transformers
more like human vision? arXiv preprint arXiv:2105.07197,
2021. 4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/381522.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

汽车刹车传感

一、方案概述:刹车传感器,作用于刹车系统的传感器类型,帮助驾驶人员判断刹车片的磨损情况,便于及时检修维护,保证制度系正常稳定工作。刹车片报警基本有两种,第一种是比较简单的机械报警,就是当…

Android Framework-Android进程/线程和程序内存优化

Android进程和线程 进程(Process)是程序的一个运行实例,以区别于“程序”这一静态的概念;而线程(Thread)则是CPU调度的基本单位。 Android中的程序和进程具体是什么概念呢? 一个应用程序的主入…

十一、Vben框架部分组件样式的重新封装

在使用vben框架的时候发现部分的样式不符合实际的需求,ant-design-vue的样式也不支持我们的需求,那怎么办呢,只能自己来修改,下面我就改大家说说我遇到的一些修改过的样式和组件。 一、inputNumber带前后标志 先看下目前支持的样…

命令查看Linux服务器内存、CPU、显卡、硬盘使用情况

命令查看Linux服务器内存、CPU、显卡、硬盘使用情况 查看内存使用情况 使用命令:free -m 大致结果类似下图: 内存占用情况 参数解释: Mem行(单位均为M): total:内存总数used:已…

4.4 like通配符关键字过滤查询数据

文章目录1.概述2.LIKE关键字3.百分号(%)通配符3.1 单个百分号(%)通配符3.2 多个百分号(%)通配符3.3 在值的中间使用百分号(%)通配符3.4 注意事项4.下划线(_)通…

centos7 配置samba

samba概述: Windows与Linux之间通信的桥梁,Samba是一个非常强大的文件服务器。Samba端口:udp 137 udp138,tcp139 tcp445。Samba工作模式:C/S模式(客户端-服务器) samba应用环境 1、文件共享&…

python库--urllib

目录 一.urllib导入 二.urllib爬取网页 三.Headers属性 1.使用build_opener()修改报头 2.使用add_header()添加报头 四.超时设置 五.get和post请求 1.get请求 2.post请求 urllib库和request库作用差不多,但比较起来request库更加容易上手,但该了…

SpringCloud学习笔记 - 分布式系统全局事务管理 - Seata1.5.2+Nacos+OpenFeign

1. Seata 是什么? 由于业务和技术的发展,单体应用被拆分成微服务应用,原来的三个模块被拆分成三个独立的应用,分别使用三个独立的数据源,业务操作需要调用三个服务来完成。此时每个服务内部的数据一致性由本地事务来保证, 但是全…

【跟着ChatGPT学深度学习】ChatGPT带我学情感分析

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

5G+车联网按下加速键,这家企业已经走在行业前列

进入2023年,5G车联网进入了快速增长阶段,并且正在逐步替代4G的存量市场。 为了更好地满足5G车联网市场的需求,移远通信正式推出了符合3GPP Release 16标准的车规级5G NR模组AG59x系列。据了解,全新的产品在5G传输速度、低时延、高…

SpringBoot addResourceHandlers 代理静态资源无法访问 Java获取linux文件中文名乱码 Linux设置中文字符集

SpringBoot addResourceHandlers 代理静态资源无法访问 Java获取linux文件中文名乱码 linux设置中文字符集Windows中使用SpringBoot addResourceHandlers代理静态资源访问Linux中使用SpringBoot addResourceHandlers代理静态资源访问修改路径问题一度以为Linux不能用这种方式代…

概念解读稳定性保障

什么是稳定百度百科关于稳定的定义:“稳恒固定;没有变动。”很明显这里的“稳定”是相对的,通常会有参照物,例如 A 车和 B 车保持相同速度同方向行驶,达到相对平衡相对稳定的状态。那么软件质量的稳定是指什么呢&#…

区块链对于底层技术的助力和改造,导致了如此多的新技术、新模式的出现

现在,区块链就在经历这样一种状态。是的,我们现在看到的是,以人工智能为代表的诸多新技术的不断地成熟和落地,我们现在看到的是,以元宇宙为代表的诸多新模式的不断衍生和出现。但是,如果深度分析&#xff0…

对称锥规划:锥与对称锥

文章目录对称锥规划:锥与对称锥锥的几何形状常用的指向锥Nonnegative Orthant二阶锥半定锥对称锥对称锥的平方操作对称锥的谱分解对称锥的自身对偶性二阶锥规划SOCP参考文献对称锥规划:锥与对称锥 本文主要讲锥与对称锥的一些基本概念。 基础预备&…

C++回顾(四)—— 类的封装

4.1 面向对象编程介绍 4.1.1 什么是面向对象 面向将系统看成通过交互作用来完成特定功能的对象的集合。每个对象用自己的方法来管理数据。也就是说只有对象内部的代码能够操作对象内部的数据。 4.1.2 面向对象的特点 (1)抽象的作用 抽象是人们认识事…

【XXL-JOB】XXL-JOB的搭建和使用

【XXL-JOB】XXL-JOB的搭建和使用 文章目录【XXL-JOB】XXL-JOB的搭建和使用1. 任务调度1.1 实现任务调度1.1.1 多线程实现1.1.2 Timer实现1.1.3 ScheduledExecutor实现2. 分布式任务调度2.1 采用分布式的原因3. XXL-JOB3.1 XXL-JOB介绍3.2 执行流程4. 搭建XXL-JOB4.1 创建数据库…

Ep_操作系统面试题-操作系统的分类

答案 单体系统 整个操作系统是以程序集合来编写的,链接在一块形成一个二进制可执行程序,这种系统称为单体系统。 分层系统 每一层都使用下面的层来执行其功能。 微内核 微内核架构的内核只保留最基本的能力,把一些应用放到了用户空间 客户-…

BCN点击试剂1263166-90-0,endo BCN-OH,环丙烷环辛炔羟基

endo BCN-OH基础产品数据:CAS号:1263166-90-0中文名:环丙烷环辛炔甲醇,环丙烷环辛炔羟基英文名:endo BCN-OH 结构式(Structural):详细产品数据:Molecular formula&#x…

CVPR 2023 | 基础模型推动语义分割的弱增量学习

前言语义分割的弱增量学习(WILSS)目的是学习从廉价和广泛可用的图像级标签中分割出新的类别,但图像级别的标签不能提供定位每个片段的细节。为了解决该问题,本文提出了一个新颖且数据高效的框架(FMWISS)。该…

IM即时通讯开发实时消息的“时序性”与“一致性”

我们都知道,一个典型的分布式系统中,很多业务场景都需要考虑消息投递的时序,例如:IM中单聊消息投递:保证发送方发送顺序与接收方展现顺序一致;IM中群聊消息投递:保证所有接收方展现顺序一致&…