文献阅读(46)——MPViT

news2024/10/1 23:41:31

文献阅读(46)——MPViT

文章目录

  • 文献阅读(46)——MPViT
  • MPViT
    • 先验知识/知识拓展
    • 文章结构
    • 文章结果
      • 1. ImageNet 分类
      • 2. 物体检测和实例分割
      • 3. 语义分割
    • 方法
      • 1. MPViT architecture
      • 2. MS-Patch Embed Block
      • 3. MP-Transformer Block ![在这里插入图片描述](https://img-blog.csdnimg.cn/ca28ec849793456ebef53112e5b86e9b.png)
        • Global-to-Local Feature Interaction
      • 4. 模型配置
    • 总结
      • 1. 文章优点
      • 2. 文章不足
      • 可借鉴点/学习点?

MPViT

MPViT : Multi-Path Vision Transformer for Dense Prediction
在这里插入图片描述
CVPR

先验知识/知识拓展

新的backbone,里面用到transformer(顾名思义用到注意机制),为了弥补transformer的缺点,增加了卷积部分考虑全局信息

文章结构

  • 摘要

  • introduction

  • related works

    • ViT
    • comparison of concurrent works
  • multi-path vision transformer(MPViT)(★★★★★重点)

    • 网络结构
    • 多尺度patch embedding
    • global to local 特征融合
    • 模型配置
  • 实验

  • 讨论和总结

文章结果

无论是在ImageNet上做分类,物体检测和实例分割,还是语义分割上几乎都可以达到SOTA级别

1. ImageNet 分类

在这里插入图片描述

2. 物体检测和实例分割

在这里插入图片描述

3. 语义分割

在这里插入图片描述

方法

1. MPViT architecture

在这里插入图片描述
作为backbone,主要功能就是提取数据特征,相当于一个encoder,后面做什么任务只需要根据任务进行相应的decoder就OK。
主要包括4个stage,每个stage都由两个block组成,一个是MS-Patch Embed,另一个是MP-Transformer。

2. MS-Patch Embed Block

在这里插入图片描述
Multi-Scale Patch Embedding,一看到Multi-Scale大家应该有种亲切感,多尺度已经很多文章了,感觉被研究的花里胡哨了。在这篇文章中,作者使用的卷积网络可以通过改变stride和padding调整token的序列长度,即使是不同大小的patch也可以输出相同尺度的特征图。在这个过程中使用到三个不同的卷积核,分别为33,55和77,但是考虑到参数量,因为一个55的卷积核和2个33的卷积核具有相同的感受野,1个77卷积核和3个33卷积核具有相同的感受野,所以全部使用33的卷积核替代55和77的卷积核。(很巧妙!极大地减少了时间成本
在这里插入图片描述

3. MP-Transformer Block 在这里插入图片描述

在这个部分因为transformer其实是需要有位置编码的,针对不同长度的token需要不同长度的位置编码,在这个地方作者使用卷积生产位置编码!——这一点确实难以理解,因为一般的位置编码无非就是0,1,2,3这样子的,使用卷积学到的信息你怎么能确定学习到的是位置信息?但是确实有效果。大概是这样的思路:

  • 进入transformer的是一个序列(可以将其假想为一个一维数据)
  • 将它reshape成一个矩阵(特征图):feature_ori
  • 使用卷积处理feature_ori得到feature_conv
  • feature = feature_ori+feature_conv
  • 再讲feature矩阵展开为一个一维数据就是为知编码
    (咱也不知道为什么就可以使用卷积生成为知编码,但是确实消融实验是由效果的)

这里上一步得到的三张特征图,其中由3*3卷积得到的特征图需要copy一个作为卷积神经网络的输入(用它表示特征的局部信息),其他三个特征图进入transformer。为什么这么做呢?

  • 首先,transformer的内部是自注意力机制,他可以学习到较长范围的依赖关系(全局上下文信息)但是他很容易忽略结构性信息和局部关系,也正是由于注意力机制,他会更加关注图片的关键部分
  • 其次,CNN具有平移不变性,这就使得卷积后得到的特征局部依然有连通性——图像中的每个patch都是用相同的权重处理的。
  • 因此,MPViT就用这种互补的方式将卷积得到的local信息和transformer得到的global信息拼接——Global-to-Local Feature Interaction

Global-to-Local Feature Interaction

在这里插入图片描述
在局部信息的部分增加了一个残差模块。

4. 模型配置

在这部分,其实作者说明了他们transformer中用的不是平时大家熟悉的自注意力机制,是改进版

  • 一般的自注意力机制
    在这里插入图片描述
  • 改进版(可以降低计算量)
    在这里插入图片描述
    这是一个叫CoaT的文章提出的,证明了确实使用这种方式计算会减少计算量-

总结

1. 文章优点

  • 学到了新的位置编码的方式
  • 通过卷积层的stride和padding的处理,不同大小的patch可以得到相同尺度的特征——一个非常棒的多尺度思想
  • 既考虑全局信息又考虑局部信息,卷积+transformer结合

2. 文章不足

  • 使用卷积计算得到位置编码,理解不了,引用了一篇但是也没有解释清楚

可借鉴点/学习点?

无论是分类,物体检测还是语义分割,其实encoder得到一个完整的(既有全局又兼顾局部)特征非常重要,作者的这个思想很新奇~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/380505.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【超级超级无敌好用的三个实用网站,用完就走,尽显渣男本色】

今天我来给大家分享超级超级无敌好用的三个实用网站,用完就走,尽显渣男本色,如果你觉得有帮助,点了赞吧,创作不易,关注再走,后续更精彩。 一. tinywow 首先我们推荐的是国外一款在线实用网站工…

面试题CSS篇(一)

目录 一、flex布局 1、基本概念 2、容器属性 (1)flex-direction 决定主轴的方向(即项目的排列方向) (2) flex-wrap (3)flex-flow (4)justify-content…

【ECNU】3633. 双人旋转赛车(C++)

目录 题目 输入格式 输出格式 样例 提示 思路 代码 题目 单点时限: 2.0 sec 内存限制: 1024 MB oxx 和 Xiejiadong 在玩一个双人旋转赛车的小游戏。 他们将进行一些比赛。每局比赛必须按顺序进行,胜者会得到该局对应的分数 xi。 由于 oxx 技艺不精&#…

PMP®考试抽中审查提供的材料

PMP审查流程:属于第一类的申请者(学士学位或同等学位及以上)1. 核实学士学位或同等学位2. 核实项目管理经验3. 核实35小时的项目管理教育属于第二类的申请者(高中、大专或同等学历)1…

解决httprunner3.x上$符号无法当成普通符号用的方法

前言 由于要测试的api中会涉及$符号的传递, 要求其放在参数中当一个普通符号使用, 但由于httprunner框架处理逻辑, 会将如$coe当成一个变量, 从而报错找不到该变量的值 现象 接口某参数为: coeConfig$coal$08d99cca03a84d1d9e9a49b4534bb598运行时框架会抛出异常: 分析 研读框…

iphone系统崩溃数据能恢复吗?教你三招方法

最近有些苹果用户反应自己手机的屏幕无法滑动,桌面上APP也无法点开,想要关机重启下试试,可是,连关机都关不了,甚至连Siri都罢工了。苹果手机系统崩溃,出现黑屏、白屏、无限重启之类的故障,导致手…

rtthread 线程

创建动态线程最简单代码 #include <rtthread.h>//包含头文件static rt_thread_t thread1 RT_NULL; //创建线程控制块指针&#xff0c;指向空static void thread1_entry(void *parameter)//线程入口&#xff08;干什么&#xff09; {rt_kprintf("do something"…

ChatGPT 爆火,社交应用如何 Get 新技能

风浪越大&#xff0c;鱼越贵。关注【融云全球互联网通信云】了解更多 现在&#xff0c;最大的浪无疑属于 ChatGPT&#xff0c;一款以对话方式进行交互的语言模型。 通过创新业务打下江山的商业传奇们&#xff0c;都怕跟丢了这波浪潮而成为“上一代人”。所以&#xff0c;我们…

[文件操作] File 类的用法和 InputStream, OutputStream 的用法

能吃是不是件幸福的事呢 文章目录前言1. 文件的相关定义2. 文件类型3. Java对文件系统的操作3.1 对文件的基础操作3.2 读文件3.3 写文件前言 从这章开始,我们就开始学文件操作相关的知识了~ 1. 文件的相关定义 1.文件的定义可以从狭义和广义两个方面解释. 狭义: 指硬盘上的文…

Redis学习笔记:缓存运用常见问题

这是本人学习的总结&#xff0c;主要学习资料如下 马士兵教育 目录1、数据一致性的问题1.1、新增数据一致性的问题1.2、修改/删除一致性问题1.2.1、操作分析1.2.1、总结和再深入2、缓存穿透&#xff0c;缓存击穿和缓存雪崩2.1、缓存穿透&#xff08;查不到&#xff09;2.1.1、…

从功能到自动化,熬夜3天整理出这一份2000字学习指南~

学习自动化这个想法&#xff0c;其实自己在心里已经琢磨了很久&#xff0c;就是一直没付诸实践&#xff0c;觉得现在手工测试已经能满足当前的工作需要&#xff0c;不想浪费时间去学习新的东西&#xff0c;有点时间还不如刷刷视频、看看小说等。 第一次有学习Selenium的冲动是…

【Bio】碳水化合物 carbohydrate 和糖蛋白 glycoprotein

文章目录碳水化合物 carbohydrate单糖 monosaccharides戊糖 pentose己糖 hexose双糖 disaccharide寡糖 oligosaccharide 和多糖 polysaccharide糖蛋白 glycoproteinRef碳水化合物 carbohydrate 碳水化合物 (carbohydrate)&#xff0c;也是糖类&#xff0c;指的是一系列多羟基 …

pwnlab通关流程

pwnlab通关 关于文件包含&#xff0c;环境变量劫持的一个靶场 信息收集 靶机ip&#xff1a;192.168.112.133 开放端口 根据开放的端口信息决定从80web端口入手 目录信息 在images和upload路径存在目录遍历&#xff0c;config.php被渲染无法查看&#xff0c;upload.php需…

C++实现文本界面英语词典

C实现文本界面英语词典 C实现文本界面的英语词典&#xff0c;能在Dev-C运行。提供两种方案&#xff1a;一是简单仅查词功能&#xff1b;二是具有查词、添加、删除功能&#xff0c;具有选择菜单&#xff0c;值得一提的是&#xff0c;本程序对用户输入菜单选项序号做了检测&#…

Zabbix“专家坐诊”第183期问答汇总

问题一 Q&#xff1a;老师&#xff0c;请问一下zabbix采集的数据怎么过滤&#xff0c;获取数据是nottime20:30 notafter3&#xff0c;怎么过滤出netafter3 &#xff1f;谢谢。 A&#xff1a;过滤器设置如下图。 问题二 Q&#xff1a;大佬&#xff0c;请问一下被管节点部署了…

视觉Slam十四讲笔记

视觉SLAM十四讲 ch1~2 虚拟机部分指令解析在其他文件中进行引用该库编译器参考链接&#xff1a;虚拟机部分 CMakeList.txt文件是cmake用来生成Makefile文件需要的一个描述编译链接的规则文件 指令解析 &#xff08;1&#xff09;PROJECT(projectname [CXX] [C] [Java]): 该…

力扣(LeetCode)427. 建立四叉树(2023.03.01)

给你一个 n * n 矩阵 grid &#xff0c;矩阵由若干 0 和 1 组成。请你用四叉树表示该矩阵 grid 。 你需要返回能表示矩阵的 四叉树 的根结点。 注意&#xff0c;当 isLeaf 为 False 时&#xff0c;你可以把 True 或者 False 赋值给节点&#xff0c;两种值都会被判题机制 接受…

Elasticsearch进阶之(核心概念、系统架构、路由计算、倒排索引、分词、Kibana)

Elasticsearch进阶之&#xff08;核心概念、系统架构、路由计算、倒排索引、分词、Kibana&#xff09; 1、核心概念&#xff1a; 1.1、索引&#xff08;Index&#xff09; 一个索引就是一个拥有几分相似特征的文档的集合。比如说&#xff0c;你可以有一个客户数据的索引&…

能源消耗监测管理系统,在建筑节能中起到哪些重要作用?

能源是一切活动的基础更是社会经济发展的命脉&#xff0c;但随着经济的建设&#xff0c;能源资源的消耗也越来越大&#xff0c;其中建筑是最大的消耗者。水、电、气等能源的消耗量逐年增长&#xff0c;这种能源并不是取之不尽用之不竭的&#xff0c;能源的日益紧张和环境恶化&a…

IM即时通讯开发MQ消息队列

消息是互联网信息的一种表现形式&#xff0c;是人利用计算机进行信息传递的有效载体&#xff0c;比如即时通讯网坛友最熟悉的即时通讯消息就是其具体的表现形式之一。 消息从发送者到接收者的典型传递方式有两种&#xff1a; 1&#xff09;一种我们可以称为即时消息&#xff1a…