Mask R-CNN论文讲解

news2025/1/11 16:48:10

目录:Mask R-CNN论文理解

  • 一、摘要
  • 二、介绍
  • 三、Mask R-CNN
  • 四、RoIAlign
  • 五、Network Architecture
  • 六、训练

一、摘要

论文提出了一个概念上简单、灵活和通用的对象实例分割框架。有效地检测图像中的对象,同时为每个实例生成高质量的分割掩码。

方法被称为Mask R-CNN,通过添加一个用于预测对象掩码的分支,并与现有的用于边界框识别的分支并行,扩展了Faster R-CNN。

二、介绍

视觉界在短时间内迅速改进了目标检测和语义分割结果。在很大程度上,这些进步是由强大的基线系统驱动的,例如分别用于对象检测和语义分割的Fast/Faster R-CNN和全卷积网络(FCN)框架。

这些方法在概念上是直观的,并提供了灵活性和鲁棒性,以及快速的训练和推理时间。

我们在这项工作中的目标是为实例分割开发一个相对可行的框架。

实例分割具有挑战性,因为它需要正确检测图像中的所有对象,同时还需要精确分割每个实例。

因此,它结合了对象检测的经典计算机视觉任务的元素,其目标是对单个对象进行分类,并使用边界框和语义分割对每个对象进行本地化,语义分割的目标是将每个像素分类到一个固定的类别集,而不区分对象实例。鉴于此,人们可能会期望需要一个复杂的方法来获得良好的结果。然而,我们展示了一个惊人的简单、灵活和快速的系统可以超越先前最先进的实例分割结果。

方法称为Mask R-CNN,通过添加一个用于预测每个感兴趣区域(RoI)上的分割掩码的分支,扩展了Faster R-CNN,与用于分类和边界盒回归的现有分支并行,如图所示:

在这里插入图片描述

掩码分支是应用于每个ROI的FCN,以pixel to pixel的方式预测分割掩码。基于Faster R-CNN框架,Mask R-CNN易于实现和训练,该框架促进了广泛的灵活架构设计。

此外,掩码分支只增加了少量的计算开销,可以实现快速的系统和快速的实验。

原则上Mask R-CNN是Faster R-CNN的直观扩展,然而正确构建Mask分支对于良好的结果是至关重要的。最重要的是,Faster R-CNN不是为网络输入和输出之间的像素到像素对齐而设计的。这在RoIPool中表现得最为明显,RoIPool实际上是处理实例的核心操作,它为特征提取执行粗空间量化。

为了解决不对中问题,我们提出了一个简单的、无量化的层,称为RoIAlign,它忠实地保存了精确的空间位置。

看似一个看似微小的变化,RoIAlign有很大的影响:它提高掩模精度相对10%到50%,在更严格的本地化指标下表现出更大的收益。

其次,我们发现将掩码和类预测解耦是至关重要的:我们独立地为每个类预测一个二进制掩码,没有类之间的竞争,并依赖于网络的RoI分类分支来预测类别。

相比之下,FCNs通常执行逐像素的多类分类,将分割和分类结合在一起,并且根据我们的实验,在实例分割方面效果不佳。

通过一系列的实验证实,我们的Mask R-CNN可以被更广泛地视为实例级识别的灵活框架,并且可以很容易地扩展到更复杂的任务。

三、Mask R-CNN

概念上很简单:Faster R-CNN对每个候选对象有两个输出,一个类标签和一个边界框偏移量;在此基础上,我们添加了输出对象掩码的第三个分支。

但是附加的掩码输出不同于类和框输出,需要提取更精细的对象空间布局。

接下来,我们将介绍Mask R-CNN的关键元素,包括像素到像素对齐,这是Fast/Faster R-CNN的主要缺失部分。

我们首先快速回顾一下Faster R-CNN:

Faster R-CNN由两个阶段组成。第一阶段称为区域提议网络(Region Proposal Network, RPN),提出候选对象边界框。第二阶段,本质上是Fast R-CNN,使用RoIPool从每个候选框中提取特征,并执行分类和边界盒回归。两个阶段使用的特征可以共享,以便更快地推断。

Mask R-CNN采用相同的两阶段程序,具有相同的第一阶段(即RPN)。在第二阶段,在预测类和盒偏移的同时,Mask R-CNN还为每个RoI输出一个二进制掩码。这与大多数最新的系统形成对比,其中分类取决于掩码预测。

形式上,在训练过程中,我们将每个采样RoI上的多任务损失定义为:
在这里插入图片描述
在这里插入图片描述
掩码编码输入对象的空间布局。因此,不像类标签或盒偏移不可避免地被全连接(fc)层折叠成短输出向量,提取掩码的空间结构可以通过卷积提供的像素到像素的对应自然地寻址。

在这里插入图片描述

这种像素到像素的行为要求我们的RoI特征(它们本身就是小的特征映射)很好地对齐,以忠实地保持显式的逐像素空间对应关系。这促使我们开发了以下RoIAlign层,它在掩模预测中起着关键作用。

四、RoIAlign

RoIPool是从每个RoI中提取小特征映射(例如,7×7)的标准操作。RoIPool首先将一个浮点数RoI量化为特征映射的离散粒度,然后将这个量化的RoI细分为空间箱,这些空间箱本身是量化的,最后对每个箱覆盖的特征值进行聚合(通常采用最大池化)。量化是通过计算[x/16]在连续坐标x上执行的,其中16是特征图步幅,[·]是舍入;同样地,量化是在划分到容器(例如,7×7)时执行的。这些量化引入了RoI和提取特征之间的失调。虽然这可能不会影响分类(对小的翻译是稳健的),但它对预测像素精确掩码有很大的负面影响。

为了解决这个问题,我们提出了一个RoIAlign层,它消除了RoIPool的苛刻量化,正确地将提取的特征与输入对齐。我们提出的改变很简单:我们避免任何RoI边界的量化或bins。(我们用x/16代替[x/16])我们使用双线性插值来计算每个RoI bin中四个常规采样位置的输入特征的精确值,并聚合结果(使用最大值或平均值)。我们注意到,只要不进行量化,结果对准确的采样位置或采样多少点并不敏感。

RoIAlign带来了很大的改进。我们还比较了提出的RoIWarp操作。与RoIAlign不同的是,RoIWarp忽略了对齐问题,并像RoIPool一样实现了量化RoI。因此,即使RoIWarp也采用了双线性重采样,但从实验结果来看,它的性能与RoIPool相当,说明了对齐的关键作用。

五、Network Architecture

为了演示我们方法的通用性,我们用多个体系结构实例化Mask R-CNN。为了清晰起见,我们区分了:(i)用于整个图像特征提取的卷积主干架构,以及(ii)用于边界框识别(分类和回归)和分别应用于每个RoI的掩码预测的网络头部。

我们使用术语网络深度特征来表示骨干体系结构。我们评估了深度为50层或101层的ResNet和ResNeXt网络。使用ResNets的Faster R-CNN的原始实现从第4阶段的最后卷积层中提取特征,我们称之为C4。例如,ResNet-50的主干被表示为ResNet-50- c4。

我们还探索了Lin等人最近提出的另一种更有效的主干,称为特征金字塔网络(FPN)。FPN使用带有横向连接的自顶向下架构,从单尺度输入构建网络内特征金字塔。具有FPN主干的更快的R-CNN根据其规模从特征金字塔的不同级别提取RoI特征,但除此之外,该方法的其余部分类似于香草ResNet。使用ResNet-FPN骨干网与Mask RCNN进行特征提取,在精度和速度方面都获得了优异的收益。

对于网络头,我们密切关注在以前的工作中提出的架构,我们添加了一个完全卷积掩码预测分支。具体来说,我们从ResNet[19]和FPN[27]论文中扩展了Faster R-CNN盒头。详细信息如图4所示。ResNet- c4主干上的头部包括ResNet的第5阶段(即9层’ res5 '[19]),这是计算密集型的。对于FPN,骨干已经包括res5,因此允许使用更少过滤器的更有效的头部。

我们注意到我们的掩模分支有一个简单的结构。更复杂的设计有可能提高性能,但不是这项工作的重点。
在这里插入图片描述

六、训练

与Fast R-CNN一样,如果IoU的基本真相框至少为0.5,则RoI被认为是正的,否则为负。掩码损耗Lmask仅在正roi上定义。掩码目标是RoI与其相关的真实掩码之间的交集。

我们采用以图像为中心的训练。图像的大小被调整到它们的尺度(较短的边缘)为800像素。每个mini-batch每个GPU有2张图像,每张图像有N个采样的roi,正负比为1:3。C4骨干的N为64,FPN的N为512。我们在8个gpu上训练(因此有效的小批大小为16),进行160k次迭代,学习速率为0.02,在120k次迭代时下降了10。我们使用的权重衰减为0.0001,动量为0.9。使用ResNeXt,我们用每个GPU 1张图像进行训练,迭代次数相同,起始学习率为0.01。

RPN锚横跨5个尺度和3个纵横比。为了方便消融,RPN单独训练,除非指定,否则不与Mask R-CNN共享特征。对于本文中的每个条目,RPN和Mask R-CNN具有相同的主干,因此它们是可共享的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/127428.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python量化交易06——Fama-French三因子模型(Rmt,SMB,HML)

参考书目:深入浅出Python量化交易实战 本次带来的是著名的获得了诺贝尔奖的三因子模型。 因子模型介绍 Fama和French从可以解释股票收益率的众多因素中提取出了三个重要的影响因子,即市场风险溢酬因子、市值因子和账面市值比因子B/M Ratio,仿照CAPM模型…

测试用例能带来什么

通过测试用例,我们都能获得些什么呢? 1、测试团队的质量判断。例如,测试用例的覆盖率。我们只需要去把所有的valid的功能bug去做一个分析,用所有在测试用例覆盖范围之外的bug数/总bug数,就可以作为测试用例覆盖率使用。一个良好的…

【css】深入解析CSS (4)网格布局

设置为display: grid的元素成为一个网格容器(grid container)。它的子元素则变成网格元素(grid items)。 1.网格的组成部分: grid-template-columns和grid-template-rows定义了网格轨道 grid-template-columns:1fr 1f…

STM32/51单片机实训day4——RFID工作原理(一)理论

目录 一、RFID的定义 二、RFID的起源和发展 三、RFID的组成 3.1 标签 3.2 读写器 3.3 天线 四、RFID系统分类 4.1 根据标签的供电方式 4.2 根据工作频率 五、RFID系统工作原理 5.1 读写器 5.2 标签 5.3 中间件 内 容:能够读取RFID卡S50的ID——编程…

如何利用 xUnit 框架对测试用例进行维护?

1、xUnit 是什么 先看 Wikipedia 上的解释: xUnit 是一系列测试框架的统称,最开始来源于一个叫做 Smalltalk 的 SUnit 框架,现在各种面向对象的语言,如 Java、Python 的鼻祖就是 Smalltalk,后来这些语言都借助了 Suni…

Win10 开机突然蓝屏错误代码0xc0000001安全模式也进不了,不用重装系统怎么修复?(已解决)

环境: Win 10专业版 HP480G7 问题描述: Win10 开机突然蓝屏错误代码0xc0000001,前一天好好的,F8安全模式也进不了,不用重装系统怎么修复? 解决方案: 方法一 1.重启F8进入里面的安全模式(本案例进不了) 方法二 (解决本案例) 1.使用系统安装U盘,需提前做好…

力扣(LeetCode)220. 存在重复元素 III(C++)

滑动窗口有序集合 维护滑动窗口&#xff0c;向右扩大右窗口&#xff0c;新数加入有序集合&#xff0c;题目要求abs(nums[i] - nums[j]) < t &#xff0c;找两数之差的绝对值小于t&#xff0c;相当于在窗口里找大小尽可能接近的两个数&#xff0c;固定其中一个数(新数)&…

进程优先级环境变量进程地址空间

目录 一、进程优先级 1、概念 2、查看 3、其他概念 二、环境变量 1、基本概念 2、常见环境变量 3、查看环境变量的方法 4、和环境变量相关的命令 5、环境变量的组织方式 6、通过系统调用获取或设置环境变量 三、程序地址空间 一、进程优先级 1、概念 cpu资源分配的…

C++优先队列:priority_queue(即时排序队列)

今天我们来讲一下C中对于排序很好的用的东西&#xff1a;优先队列&#xff1a;priority_queue 既然是队列那么先要包含头文件#include <queue>, 它和queue不同的就在于我们可以自定义其中数据的优先级, 让优先级高的排在队列前面,优先出队 优先队列具有队列的所有特性&am…

数据结构---二叉树的各种遍历算法

&#xff08;一&#xff09;基础知识 如图遍历该树&#xff0c;常见有四种方法&#xff1a; 先根遍历&#xff1a;即先序遍历(Pre-order)&#xff0c;按照根左右的顺序沿一定路径经过路径上所有的结点。在二叉树中&#xff0c;先根后左再右。巧记&#xff1a;根左右。 以标准…

Redis 主从复制实现

1. 前言 今天从实用的角度来分析下 服务器间的主从部署&#xff0c;以及主从复制备份 2. 配置 一个服务器不同的端口代表不同的Redis实例端口6379 表示一台Redis主节点端口6380 表示一台Redis从节点&#xff0c;主节点的端口是6379端口6381 表示一台Redis从节点&#xff0c;主…

Type-challenges:00009-medium-deepReadonly

Implement a generic DeepReadonly<T> which make every parameter of an object - and its sub-objects recursively - readonly. https://github.com/TIMPICKLE/type-challenges/blob/main/questions/00009-medium-deep-readonly/README.md 虽然是medium&#xff0c;但…

图论(2)单源最短路的综合应用

活动 - AcWing 1.acwing1135 从自己家出发摆放其他亲戚&#xff0c;拜访顺序任意。 枚举所有摆放顺序求最小值即可。因此需要每个亲戚家到其他亲戚家的最短路。分别跑出来即可 #include<iostream> #include<algorithm> #include<cstring> #include<que…

pytorch批量计算数据集的均值和方差

from torchvision.transforms import ToTensor#用于把图片转化为张量 import numpy as np#用于将张量转化为数组&#xff0c;进行除法 from torchvision.datasets import ImageFolder#用于导入图片数据集means [0,0,0] std [0,0,0]#初始化均值和方差 transformToTensor()#可将…

UIVM项目验证—数据多通道整形器(MCDF)

1、项目介绍-MCDF MCDF(Multi-Channel Data Formatter)多通道数据整形器将上行多个通道数据存入FIFO&#xff0c;经过Arbiter仲裁&#xff0c;完成指定通道的数据打包&#xff0c;寄存器可以控制各个通道的开关、优先级以及数据包长度。 2、设计描述 CDF设计结构描述如下所示…

红队隧道应用篇之SSH端口转发突破内网(六)

前言 什么是SSH隧道 SSH隧道是使用SSH协议连接两台计算机之间的通道。它使用密钥加密数据传输&#xff0c;并允许计算机之间的安全连接。 通常&#xff0c;SSH隧道用于通过不安全的网络&#xff08;例如互联网&#xff09;连接到远程服务器。隧道提供了一种安全的方法来访问…

我眼中的并发编程

在并发编程中都避不开原子性&#xff0c;可见性&#xff0c;有序性问题。这三个问题都是人们抽象出来&#xff0c;而实际上对应的就是缓存一致性&#xff0c;处理器优化&#xff0c;指令重排序问题。 原子性&#xff1a; 就是一个操作中CPU不可以在中途展厅然后再调度&#xf…

读者写者模型自旋锁(了解)

文章目录读者写者模型&#xff1a;1. 基本理论消费者生产者模型的321原则2. 操作3.理解4. 优先级挂起等待特性的锁 VS 自旋锁线程访问临界资源花费的时间问题&#xff1a;线程如何得知会在临界资源中等待的时间呢&#xff1f;自旋锁的使用读者写者模型&#xff1a; 1. 基本理论…

Python实现FA萤火虫优化算法优化支持向量机回归模型(SVR算法)项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档视频讲解&#xff09;&#xff0c;如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 萤火虫算法&#xff08;Fire-fly algorithm&#xff0c;FA&#xff09;由剑桥大学Yang于2009年提出 , 作…

ModBus协议学习

之前没接触过&#xff0c;记录一下抄的东西。 Modbus 一个工业上常用的通讯协议、一种通讯约定。Modbus协议包括RTU、ASCII、TCP。其中MODBUS-RTU最常用&#xff0c;比较简单&#xff0c;比较容易实现。 先来简单分析一条MODBUS-RTU报文&#xff0c;例如&#xff1a;01 06 0…