Mask R-CNN论文原理讲解

news2025/3/12 22:59:03

论文:arxiv.org/pdf/1703.06870

代码：maskrcnn-benchmark:Fast, modular reference implementation of Instance Segmentation and Object Detection algorithms in PyTorch. - GitCode

Mask R-CNN简介

Mask R-CNN是何凯明大神的新作。Mask R-CNN是一种在有效检测目标的同时输出高质量的实例分割mask。是对faster r-cnn的扩展，与bbox检测并行的增加一个预测分割mask的分支。Mask R-CNN 可以应用到人体姿势识别。并且在实例分割、目标检测、人体关键点检测三个任务都取得了现在最好的效果，下图是Mask R-CNN的检测效果图：

语义分割通过对输入图像中每个像素的标签进行预测，给出了较好的推理，例如是前景还是背景。每个像素都根据其所在的对象类进行标记。为了进一步发展，实例分割为属于同一类的对象的单独实例提供了不同的标签。

目标检测：可以区分个体但不够准确。
语义分割：可以划分像素但不可以区分个体。
而实例分割则可以结合二者的优点，对个体的分类及定位更加精准。因此，实例分割可以定义为同时解决目标检测问题和语义分割问题的技术。

Mask R-CNN架构

从上图可以看出Mask RCNN架构非常接近Faster RCNN。主要区别在于，在网络的末端，还有另一个头，即上图中的掩码分支，用于生成掩码进行实例分割。还有把Faster RCNN中的ROI Pooling换成了ROIAlign。

Mask R-CNN的改进

ROIAlign

ROIAlign是ROIPooling的进化版，下面来具体讲解一下它的优化：

ROIAlign的提出是为了解决Faster R-CNN中RoI Pooling的区域不匹配的问题，下面我们来举例说明什么是区域不匹配。ROI Pooling的区域不匹配问题是由于ROI Pooling过程中的取整操作产生的（如下图），我们知道ROI Pooling是Faster R-CNN中必不可少的一步，因为其会产生长度固定的特征向量，有了长度固定的特征向量才能进行softmax计算分类损失。

如下图，输入是一张800×800 的图片，经过一个有5次降采样的卷机网络，得到大小为 25×25 的Feature Map。图中的ROI区域大小是 600×500 ，经过网络之后对应的区域为 =18.75X15.625,由于无法整除，ROI Pooling采用向下取整的方式，进而得到ROI区域的Feature Map的大小为 18 × 15 这就造成了第一次区域不匹配。

RoI Pooling的下一步是对Feature Map分bin，加入我们需要一个7 × 7的bin，每个bin的大小为,由于不能整除，ROI同样采用了向下取整的方式，从而每个bin的大小为 2 × 2 ，即整个RoI区域的Feature Map的尺寸为14 × 14。第二次区域不匹配问题因此产生。

对比ROI Pooling之前的Feature Map，ROI Pooling分别在横向和纵向产生了4.75和1.625的误差，对于物体分类或者物体检测场景来说，这几个像素的位移或许对结果影响不大，但是语义分割任务通常要精确到每个像素点，因此ROI Pooling是不能应用到Mask R-CNN中的。

为了解决这个问题，作者提出了RoIAlign。RoIAlign并没有取整的过程，可以全程使用浮点数操作，步骤如下：

1. 计算RoI区域的边长，边长不取整；
2. 将ROI区域均匀分成k × k个bin，每个bin的大小不取整；
3. 每个bin的值为其最邻近的Feature Map的四个值通过双线性插值得到；
4. 使用Max Pooling或者Average Pooling得到长度固定的特征向量。