Abstract
我们对MS COCO数据集上的当前最先进模型Mask-RCNN进行了分析。我们发现小物体的ground-truth与预测的锚框之间的重叠远远低于预期的IoU阈值。我们推测这是由两个因素造成的:(1)只有少数图像包含小物体,(2)即使在包含小物体的每个图像中,小物体也没有足够的出现次数。因此,我们提出对那些包含小物体的图像进行过采样,并通过多次复制粘贴小物体来增强每个图像。
我们评估了不同的pasting augmentation strategies,并最终相对于MS COCO上的方法,在instance segmentation上实现了相对改进9.7%,在小物体的object detection上实现了7.1%的相对改进。
1 Introduction
首先,我们观察到数据集中相对较少的图像包含小物体,这可能会使任何检测模型更多地关注中等和大型物体。其次,小物体所占的面积要小得多,这意味着小物体的位置缺乏多样性。我们推测,当小物体出现在图像的较少探索部分时,这使得物体检测模型很难推广到小物体。
2 Identifying issues with detecting small objects
region proposal network中的每个预测锚框如果它与一个ground-truth的IoU最高,或者对于任何ground-truth,它的IoU超过0.7,将获得正样本标签,这个过程高度偏向于大物体,因为跨越多个滑动窗口位置的大物体通常与许多锚框具有较高的IoU,而小物体可能只与一个IoU较低的锚框匹配。
如表2所列,仅有29.96%的positively matched anchors与小物体配对,而有44.49%的positively matched anchors与大物体配对。从另一个角度来看,这意味着每个大物体有2.54个匹配的锚框,而每个小物体只有一个匹配的锚框。此外,Average Max IoU指标显示,即使是小物体的最佳匹配锚框通常也具有较低的IoU值。小物体的平均最大IoU仅为0.29,而中等和大物体的最佳匹配锚框的IoU值约为其两倍,分别为0.57和0.66。我们通过在图5中展示一些示例来说明这一现象。这些观察结果表明,小物体在计算 region proposal loss,时贡献较少,从而使整个网络偏向于偏爱大和中等物体。
Oversampling and Augmentation
Oversampling: 我们通过在训练过程中对这些包含小物体的图像进行oversampling来解决相对较少包含小物体的图像的问题。这是缓解MS COCO数据集中的问题并提高小物体检测性能的一种简单直接的方法。在实验中,我们变化oversampling rate,并研究oversampling对小物体检测以及中等和大物体检测的影响。
Augmentation: 除了过采样,我们还引入了专注于小物体的数据增强。MS COCO数据集中提供的Instance segmentation masks使我们能够从原始位置复制任何对象,并将其粘贴到不同的位置。在每个图像中增加小物体的数量会增加匹配的锚点的数量。这反过来会提高小物体对训练期间RPN损失函数的贡献。在将对象粘贴到新位置之前,我们对其进行随机变换。我们通过改变物体尺寸±20%进行缩放,并将其旋转±15°。
Copy-Pasting Strategies
有不同的方式可以复制粘贴小物体。我们考虑了三种不同的策略。首先,我们在图像中选择一个小物体,并在随机位置进行多次复制粘贴。其次,我们选择多个小物体,并将每个小物体精确地复制粘贴到任意位置。最后,我们将每个图像中的所有小物体在随机位置多次复制粘贴。在所有情况下,我们使用上述的第三种augmentation设置;也就是说,我们保留原始图像及其augmentation副本。
Pasting Algorithms
在复制粘贴小物体时,有两个要考虑的问题。首先,我们必须决定粘贴的物体是否会与其他物体重叠。尽管我们选择不引入重叠,但我们通过实验证明这是否是一个好的策略。其次,对于粘贴的物体边缘是否执行额外的处理,这是一个设计选择。我们通过实验证明与不进行进一步处理相比,使用不同大小的高斯滤波器对边界进行模糊是否有帮助。