论文名称:Rethinking the Localization in Weakly Supervised Object Localization
论文地址:Rethinking the Localization in Weakly Supervised Object Localization (arxiv.org)
1.背景
最近,将WSOL分成两部分(与类无关的对象定位和对象分类)已经成为完成这项任务的最先进的方法。然而,现有的这种流水线下的解决方案通常存在以下缺点:
1)由于采用单类回归(single-class regression, SCR)进行定位,每张图像只能定位一个目标,不太灵活;
2)生成的伪边界盒可能有噪声,但这种噪声的负面影响没有得到很好的解决。
2.论文的创新点
为了解决背景中的问题,论文首先提出用二元类检测器(BCD)代替SCR来定位多目标,其中检测器通过区分前景和背景来训练;然后利用未标记的数据设计加权熵损失来降低噪声边界框的负面影响。
尽管分离的定位、分类管道具有SOTA性能,但主要缺点是采用简单的SCR进行定位。SCR只能为一个图像提供一个输出边界框,因此在处理包含多个对象的图像时不充分且不灵活,这在实际应用中很常见。另外,生成的伪边界框可能是不准确的,甚至是完全错误的,但是这些有噪声的标签被直接用于训练,而没有经过仔细的考虑。为了克服这些缺点,我们提出了一种新的wsols方法,称为加权熵引导二类检测器(WEND)。特别地,我们首先提出用二进制类检测器(BCD)代替SCR,该检测器可以自然输出多个边界框,并通过区分前景和背景以二进制分类方式进行训练。这可以提高灵活性和准确性,因为任何竞争性检测器都可以合并。然后,为了减轻噪声边界盒对检测器训练的负面影响,我们进一步提出了利用大量未标记数据的加权熵损失(we)。熵最小化可以减少前景和背景区分时的不确定性。考虑到背景部分通常比前景物体多很多,我们重新加权熵损失来降低过于自信的背景的权重,使检测器更多地关注不太自信的前景。如图1所示,与目前分离的定位分类管道中采用的定位方法相比,我们的WEND能够预测多个边界框,并且预测结果具有低熵高置信度的特点。
效果图如下:
3.方法
在训练阶段,通过区分前景和背景,以二值分类的方式训练多输出检测器(如RPN+R-CNN),其中利用现有方法(如C2AM)生成的类别不确定的伪边界框作为ground-truth标签。将输出的正(蓝色)和负(红色)概率{𝑝}和位置{𝑡}(如果可能的话,以及定位质量{𝑐})与训练的伪边界框进行比较。此外,将无监督加权熵(WE)约束应用于二类检测器(BCD)的分类器,以处理噪声伪标签的负面影响。通过对预测概率进行加权熵最小化,可以以更高的置信度识别前景,并进一步细化边界框。
(1)二元类检测器
首先使用传统的CNN主干提取输入图像的特征图,主干可以是VGG、ResNet、Inception或GoogLeNet。然后,在我们的工作中,直接将检测头应用于特征映射以生成预测,该预测由预测的分类概率(以及可能的定位质量)和预测的边界框组成。然后在训练过程中,通过IoU重叠或一对一匹配来分配标签,将伪ground-truth边界框与检测器的预测结果进行比较。例如,对于基于锚点的检测器,如果锚点的IoU重叠等于或高于具有任何伪接地真值框的预定前景IoU阈值,则为其分配一个正标签。如果没有符合此标准的正锚点,则认为与伪接地真值盒IoU重叠最大的锚点为正锚点。另一方面,如果锚的IoU小于具有所有伪真值框的预定背景IoU阈值,则为其分配负标签。所有其他锚都被忽略,对训练过程没有贡献。利用匹配结果计算伪监督损失,它由分类损失和回归损失组成:
(2)加权熵损失
4.实验
5.不足
当背景令人困惑时,我们的WEND会失败。因此,未来的工作可能是发现图像的主题,以减少干扰。对于更复杂的数据集ImageNet-1K[25]也是如此:当存在多个对象类别或令人困惑的背景时,算法必须能够找到主要目标。此外,遮挡问题也需要解决。