FreeSOLO: Learning to Segment Objects without Annotations*
- 摘要
- 引言
摘要
实例分割是一项基本的计算机视觉任务,旨在识别并分割图像中的每个对象。然而,要学习实例分割通常需要昂贵的注释,例如边界框和分割掩模。在这项工作中,我们提出了一种完全无监督的学习方法,可以学习不受类别限制的实例分割,而无需任何注释。我们介绍了FreeSOLO,这是建立在简单实例分割方法SOLO之上的自监督实例分割框架。我们的方法还提出了一种新颖的面向定位的预训练框架,在其中可以以无监督的方式从复杂场景中发现对象。FreeSOLO在具有挑战性的COCO数据集上实现了9.8%的AP50,甚至超过了使用手动注释的若干分割提案方法。我们首次成功展示了无监督的不受类别限制的实例分割。FreeSOLO的边界框定位明显优于最先进的无监督对象检测/发现方法,在COCO AP方面有约100%的相对改进。此外,FreeSOLO还作为一种强有力的预训练方法展现出卓越性能,当仅使用5%的COCO掩模对实例分割进行微调时,超过了最先进的自监督预训练方法约+9.8%的AP。
图1.FreeSOLO用于类不可知实例分割任务的定性结果。该模型在没有任何手动注释的情况下进行训练,并且可以在V100 GPU上以16 FPS进行推断。最好在屏幕上观看。
引言
实例分割是一项基础的计算机视觉任务,要求识别图像中的对象并对它们进行像素级的分割。实例分割涵盖了对象检测,因为边界框可以被视为分割掩模的粗略参数表示。因此,相对于对象检测而言,实例分割是一项更加苛刻和具有挑战性的任务,因为它要求进行实例级别和像素级别的预测。最近,已经取得了重要进展,以解决实例分割任务[1–7]。然而,这项任务的密集预测性质需要在训练期间进行丰富且昂贵的注释。因此,提出了弱监督实例分割方法来减轻注释要求[8–13]。最新的方法,如BoxInst [11] 和DiscoBox [13],已经显著缩小了与完全监督方法的差距。然而,它们的竞争结果仍然依赖包含强定位信息的边界框或点注释。
在这项工作中,我们探索了在没有任何注释的情况下学习类别无关的实例分割。这项工作建立在我们最近的SOLO [7]工作基础之上,SOLO是一个简单但强大的实例分割框架,以及自监督的密集特征学习方法DenseCL [14]。SOLO采用了单阶段的设计,包含了一个类别分支和一个掩码分支,用于分别编码对象类别信息和分割建议。我们的主要 直觉是,这种“自上而下遇到自下而上”的设计允许我们以完全自监督的方式统一像素分组、对象定位和特征预训练。
我们提出的框架FreeSOLO包含两个主要部分:Free Mask和自监督SOLO,如图2所示。具体而言,Free Mask包含促进网络关注度的自监督设计元素。它包含一个“查询-键”关注度设计,其中查询和键是从自监督特征构建的。该方法计算每个查询与所有键之间的余弦相似性,从而获得一组基于查询条件的(种子)关注度图作为粗略的掩码。粗略掩码通过其掩码得分进行排名和筛选,然后通过非极大值抑制(NMS)进一步去除冗余掩码。自监督SOLO然后将粗略掩码用作伪标签来训练SOLO模型。由于粗略掩码可能不准确,自监督SOLO包含一个弱监督设计,以更好地适应标签噪声。接下来是一个自训练策略,用于进一步改进掩码质量并提高准确性。我们的网络设计与SOLO几乎相同,只有少量修改,因此推理过程简单快速。
图2.关于FreeSOLO未标记的图像首先被输入到Free Mask以生成粗糙对象掩膜。分割掩膜以及它们相关联的语义嵌入被用于通过弱监督来训练基于SOLO的实例分割模型。我们使用自训练来改进对象掩模分割。
FreeSOLO为自监督实例分割这一具有挑战性的问题提供了有效的解决方案。通过从预测掩码获得的边界框,FreeSOLO还表现出明显的优势,作为一种无监督的对象发现方法。除了上述角色,我们进一步将FreeSOLO视为实例分割的强自监督前提任务,通过共同学习对象级别和像素级别的表示。与图像分类[15-17]、目标检测[18,19]和语义分割[20,21]的预训练相比,实例分割的预训练仍然是一个未经充分研究的领域。通用实例分割不仅需要在像素级别定位对象,还需要识别它们的语义类别。有趣的是,FreeSOLO的设计使我们能够直接以无监督的方式学习对象级别的语义表示。完成预训练后,除了最后的分类层外,所有已学习的参数可以用于初始化监督实例分割模型,以提高准确性。
我们的贡献可以总结如下:
• 我们提出了Free Mask方法,它利用SOLO的特定设计以无监督的方式有效提取粗糙的对象掩膜和语义嵌入。
• 我们进一步提出了自监督SOLO,它利用来自Free Mask的粗糙掩码和语义嵌入来训练SOLO实例分割模型,并引入了一些新颖的设计元素来克服粗糙掩膜中的标签噪声。
• 借助上述方法,FreeSOLO首次成功地展示了无监督实例分割,提供了一个简单而有效的框架。值得注意的是,它胜过了一些使用手动注释的提案生成方法。FreeSOLO还大幅胜过了无监督对象检测/发现的最先进方法(COCO AP相对提高了+100%)。
• 此外,FreeSOLO作为实例分割表示学习的强自监督前提任务。例如,在带有5%标记掩码的COCO数据集上进行微调时,FreeSOLO的性能优于DenseCL [14](+9.8% AP)。
未完待续。。