FreeSOLO: Learning to Segment Objects without Annotations*(论文解析)

news2025/7/14 14:25:05

FreeSOLO: Learning to Segment Objects without Annotations*

- 摘要
- 引言

摘要

实例分割是一项基本的计算机视觉任务，旨在识别并分割图像中的每个对象。然而，要学习实例分割通常需要昂贵的注释，例如边界框和分割掩模。在这项工作中，我们提出了一种完全无监督的学习方法，可以学习不受类别限制的实例分割，而无需任何注释。我们介绍了FreeSOLO，这是建立在简单实例分割方法SOLO之上的自监督实例分割框架。我们的方法还提出了一种新颖的面向定位的预训练框架，在其中可以以无监督的方式从复杂场景中发现对象。FreeSOLO在具有挑战性的COCO数据集上实现了9.8%的AP50，甚至超过了使用手动注释的若干分割提案方法。我们首次成功展示了无监督的不受类别限制的实例分割。FreeSOLO的边界框定位明显优于最先进的无监督对象检测/发现方法，在COCO AP方面有约100%的相对改进。此外，FreeSOLO还作为一种强有力的预训练方法展现出卓越性能，当仅使用5%的COCO掩模对实例分割进行微调时，超过了最先进的自监督预训练方法约+9.8%的AP。
在这里插入图片描述
图1.FreeSOLO用于类不可知实例分割任务的定性结果。该模型在没有任何手动注释的情况下进行训练，并且可以在V100 GPU上以16 FPS进行推断。最好在屏幕上观看。

引言

实例分割是一项基础的计算机视觉任务，要求识别图像中的对象并对它们进行像素级的分割。实例分割涵盖了对象检测，因为边界框可以被视为分割掩模的粗略参数表示。因此，相对于对象检测而言，实例分割是一项更加苛刻和具有挑战性的任务，因为它要求进行实例级别和像素级别的预测。最近，已经取得了重要进展，以解决实例分割任务[1–7]。然而，这项任务的密集预测性质需要在训练期间进行丰富且昂贵的注释。因此，提出了弱监督实例分割方法来减轻注释要求[8–13]。最新的方法，如BoxInst [11] 和DiscoBox [13]，已经显著缩小了与完全监督方法的差距。然而，它们的竞争结果仍然依赖包含强定位信息的边界框或点注释。

在这项工作中，我们探索了在没有任何注释的情况下学习类别无关的实例分割。这项工作建立在我们最近的SOLO [7]工作基础之上，SOLO是一个简单但强大的实例分割框架，以及自监督的密集特征学习方法DenseCL [14]。SOLO采用了单阶段的设计，包含了一个类别分支和一个掩码分支，用于分别编码对象类别信息和分割建议。我们的主要直觉是，这种“自上而下遇到自下而上”的设计允许我们以完全自监督的方式统一像素分组、对象定位和特征预训练。

我们提出的框架FreeSOLO包含两个主要部分：Free Mask和自监督SOLO，如图2所示。具体而言，Free Mask包含促进网络关注度的自监督设计元素。它包含一个“查询-键”关注度设计，其中查询和键是从自监督特征构建的。该方法计算每个查询与所有键之间的余弦相似性，从而获得一组基于查询条件的（种子）关注度图作为粗略的掩码。粗略掩码通过其掩码得分进行排名和筛选，然后通过非极大值抑制（NMS）进一步去除冗余掩码。自监督SOLO然后将粗略掩码用作伪标签来训练SOLO模型。由于粗略掩码可能不准确，自监督SOLO包含一个弱监督设计，以更好地适应标签噪声。接下来是一个自训练策略，用于进一步改进掩码质量并提高准确性。我们的网络设计与SOLO几乎相同，只有少量修改，因此推理过程简单快速。
在这里插入图片描述
图2.关于FreeSOLO未标记的图像首先被输入到Free Mask以生成粗糙对象掩膜。分割掩膜以及它们相关联的语义嵌入被用于通过弱监督来训练基于SOLO的实例分割模型。我们使用自训练来改进对象掩模分割。

FreeSOLO为自监督实例分割这一具有挑战性的问题提供了有效的解决方案。通过从预测掩码获得的边界框，FreeSOLO还表现出明显的优势，作为一种无监督的对象发现方法。除了上述角色，我们进一步将FreeSOLO视为实例分割的强自监督前提任务，通过共同学习对象级别和像素级别的表示。与图像分类[15-17]、目标检测[18,19]和语义分割[20,21]的预训练相比，实例分割的预训练仍然是一个未经充分研究的领域。通用实例分割不仅需要在像素级别定位对象，还需要识别它们的语义类别。有趣的是，FreeSOLO的设计使我们能够直接以无监督的方式学习对象级别的语义表示。完成预训练后，除了最后的分类层外，所有已学习的参数可以用于初始化监督实例分割模型，以提高准确性。

我们的贡献可以总结如下：
• 我们提出了Free Mask方法，它利用SOLO的特定设计以无监督的方式有效提取粗糙的对象掩膜和语义嵌入。
• 我们进一步提出了自监督SOLO，它利用来自Free Mask的粗糙掩码和语义嵌入来训练SOLO实例分割模型，并引入了一些新颖的设计元素来克服粗糙掩膜中的标签噪声。
• 借助上述方法，FreeSOLO首次成功地展示了无监督实例分割，提供了一个简单而有效的框架。值得注意的是，它胜过了一些使用手动注释的提案生成方法。FreeSOLO还大幅胜过了无监督对象检测/发现的最先进方法（COCO AP相对提高了+100%）。
• 此外，FreeSOLO作为实例分割表示学习的强自监督前提任务。例如，在带有5%标记掩码的COCO数据集上进行微调时，FreeSOLO的性能优于DenseCL [14]（+9.8% AP）。

未完待续。。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1088841.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！