通过点引导掩码表示的弱半监督实例分割

news2025/7/2 21:46:14

文章目录

The Devil is in the Points: Weakly Semi-Supervised Instance Segmentation via Point-Guided Mask Representation
- 摘要
- 本文方法
- - Weakly Semi-Supervised Instance Segmentation using Point Labels
  - Mask Refinement Network
- 实验结果
- - 消融实验

The Devil is in the Points: Weakly Semi-Supervised Instance Segmentation via Point-Guided Mask Representation

摘要

带有点标签的弱半监督实例分割（WSSIS），用于经济高效和高性能的实例分割。
由几个完全标记的图像和许多点标记的图像组成的数据集
为了处理完全标记的数据量极其有限的困难情况，提出了一种MaskRefineNet，它可以细化粗糙掩模中的噪声。
代码地址

没有建议会导致缺少mask
如果给出正确的建议（斑马线），也可以生成mask
噪声往往会导致mask噪声

伪实例掩码的定性结果。（a）和（b）：由于假阴性和假阳性实例建议之间的权衡，伪掩码的质量在很大程度上受到建议的置信度分数的影响。（c）：我们的点驱动方法可以过滤建议，只保留真正的正建议，从而使伪实例掩码的质量更清晰。

本文方法

在这里插入图片描述
步骤1：用完全标记的数据训练教师网络和MaskRefineNet
步骤2：在点标签指导下，通过教师网络生成伪标签，并使用MaskRefineNet进行进一步细化。然后，在伪标记数据和完全标记数据上训练学生网络。

Weakly Semi-Supervised Instance Segmentation using Point Labels

（1）仅使用完整标签来训练教师网络；
（2）使用教师网络生成的完整标签和伪标签以及点标签来训练学生网络。生成高质量的伪标签对WSSIS至关重要，因此我们使用点标签作为过滤建议的指导，以保持真正的积极建议。然后，在给定过滤后的建议的情况下，我们通过利用教师网络的掩码表示来生成实例掩码。
在这里插入图片描述

SOLOv2采用了一个5级特征金字塔（P2～P6），每个金字塔级别都可以识别特定大小的实例。当与使用点标签进行抽样建议相结合时，需要根据实例的大小谨慎地提取建议的级别。否则，生成的实例掩码通常是有噪声的。
根据每个级别的分辨率重新缩放点标签的坐标，并提取所有级别的置信度分数。然后，我们仅从具有最大置信度分数的金字塔级别生成实例掩码，如图4所示。形式上，存在N个提议分支{fpi}Ni=1，并且我们遵循FPN的配置，其中N=5。对于每个点标签（x，y，c），其中c表示类别id，我们提取实例建议和置信度得分（Pi，si）=Fp i（x，y，c）。将置信度得分视为预测的可靠性，我们自适应地选择具有最大得分的金字塔级别k，k=argmaxk∈{1,2，…，N}。
最后，在掩码分支Fm处，我们生成伪实例掩码M=σ（Fm（Pk）），其中σ是sigmoid函数。

Mask Refinement Network

我们松散地裁剪输入图像中的每个实例区域、粗略掩码和点信息，并将它们调整为256×256，然后将它们连接到一个输入张量中。对于点信息，我们将点标签转换为热图的形式，其中每个点被编码为sigma为6的2D高斯核。
MaskRefineNet的有效性可归因于两个原因：
（1）它利用了教师网络的先验知识；由于MaskRefineNet以教师网络的粗略掩码预测为输入，它学习如何校准教师网络预测的常见误差；（2）它采用来自输入点的指导，该输入点可能提供用于识别重叠实例和错误预测像素的准确目标实例提示。因此，MaskRefineNet在点引导的帮助下细化了缺失和有噪声的部分，并解开了粗糙掩模中拥挤的目标实例。
在这里插入图片描述
MaskRefineNet的效果。在10%的COCO完全标记数据条件下的定性结果。当教师网络无法在粗略掩码中解开对象时，MaskRefineNet可以由于给定的点标签（第一行）而分离每个表示。我们的MaskRefineNet进一步丰富了生成的掩码表示（第二行），并去除了有噪声的部分（第三行）。