顶刊TPAMI 2024！无需全标注，仅用少量涂鸦标注即可获得确定和一致的语义分割预测结果...

本文介绍了山东大学，北京大学和纽约州立大学石溪分校合作开展的一项工作。该工作面向图像涂鸦弱标注语义分割任务，重点关注采用涂鸦弱标注时语义分割网络的不确定性和不一致性问题。

作者提出最小化熵损失函数和网络嵌入的随机游走过程来分别改善分割网络特征嵌入的不确定性和不均匀性。作者还引入本征空间上的自监督学习对图像的显著区域施加一致性损失，用于缓解不同场景下同一类别的特征不一致问题。最后，作者提出伪标注重训练策略，并在颜色空间流形上构造损失函数以缓解伪标注中噪声的影响。这一研究已被计算机视觉领域顶级期刊 IEEE TPAMI 接收，影响因子 20.8。

论文标题：

CC4S: Encouraging Certainty and Consistency in Scribble-Supervised Semantic Segmentation

论文作者：

潘志一，孙浩辰，蒋鹏（通讯作者），李革，屠长河，凌海滨

论文链接：

https://ieeexplore.ieee.org/document/10559264

代码链接：

https://github.com/panzhiyi/CC4S

会议版本链接：

https://openaccess.thecvf.com/content/ICCV2021/papers/Pan_Scribble-Supervised_Semantic_Segmentation_by_Uncertainty_Reduction_on_Neural_Representation_and_ICCV_2021_paper.pdf

引言

近些年在场景理解上的突破不仅来自于创新的网络架构设计，也得到了大规模细粒度标注的数据集的支持。然而，收集这样一个用于语义分割的数据集并不是一项轻松的工作。例如，对于 Cityscapes 数据集，人工标注一张图像的平均时间在三到五分钟。

因此，各种形式的弱监督被相继提出，例如图像级别监督，包围盒级别监督，点级别监督和涂鸦级别监督。在这些弱监督形式中，涂鸦级别监督凭借其能够在用户友好的标注方式下高效地提供监督信息的能力，获得了研究者们广泛的关注。

为了减少涂鸦标注监督和全标注监督之间的差异，大量的涂鸦监督工作或者从良好标注的其他任务中寻求额外的监督信息，或者通过图结构传播标注，或者将分割正则化引入损失函数。然而，涂鸦监督语义分割任务仍然存在两大方面的问题：

由于标注稀疏导致预测结果的不确定性。因为缺少足够的标注，分割网络会在部分区域产生不确定的预测结果。在下图 (a) 中，我们通过计算预测结果的熵值展示了不同标注形式下的不确定性情况。可以观察到分割网络在缺少涂鸦标注的区域（如边缘和背景部分），更可能给出不确定的预测结果。

由于标注多样导致预测结果地不一致性。由于涂鸦标注的形状和长度有很高的自由度，使得网络难以在训练图像中学习到一个稳定和一致的分割模式。如下图 (b) 所示，涂鸦监督下的网络会给出错误且不一致的预测结果。

方法

为了应对涂鸦标注的这两大问题，本文提出一个整体性和针对性的方法（命名为 CC4S）来鼓励涂鸦标注监督下网络预测结果的确定性和一致性。

为了缓解不确定问题，本文将两个与语义分割相关的分析纳入考量。首先，每一个像素都只属于一个类别，因此在预测类别概率特征向量中应该只有一个通道占主导。其次，在同一个物体内部的神经表征应该是均匀一致的。相应地，我们探究确定性和均匀性这两种先验来构建我们的解决方案。我们最小化预测类别概率特征向量的熵来鼓励网络产生一个主导通道的预测结果。

考虑到边缘位置本身的不确定性，我们在最小化熵的同时去除了可能的边缘位置的影响。同时，引入一个嵌入网络的随机游走模块来根据特征的相似性将每个位置的特征传递到其他位置，以促进均匀的特征表达。另外，随机游走模块中的概率转移矩阵，也会帮助后续一致性增强的过程。

对于不一致性的问题，本文引入了自监督学习中的一致性损失。然而，现有的一致性损失通常都定义在所有的空间像素上，这对于涂鸦标注的边界区域和背景区域可能是不必要或不适用的。这是因为当这些区域通常有较大的变体空间，迫使网络在这些位置产生一样的特征表达可能会给网络带来不必要的负担或困扰。

受到谱聚类方法的启发，即转移矩阵的本征空间能够反映图像的显著区域，我们通过在概率转移矩阵的本征空间施加一致性损失来对图像的显著区域进行自监督学习。

利用这两种针对性的设计，我们能够训练分割网络从而得到确定且一致的特征表达与对应的分割结果。将初步的分割结果作为伪标注对网络进行自训练是一种通用的学习策略。然而，伪标注中所携带的错误标注会阻碍分割网络的优化。因此，本文进一步在颜色空间流形上构造损失函数来缓解错误标注的影响，并对该损失函数的作用域进行了详细地分析。

实验

3.1 消融实验

3.1.1 减少不确定性

此消融实验逐步为基线网络添加最小化熵（作为损失函数），去除边缘的最小化熵，随机游走。可以发现，所有的操作都可以提升分割结果，而共同施加这些操作得到了最优的分割表现。另外，逐步提升边缘的准确性可以激发最小化熵损失函数的最佳性能。但为了不引入新的标注信息，我们在方法中使用无监督学习方法 SLIC 产生的超像素边缘。

在边缘 (boundary) 一栏，我们探究了无监督学习方法 SLIC 的超像素边缘，学习方法 HED 的边缘，以及语义边缘真值 GT 对最小化熵损失函数的性能影响。

3.1.2 自监督学习

从自监督学习的变形操作和作用特征两个方面开展消融实验。从变形操作来看，对图片的反转操作和平移操作都是有效的。从作用特征来看，自监督学习作用在特征的本征空间要明显优于特征空间本身。这是因为在同一种变形操作下，本征空间的变化要低于特征空间。

在作用特征 (target representation) 一栏，我们探究了随机游走前后的特征和，以及转移矩阵的本征空间 () 对自监督学习的性能影响。

3.1.3 伪标注重训练

我们将自训练学习分为伪标注生成阶段和伪标注重训练阶段，探索伪标注重训练阶段和颜色空间流形损失函数对涂鸦监督学习的影响。可以发现，伪标注重训练阶段相对于伪标注生成阶段的预测有显著提升，而颜色空间流形损失单独作用于伪标注重训练阶段时训练得到的网络性能更好。

3.1.4 颜色空间流形损失与标注质量的关系

为了探索颜色空间流形损失与标注质量的关系，我们在标注比例和标注噪声两个维度构造了不同质量的标注。从实验结果来看，当标注具有噪声时，无论标注比例，颜色空间流形损失都是有效的。而当不具有噪声时，颜色空间流形损失仅在低标注比例的设置下提供有限的正向监督信息。这一观察也跟上述有关伪标注重训练的消融实验结果相符合。

3.2 对比实验

下表列出了所提方法与其他方法在 Pascal VOC 2012 和 Pascal Context 两个数据集上的分割性能表现。我们使用了三种语义分割网络作为我们方法的骨干。我们的方法几乎实现了与全监督下 DeepLabV2 相当的分割性能，而且在使用基于 Transformer 设计的骨干网络 OCRNet 下，达到了当前涂鸦监督语义分割任务的最先进性能。与其他方法的可视化比较也同样验证了方法的有效性。

在标注类型 (Ann.) 一栏中，表示全标注，表示点标注，表示包围盒标注，表示图像类别标注，表示涂鸦标注。额外数据 (Extra Data) 一栏表示方法中是否使用了额外数据或需要额外数据训练的模块。

3.3 鲁棒性实验

3.3.1 涂鸦标注质量

我们基于已有的涂鸦标注施加按比例缩小操作和随机丢弃操作构造质量更低的涂鸦标注来验证方法的鲁棒性。在两种质量下降情境下，随着涂鸦标注质量的降低，CC4S 的绝对性能完全优于其他消融方法，且性能下降的趋势也最缓慢。

Baseline 表示基线方法，UR 表示不确定降低策略，SS 表示自监督策略，PR 表示伪标注重训练策略。

3.3.2 涂鸦标注位置

我们还探究了涂鸦标注的位置对于语义分割任务的影响。当前开源的涂鸦标注都是倾向于位于物体中心的，而根据我们的实验结果，位于边缘的涂鸦标注能够为网络学习提供更加丰富的监督。这是因为位于边缘的涂鸦标注蕴含物体边缘的形状信息。而同时提供物体边缘和物体中心的涂鸦标注能够大幅提升训练效率，这提示涂鸦标注过程中应该保证涂鸦标注位置的多样性。

结论

本文发现了仅凭涂鸦标注训练语义分割网络会导致不确定和不一致的预测结果的现象。基于此分析，我们开发了两种策略：一是减少神经表征的不确定性，二是是对神经本征空间进行自监督。通过伪标签重训练，方法达到了最先进的性能，甚至可以与一些全监督方法相媲美。我们的方法不需要额外的标注信息或预设的前提条件。此外，当涂鸦标注被随机丢弃或按比例缩小时，所提出的方法在这些极端情况下也能很好地发挥作用。

更多阅读