Towards Noiseless Object Contours for Weakly Supervised SemanticSegmentation

摘要

由于图像标签容易获取，基于图像级标签的弱监督语义分割备受关注。现有的方法通常是从类激活图(CAM)生成伪标签，然后训练分割模型。CAM通常突出显示部分对象并产生不完整的伪标签。一些方法通过在CAM种子标签监督下训练轮廓模型来探索目标轮廓，然后在轮廓引导下将CAM分数从判别区域传播到非判别区域。传播过程受目标内轮廓噪声的影响，传播结果不充分会产生不完整的伪标签。这是因为粗糙的CAM种子标签缺乏足够精确的语义信息来抑制轮廓噪声。本文通过骨干特征共享和在线标签监督，训练了一个SANCE模型，该模型利用辅助分割模块来补充轮廓训练的高级语义信息。辅助分割模块还提供了比CAM更精确的伪标签生成定位图。我们以Pascal VOC 2012和MS COCO 2014为基准评估了我们的方法，并取得了最先进的性能，证明了我们方法的有效性。

The source code can be found at https://github.com/BraveGroup/SANCE

1.引言

如图1 (a)所示，颈部区域的噪声边缘阻碍了目标从头部区域到身体区域的评分，伪标签仅覆盖头部区域。这是因为轮廓监督信号CAM种子标签缺乏足够的高级语义信息。CAM是一个粗糙的定位图，我们只能得到稀疏的种子标签，其中包含许多不确定的像素标签，同时CAM通常会突出前景物体周围的背景区域，从而导致CAM种子标签中的目标区域出现假阳性。

为了使轮廓模型探索具有较少噪声的目标内部边缘的目标轮廓，除了CAM种子标签监督外，我们还采用了辅助分割模块，为轮廓模型训练提供足够的高级语义信息。首先，分割分支通过共享主干特征向轮廓分支共享语义知识;其次，对分割图进行细化，生成在线标签，为轮廓分支提供足够的高层次语义监督;为了使分割分支能够准确预测结果，我们采用CAM种子标签和在线标签作为训练信号。总体上，我们的模型包含一个轮廓分支和一个分割分支，我们称之为分割辅助无噪声轮廓探测模型(SANCE)，这两个分支共享同一主干，并使用CAM种子标签和在线标签进行监督。在线标签是在轮廓约束下通过分数传播细化分割图生成的。对于具有目标内边缘的轮廓地图，分割地图比CAM地图覆盖了更多的目标部分，因此被噪声边缘分割的目标邻近区域在精细分割地图中获得了较高的前景分数，在在线标签中给出了完整的目标估计，并且抑制了噪声的目标内边缘。另一方面，在线标签由于轮廓信息给出了更精确的目标形状，从而迫使分割分支预测完整和精确的目标定位图。经过训练，我们的SANCE模型预测出了无噪声的目标轮廓和高质量的分割图，如图1 (b)所示，我们在此基础上生成了更完整的伪标签。本文的主要贡献总结如下:

我们识别了最近的轮廓辅助CAM改进方法中用于WSSS问题的目标内边缘问题。对象内边缘可能会阻碍对象分数的传播，导致伪标签不完整。
引入SANCE框架，利用辅助分割分支的高级语义信息来探索无噪声目标轮廓。
在Pascal VOC 2012基准上，我们使用生成的伪标签训练DeepLabv2，并在val和测试集上分别以72.0%和72.9%的mIoU实现了最新的性能。在MS COCO 2014上，我们也实现了新的最先进的性能，在val set上有44.7%的mIoU。

图一：IRNet和我们的伪标签生成。(a) IRNet等高线地图包含了很多目标内的边缘，遗漏了一些真实的轮廓，CAM分数不能从判别区传播到非判别区。(b)我们的SANCE预测了无噪声的轮廓和更完整的分割图，从而产生更好的伪标签。

3. The Proposed Approach

如图2所示，SANCE训练过程包含两个阶段。第一阶段采用CAM从图像分类标签中估计初始粗种子。在第二阶段，SANCE学习在粗CAM种子的监督下预测无噪声物体轮廓。SANCE包含一个轮廓分支和一个辅助分割分支，它们共享同一主干，它在辅助分割分支的帮助下学习探索无噪声目标的轮廓。经过训练后，SANCE预测出准确的轮廓地图和分割地图，我们采用这两种地图生成可靠的伪标签用于标准分割模型训练。

在下面几节中，我们将详细说明SANCE的细节。

图二：SANCE培训过程。给定训练图像，我们首先在阶段1中从训练好的分类网络中脱机获取它们的CAM种子。然后，我们通过对训练图像和CAM种子进行数据增强，在第二阶段用CAM种子训练SANCE。由分割图和轮廓图生成的在线标签提供了额外的训练信号，以抑制轮廓噪声，扩大分割图的目标区域。标签细化模块利用分割图或显著图对在线标签进行细化，为使图清晰，不显示这些map的使用情况。

3.1. The CAM Seed

根据之前的工作[1,6]，我们使用CAM[55]从图像分类标签生成初始粗种子。CAM是通过对训练好的分类模型进行重构得到的，为每个类别生成密集的二维激活图，激活图通过过滤负值并除以每个通道中的最大值进行归一化。设S∈[0,1]C×hw为归一化CAM映射，其中C为数据集中类的总数，h, w为输入图像的空间大小，则通过以下方法得到初始掩码Y init:

其中0表示背景，255表示不确定像素。

（这里的 SS 是一个归一化后的类激活映射（CAM）图，Sc,iSc,i 表示第 cc 个类别在像素 ii 的激活值。公式中的 arg maxcSc,iarg maxcSc,i 表示在所有类别 cc 中，找到激活值最大的那个类别 cc。如果这个最大激活值大于 0.3，则 Yinit,iYinit,i 被设置为这个最大概率对应的类别标签；如果最大激活值小于 0.05，则 Yinit,iYinit,i 被设置为 0，表示背景；其他情况则设置为 255，表示不确定的像素。）

给定初始掩码Y init，我们遵循之前的方法IRNet[1]，通过CRF后处理[24]进一步完善它。然后，将处理后的掩模作为初始CAM种子 $Y^{CAM}$ ，对SANCE模型进行粗监督。

3.2. The SANCE Model

以初始CAM种子作为监督，SANCE模型负责生成无噪声的目标轮廓，然后生成精确的伪掩码来训练最终的语义分割模型。如第1节所讨论的，先前获得适当物体轮廓的方法的主要困难在于缺乏高级语义信息。为了缓解边缘噪声问题，我们的SANCE模型训练一个辅助分割分支来帮助其轮廓分支训练。该算法从精细化的分割图中生成在线标签来监督轮廓分支和辅助分割分支，在线标签为轮廓分支提供高级语义信息，提高辅助分割分支的性能。

轮廓预测分支。轮廓预测分支生成一个二元轮廓图，表示不同类别之间的边界。形式上，设I为输入图像，其空间大小为h × w，主干首先从I中提取多阶段特征F。然后，轮廓分支C预测二值映射B = C(F)，其空间大小为h /4 × w /4，为方便起见，我们将h /4 × w/ 4表示为 $\hat{h}\times \hat{w}$ 。注意轮廓图B被sigmoid函数归一化为[0,1]。为了使用语义分割种子Y (CAM种子或在线标签)优化轮廓地图B，我们首先通过以下方法计算B的像素对亲和力:

其中Pij是沿i到j路径的像素集，幂n是控制轮廓灵敏度的超参数，d(i, j)评估像素i和j之间的欧氏距离，δ是阈值。通过这种方法，亲和性aij在不跨越轮廓的相干局部区域具有较高的分数。

然后，我们从种子Y导出亲和目标:

其中Yi和Yj是Y的标签。注意，目标亲和性仅在Y的非忽略区域中定义。这样，亲和性目标在具有相同类标签的局部区域中被定义为正的。则训练B的损失定义为:

其中，N + bg、N + fg、N−分别为背景区域正亲和力、前景区域正亲和力、负亲和力的归一化因子个数。

辅助分割分支。辅助分割分支通过两种方式增强轮廓分支的语义信息。首先，通过共享主干向轮廓分支传递语义信息。其次，利用轮廓信息细化分割图生成的在线标签对两个分支进行监督。在线标签将分割图的语义信息传递给轮廓分支，同时也促进了分割分支的发展。用符号S表示分割分支，从共享特征F生成分割映射M = S(F)，大小为C × $\hat{h}\times \hat{w}$ 的M用softmax函数归一化。对分割分支和共享主干的参数进行优化:

在这里，Ns 是归一化因子，它等于非忽略像素的数量，MYi,i是在 M的第 Yi 个通道中的第 i个像素。在这里，Y可以是CAM种子标签或在线标签。

LS(M,Y)：这是分割损失函数，用于衡量分割图 M 与真实标签 YY 之间的差异。损失函数越小，表示模型的预测越接近真实标签。

M：分割图，是模型预测的输出，表示每个像素属于特定类别的概率或分数。M的尺寸是 C×h^×w^，其中 C 是类别数，h^ 和 w^ 是特征图的空间尺寸。

Y：真实标签，可以是 CAM 种子标签或在线标签。标签中的每个像素值代表像素所属的类别，255 表示忽略像素（例如，由于遮挡或超出图像边界等原因）。

Ns：归一化因子，等于非忽略像素的数量。它用于在求和时对损失函数进行归一化，确保不同图像尺寸的损失可以比较。

∑{i∣Yi=255}：这是一个条件求和，求和遍历所有 Y 中值为 255 的像素索引 i。换句话说，只对那些在 Y 中标记为忽略的像素计算损失。

log⁡(MYi,i)：是对每个非忽略像素计算的对数损失。对于每个像素 i，MYi,i是分割图中对应真实标签 Yi的概率或分数。

在线标签生成。CAM种子，它们指导轮廓和辅助分割分支，为模型训练提供了不足的高级语义信息。尽管由于稀疏采样的局部成对约束，轮廓的训练对不完整的种子相对健壮，但具有丰富高级语义信息的更好种子可以有效地为轮廓分支提供更可靠的像素对。因此，我们设法通过用轮廓图修订分割图来生成在线标签。在线标签用于分别使用损失函数公式（4）和公式（5）来监督轮廓图和分割图。

给定轮廓图B和分割图M，我们首先通过分数传播策略[1]对M进行细化，得到沿边界对齐的分割图 $M^{b}$ 。具体来说，通过对Eq.(2)求值得到像素间的亲和矩阵，A = [aij]∈ $[0,1]^{\hat{h}\hat{w}\times \hat{h}\hat{w}}$ 。然后，将A按列归一化，用 $\hat{A}$ 表示，表示不同像素间的传播概率。给定重塑后的M∈ $[0,1]^{C\times \hat{h}\hat{w}}$ , B∈ $[0,1]^{1\times \hat{h}\hat{w}}$ ，则传播分数Mb由下式得到:

为了减少噪声的影响，我们将图像I中不存在的类的Mb通道设为0，并将Mb的背景通道设为常数值τb。最后，我们根据公式(7)生成基于Mb的在线标签Y b:

其中，Mb c为Mb的第c个通道，i为第i个像素。

标签细化模块。如图3所示，在训练过程中，分割图可能会突出一个小的背景区域，那么分数传播只会将这些错误的分数传播到更多的背景区域，最终导致Y b的许多前景像素标签假阳性，这些错误的Y b会抑制真实的目标轮廓，使得在随后的训练迭代中过度传播问题更加严重。为了缓解这一问题，我们对分割图M应用密集CRF，得到前景标签误差较小的Y CRF，然后利用Y CRF对Y b进行细化，得到Y r如下:

我们也可以采用显著性模型生成的显著性图Y sal，用Eq.(8)中的Y sal代替Y crf来细化Y b, Y sal中的0表示背景，利用Y sal通常效果更好。

图三：标签提炼模块。我们对M应用密集CRF得到Y CRF，我们利用Y CRF修正在线标签Y b的假阳性前景区域。

SANCE模型培训。同时利用CAM种子 $Y^{CAM}$ 和在线标签 $Y^{r}$ 或 $Y^{b}$ 对我们的SANCE模型进行Eqs监督，(4)和(5)。如图2所示，我们对输入图像和CAM种子进行数据增强，将原始图像的一小块调整大小并放置在增强图像的矩形区域，仅在等高线地图和分割地图的相应矩形区域进行在线标签生成和监督。

3.3 分割模型的伪标签合成

伪标签是由轮廓图和分割图组成的，其生成方式与在线标签yb生成的方式类似。不同之处在于我们输入多尺度图像到SANCE模型，利用平均轮廓图和分割图生成伪标签。

表一：当向基线添加不同的组件时，评估了伪标签质量和DeepLabv2的性能，分别在PASCAL VOC 2012训练集上进行。基线：只有一个轮廓分支的模型，由CAM种子监督；SANCE-naive：没有标签细化模块的SANCE；TTA：生成伪标签时使用多尺度数据增强；stride：模型主干的步幅；map：为伪标签生成而修订的轮廓图。

图四：IRNet和我们在PASCAL VOC 2012训练集上的结果。(a)输入图像。(b)ground truth。(c)cam。(d) IRNet的轮廓线。(e) IRNet的CAM传播结果。(f)使用(e)中的标签训练的deepplabv2的预测。(g)我们的轮廓。(h)我们的CAM传播结果。(i)我们的分割图传播结果。(j)用(i)中的标签训练的deepplabv2的预测。

表二：在基线上添加不同分量时的轮廓质量，在SBD验证集上进行评估。（MF:最大F分数。综合了精确度（Precision）和召回率（Recall）的指标）

SBD（Semantic Boundaries Dataset）是一个公开的语义图像分割数据集，它提供了详细的边界注释，用于评估和训练语义分割模型。SBD数据集扩展了PASCAL VOC数据集，提供了更丰富的训练样本和边界注释信息，这有助于提高语义分割算法的性能。

表三：不同在线标签监管设置下的伪标签质量和deeplabv2性能，分别在PASCAL VOC 2012训练集和val集上进行评价

4.实验

4.3消融实验

不同训练时期的伪标签。在这一部分中，我们研究了不同训练时期的伪标签质量，并与上述基线进行了比较。如图5所示，基线的伪标签在第一个epoch达到最佳性能，并且随着训练的继续趋于退化。我们的模型的伪标签在第一个epoch得到了更好的结果，并且随着训练的进行不断改进。结果表明，该方法可以在线提取模型中存在的语义信息来监督模型本身，从而对在线标签和模型进行迭代改进。

图五：在PASCAL VOC 2012训练集上对IRNet和SANCE在不同训练时期的伪标签质量进行了评价。

图六：deepplabv2在PASCAL VOC 2012验证集上的定性结果。(a)输入图像。(b)ground truth。(c)我们的结果。

表4：在PASCAL VOC 2012训练集和val集上分别对不同分支在线标签细化时的伪标签质量和deeplabv2性能进行了评价。

从表3的结果可以看出，在轮廓分支中加入在线标签监管可以提高伪标签质量，并且用Y b进一步监管两个分支的效果最好，说明在线标签确实可以改善轮廓分支。仅使用Y b监督分割图会产生比基线略差的结果，这是因为轮廓分支通常在没有在线标签监督的情况下过拟合有噪声的CAM种子。

从表4的结果可以看出，细化任何分支的在线标签都可以提高SANCE的性能，并且细化一个分支的在线标签比细化两个分支的效果更好，我们认为这是因为细化两个分支过多地抑制了对象区域扩展过程，SANCE会产生对象不完整的伪标签。在对轮廓分支进行在线标签细化时，得到了最好的结果，并将此细化选择作为SANCE的默认设置。