0.摘要
本文研究了只使用图像级别标签作为监督来学习图像语义分割网络的问题,这是重要的,因为它可以显著减少人工标注的工作量。最近在这个问题上的最新方法首先使用深度分类网络推断出每个对象类的稀疏和有区别的区域,然后使用有区别的区域作为监督来训练语义分割网络。受传统图像分割方法中种子区域生长的启发,我们提出了一种从有区别的区域开始训练语义分割网络,并逐渐增加像素级别监督的方法,通过种子区域生长引入。种子区域生长模块被集成在深度分割网络中,并且可以从深度特征中受益。与传统的固定/静态标签的深度网络不同,提出的弱监督网络使用图像内的上下文信息生成新的标签。所提出的方法在使用静态标签的弱监督语义分割方法方面取得了显著的优势,并获得了最先进的性能,在PASCAL VOC 2012测试集上的mIoU得分为63.2%,在COCO数据集上的mIoU得分为26.0%。
1.引言
深度卷积神经网络(DCNN)在图像语义分割问题上取得了巨大的成功[5,18],这要归功于大量的完全注释图像。然而,收集大规模准确的像素级注释是耗时的,通常需要大量的财力投入。然而,未标记和弱标记的视觉数据可以以相对快速和廉价的方式大量收集。因此,计算机视觉研究的一个有前途的方向是开发能够从未标记或弱标记的图像中学习的目标识别方法[14,32]。
在这篇论文中,我们研究了从弱标记图像中学习语义分割网络的问题。在各种弱标记的设置中,图像级别注释是最经济和最高效的设置之一。在这种情况下,每个训练图像都有其图像类别标签,表示属于类别标签的对象出现在图像中。然而,对象的位置是未知的,我们需要推断对象的像素级位置。因此,训练弱监督语义分割网络的主要问题是如何将图像级别标签准确地分配给相应的像素。
为了在训练中建立所需的像素标签对应关系,有一项非常有见地的研究工作。Kolesnikov等人[14]采用了一个带有分类激活图(CAM)方法的图像分类网络,选择最有区别的区域,并将这些区域作为分割网络的像素级监督。与早期的弱监督语义分割方法[22,20]相比,基于有区别区域的方法显著提高了这个具有挑战性的任务的性能。然而,在[14]中,有区别区域是小而稀疏的,如图1中的第0个迭代图像所示。在训练中,语义分割网络的监督被固定为稀疏的有区别区域。因此,我们将[14]中的学习策略称为"静态监督"。静态监督设置偏离了语义分割任务的要求,该任务要求在训练分割模型时需要准确和完整的对象区域。
为了解决这个问题,我们提出了在训练语义分割网络时将有区别区域扩展到覆盖整个对象的方法。在实践中,有区别区域周围的像素总是属于同一个对象,因为相同对象的语义标签具有空间连续性。我们的动机是,使用图像标签可以从感兴趣的对象中找到小而稀疏的有区别区域,称为“种子线索”,种子线索周围具有相似特征(如颜色、纹理或深度特征)的像素可能具有与种子线索相同的标签。我们利用经典的种子区域生长(SRG)方法[1]来模拟这个过程,生成准确和完整的像素级标签。在这里,我们可以在像素级标签的监督下训练语义分割网络。与[14,19]不同,像素级标签是动态的。动态监督与使用固定监督的传统网络训练非常不同。在我们的情况下,我们让网络生成输入训练样本即训练图像的新标签。SRG被整合到深度分割网络中,可以端到端地优化并利用深度特征。我们将这种方法称为“深度种子区域生长(DSRG)”用于弱监督语义分割。
在实践中,由分类网络定位的种子线索虽然小但精度高。将种子线索作为SRG中的种子点是一种自然的方式。此外,为了衡量种子点与相邻像素之间的相似性以进行区域生长,我们利用分割网络输出的分割图作为特征。因此,SRG将种子线索视为初始种子点;然后,在分割图中,具有高概率对应于它们所属类别的相邻像素将与种子线索具有相同的标签。这个过程重复进行,直到没有像素满足上述约束为止。最后,DSRG的输出被用作训练分割网络的监督。在训练阶段,使用监督来构建损失函数,称为"种子损失"。在种子区域中,损失与[5]中的完全监督损失函数相同;其他位置通过种子损失被忽略
在训练过程中,DSRG方法逐渐丰富了分割网络的监督信息。如图1所示,第0个迭代中的监督实际上是分类模型生成的种子线索,这些线索定位了人和马的头部,是图像中最有区别的区域。随着迭代次数的增加,动态监督逐渐接近真实情况,并精确地覆盖整个对象内容。同时,动态监督指导网络产生有竞争力的分割结果。为了确保训练的稳定性,DSRG始终选择原始种子线索作为初始种子点。
在实验中,我们在具有挑战性的PASCAL VOC 2012语义分割基准[8]和COCO上展示了我们方法的有效性,并展示了我们取得了最新的最优结果。此外,我们通过进行一些消融研究对DSRG方法进行了分析。
总结起来,本文的主要贡献如下:
- 在深度语义分割网络中,我们利用了种子区域生长[1]机制,使网络能够安全地为弱监督语义分割生成新的像素级标签。此外,网络可以端到端地优化,并且容易训练。
- 我们的工作在PASCAL VOC分割基准和COCO数据集上取得了最新的弱监督语义分割性能。我们的方法在PASCAL VOC验证集和测试集上的mIoU分别为61.4%和63.2%,优于许多复杂的系统,并且接近全监督分割系统[6](验证集/测试集上的mIoU分别为67.6%/70.3%)。
本文的剩余部分按照以下方式组织。我们首先在第2节回顾相关工作,并在第3节中描述我们方法的架构。在第4节中,我们讨论了改进动态监督质量的详细过程,并分析了实验结果。第5节提出了我们的结论和未来的工作。
图1:顶部一行按顺序显示了一张带有图像级标签的训练图像,仅使用图像级监督的我们提出的方法的分割结果,以及真实标注的地面真值。我们的分割结果非常接近人工标注的地面真值。底部一行显示了在提出的弱监督语义分割网络训练过程中几个迭代中的动态监督情况。(黑色代表背景,白色代表未标记/忽略的像素)。