0.摘要
本文研究了仅使用图像级别监督进行语义分割学习的问题。目前流行的解决方案利用分类器的对象定位图作为监督信号,并努力使定位图捕捉更完整的对象内容。与之前主要关注于图像内部信息的努力不同,我们着眼于跨图像语义关系在全面对象模式挖掘中的价值。为了实现这一目标,我们将两种神经协同注意力引入分类器,以互补方式捕捉跨图像的语义相似性和差异性。特别是,在给定一对训练图像的情况下,一个协同注意力强制分类器从共同关注的对象中识别共同的语义,而另一个被称为对比协同注意力的协同注意力则驱使分类器从其余的不常见对象中识别不共享的语义。这有助于分类器发现更多的对象模式,并更好地确定图像区域的语义。除了提升对象模式学习之外,协同注意力还可以利用其他相关图像的上下文来改进定位图推断,从而最终有益于语义分割学习。更重要的是,我们的算法提供了一个统一的框架,能够很好地处理不同的WSSS设置,即仅使用(1)精确的图像级别监督,(2)额外的简单单标签数据,以及(3)额外的噪声网络数据进行WSSS学习。它在所有这些设置上都取得了新的最先进水平,充分展示了其有效性和通用性。此外,我们的方法在CVPR2020学习不完美数据挑战赛的弱监督语义分割轨道中获得第一名。
1.引言
最近,基于现代深度学习的语义分割模型[5,6]通过大量手动标注的数据训练,实现了比以前更好的性能。然而,全监督学习范式的主要限制是需要大量的手动标注工作量,特别是对于像素级的语义分割地面真实标注而言,这是非常昂贵的。许多努力致力于开发使用较弱形式的监督进行语义分割,例如边界框[45],涂鸦[36],点[3]和图像级别标签[46]等。其中,使用仅图像级别标签实现弱监督语义分割(WSSS)的显著和吸引人的趋势,要求最少的注释工作量,并在本文中遵循该趋势。
为了处理仅使用图像级别标签的WSSS任务,当前流行的方法基于网络可视化技术[80, 86],这些技术发现用于分类的判别性区域。这些方法利用图像级别标签训练分类器网络,从中派生出类激活图作为伪地面真实用于进一步监督像素级语义学习。然而,通常有证据表明,训练的分类器倾向于过度关注最具有区别性的部分而不是整个对象,这成为该领域的关注点。有多种解决方案被探索,通常采用以下方法:图像级别操作,如区域隐藏和擦除[30, 69],扩展初始激活区域的区域增长策略[27, 62],以及从深层特征中收集多尺度上下文的特征级增强[33, 71]。
这些努力通常取得了令人满意的结果,这证明了在WSSS中挖掘判别性物体模式的重要性。然而,如图1(a)所示,它们通常仅使用单个图像的信息进行物体模式的发现,忽视了弱注释数据中丰富的语义上下文。例如,利用图像级别标签不仅可以识别每个单独图像的语义,还可以给出跨图像的语义关系,即两个图像是否共享某些语义,这些关系应该被用作物体模式挖掘的线索。受此启发,我们进一步解决了跨图像语义相关性对于完整物体模式学习和有效的类激活图推理的价值(见图1(b-c))。特别地,我们的分类器配备了一种可微的协同注意机制,用于处理训练图像对之间的语义均一性和差异性理解。具体而言,在分类器中学习了两种协同注意力。前者旨在捕捉跨图像的共同语义,使得分类器能够更好地将共同的语义标签与协同注意区域进行关联。后者称为对比性协同注意力,侧重于剩余的非共享语义,有助于分类器更好地区分不同对象的语义模式。这两种协同注意力以合作和互补的方式工作,共同使分类器更全面地理解物体模式。
除了有利于物体模式学习外,我们的协同注意力还提供了一种用于精确定位图推理的高效工具(见图1(c))。给定一张训练图像,一组相关的图像(即共享某些共同语义的图像)被协同注意力用于捕捉更丰富的上下文信息并生成更准确的定位图。另一个优点是,我们基于协同注意力的分类器学习范式提供了一种高效的数据增强策略,由于使用了训练图像对。总体而言,我们的协同注意力在分类器的训练阶段和定位图推理阶段都能促进物体的发现。这提供了获取更准确的伪像素级注释的可能性,从而促进最终的语义分割学习。
我们的算法是一个统一而优雅的框架,适用于不同的WSSS设置。最近,为了克服WSSS中的固有限制而不需要额外的人工监督,一些研究借助于来自其他现有数据集中简单的单类别数据或者廉价的网络爬取数据[35,48,18,53,54,70]。尽管它们在一定程度上提高了性能,但是为了应对域差异和数据噪声的挑战,需要使用复杂的技术,如能量函数优化[18,58]、启发式约束[54]和课程学习[70],限制了它们的实用性。然而,由于我们的方法使用了成对的图像数据进行分类器训练和物体地图推理,因此对噪声具有很好的容忍性。此外,我们的方法还能够自然地处理域差异,因为协同注意力能够有效地处理域共享的物体模式学习,并在协同注意力参数学习的过程中实现域自适应。我们在PASCAL VOC 2012 [10]上进行了大量实验,涵盖了三种WSSS设置,即仅使用PASCAL VOC图像级别监督、额外的简单单标签数据和额外的网络数据。我们的算法在每个案例中都达到了最先进的水平,验证了其有效性和普适性。此外,我们的方法还在CVPR2020 Learning from Imperfect Data (LID) Challenge[72](LID20)的弱监督语义分割任务中名列第一,大幅领先其他竞争对手。
我们的贡献有三个方面:
(1) 我们解决了跨图像语义相关性在完整物体模式学习和物体位置推断中的价值问题,通过一个能够处理成对训练样本的协同注意力分类器实现。
(2) 我们的协同注意力分类器以更全面的方式挖掘语义线索。除了单一图像语义之外,它还通过协同注意力和对比协同注意力从跨图像语义相似性和差异性中挖掘补充的监督信息。
(3) 我们的方法具有很强的通用性,可以学习具有精确图像级别监督、额外的简单单标签甚至是噪声网站爬取数据的WSSS。它优雅地解决了不同WSSS设置的固有挑战,并始终展现出有希望的结果。
图1:(a) 当前的WSSS方法只使用单一图像的信息进行物体模式的发现。(b-c) 我们的协同注意力分类器利用跨图像的语义信息作为类别级上下文,从而有利于物体模式的学习和定位图的推断。
2.相关工作
弱监督语义分割。最近,许多弱监督语义分割方法被提出来减轻标注成本。各种形式的弱监督被探索,如边界框[9,45],涂鸦[36],点级监督[3]等。其中,由于其较少的注释需求,图像级别的监督引起了最多的关注,并且也被采用在我们的方法中。
目前,针对图像级别监督的弱监督语义分割问题,当前流行的解决方案依赖于网络可视化技术[80, 86],特别是类激活映射(CAM)[86],它可以发现对分类有信息量的图像像素。然而,CAM通常只能识别对象的小部分有区别性的部分,使其不是语义分割训练的理想代理真值。因此,为了将CAM突出的区域扩展到整个对象,人们做出了许多努力。特别是,一些代表性的方法利用图像级别的隐藏和擦除操作,使分类器专注于对象的不同部分[30, 34, 69]。而另一些方法则采用区域增长的策略,即将CAM激活的区域视为初始的“种子”,逐渐扩展种子区域直到覆盖整个对象[2, 22, 27, 62]。同时,一些研究人员研究了如何在特征级别上直接增强激活的区域[31, 33, 71]。在构建CAM时,他们通过扩张卷积[71]、多层特征融合[33]、显著性引导的迭代训练[62]或随机特征选择[31]来收集多尺度的上下文。还有一些方法通过多个训练阶段积累CAM[23],或者自我训练一个差异检测网络以使用可信信息完善CAM[55]。此外,最近的一个趋势是利用类别无关的显著性线索在定位图推断过程中过滤掉背景响应[11, 22, 31, 34, 62, 69, 71]。
由于上述问题设置中提供的监督非常弱,另一类方法探索利用其他来源的更多图像级别监督。主要有两种类型:(1) 探索简单、单标签的示例[35, 48](例如,来自现有数据集[15, 51]的图像);或者 (2) 利用近乎无限但嘈杂的网络图像[18, 53, 54, 70]或视频[18, 32, 58]数据(也称为网络监督的语义分割[24])。除了额外数据和目标语义分割数据集之间的域差异的共同挑战之外,第二类方法还需要处理数据噪声。
过去的努力只考虑了每个图像的个体性,只有很少的例外[11, 53]考虑了跨图像的信息。[53]简单地在网络图像上应用现成的共分割方法[25]来生成前景先验,而不是像我们一样将语义关系编码到网络的学习和推理中。对于[11],虽然也利用了图像对内的相关性,但其核心思想是利用支持图像的额外信息来补充当前的视觉表示。因此,期望这两个图像更好地包含相同的语义,而不匹配的语义会带来负面影响。相反,我们将语义的同质性和差异性都视为信息提示,驱使我们的分类器更明确地识别共享和非共享的对象。此外,[11]只利用单一图像推断被激活的对象,而我们的方法在分类器训练和定位图推断阶段都全面利用跨图像的语义信息。更重要的是,我们的框架简洁灵活,不仅能够从干净的图像级别监督中学习WSSS,而且还能够自然地利用额外的嘈杂的网络爬取或简单的单标签数据,与之前的方法相比,这些方法局限于特定的训练设置,并且在很大程度上依赖于复杂的优化方法[18, 58]或启发式约束。
确定性神经注意力。可微分的注意力机制使神经网络能够更多地关注输入中的相关元素,而不是无关部分。在自然语言处理领域的普及[7,37,41,47,59]中,注意力建模迅速被应用于各种计算机视觉任务,如图像识别[12,21,57,64,73]、领域适应[65,84]、人体姿态估计[8, 61, 78]、物体之间的推理[52, 87]和图像生成[77, 82, 88]。此外,共同注意力机制在许多视觉-语言应用和序列建模任务中成为一个重要工具,如视觉问答[39,42,76,79]、视觉对话[74,85]、视觉-语言导航[66]和视频分割[40,60],显示出其在捕捉不同实体之间的潜在关系方面的有效性。受注意力机制的一般思想启发,本研究利用共同注意力来挖掘训练图像对中的语义关系,帮助分类器网络学习完整的对象模式并生成精确的对象定位图。
3.方法论
问题设置。在这里,我们遵循当前流行的WSSS流程:给定一组具有图像级标签的训练图像,首先训练一个分类网络来发现相应的具有鉴别性的对象区域。然后,将训练样本上得到的对象定位图作为伪标签进行进一步的精炼,以进一步监督语义分割网络的学习。
我们的想法。与大多数以前的方法将每个训练图像作为个体处理不同,我们探索跨图像的语义关系作为理解对象模式更全面的类别级上下文。为了实现这一点,我们设计了两个神经共同注意力机制。第一个共同注意力机制驱使分类器从共同关注的对象区域中学习共享的语义信息,而另一个共同注意力机制则强制分类器关注其余的对象以进行非共享语义的分类。
3.1.共同注意力分类网络
我们将训练数据表示为I = {(In, ln)}_n,其中In是第n个训练图像,ln∈{0, 1}^K是与K个语义类别相关联的真实标签。如图2(a)所示,图像对,即(Im, In),是从I中采样用于训练分类器。将Im和In输入分类器的卷积嵌入部分后,得到对应的特征图Fm∈ R^C×H×W和Fn∈ R^C×H×W,每个特征图具有H×W的空间维度和C个通道。
如在[23, 31, 32]中所示,我们可以先将Fm和Fn分别传递给一个类别感知的全卷积层ϕ(·),以生成类别感知的激活图,即Sm=ϕ(Fm)∈R^K×H×W和Sn=ϕ(Fn)∈R^K×H×W。然后,我们对Sm和Sn进行全局平均池化 (GAP),得到Im和In的类别分数向量sm∈R^K和sn∈R^K。最后,使用sigmoid交叉熵 (CE)损失进行监督:
到目前为止,分类器是以标准方式学习的,即只使用单个图像的信息进行语义学习。可以直接使用激活图来监督下一阶段的语义分割学习,就像在[22, 32]中所做的那样。与之不同的是,我们的分类器还利用了共同注意力机制来进一步挖掘跨图像的语义信息,最终更好地定位对象。 用于跨图像共同语义挖掘的共同注意力机制。我们的共同注意力机制同时关注两个图像Im和In,并捕捉它们之间的相关性。我们首先计算Fm和Fn之间的关联矩阵P:
其中,Fm ∈ R^C×HW和Fn ∈ R^C×HW被展平为矩阵格式,WP ∈ R^C×C是可学习的矩阵。关联矩阵P存储了Fm和Fn中所有位置对应的相似度分数,即P的第(i, j)个元素给出了Fm中第i个位置与Fn中第j个位置之间的相似度。 然后,对P进行列归一化,以便在Fn中的每个位置上生成跨Fm的注意力图,同时进行行归一化,以便在Fm中的每个位置上生成跨Fn的注意力图:
这里的softmax操作是按列进行的。这样,An和Am在它们的列中存储了共同注意力图。接下来,我们可以根据Fn的每个位置来计算Fm(Fn)的注意力摘要。
其中,Fm∩n和Fn∩n被重新调整为R^C×W×H。从Fn导出的共同注意力特征Fm∩n保留了Fm和Fn之间的共同语义,并在Fm中定位了共同的对象。因此,我们可以期望只有共同的语义lm∩ln可以从Fm∩n中安全地推导出来,Fn∩n也是如此。这种基于共同注意力的共同语义分类可以让分类器更完整、更精确地理解对象的模式。 为了使事情更直观,考虑图2中的例子,其中Im包含Table和Person,In包含Cow和Person。由于共同注意力本质上是Im和In之间所有位置对之间的关联计算,只有共同对象Person的语义将被保留在共同注意力特征Fm∩n和Fn∩n中(见图2(b))。如果我们将Fm∩n和Fn∩n输入到类别感知的全卷积层ϕ中,生成的类别感知激活图Sm∩n=ϕ(Fm∩n)∈R^K×H×W和Sn∩n=ϕ(Fn∩n)∈R^K×H×W能够分别在Im和In中定位共同的对象Person。经过GAP后,预测的语义类别(分数)sm∩n∈R^K和sn∩n∈R^K应该是Im和In的共同语义标签lm∩ln,即Person。
通过共同注意力计算,不仅人脸作为人的最具区别性的部分被突出显示在Fm∩n和Fn∩n中,其他部位如腿和手臂也被突出显示(见图2(b))。当我们将共同的类别标签,即Person,作为监督信号时,分类器将意识到Fm∩n和Fn∩n中保留的语义相关并可以用于识别Person。因此,跨两个相关图像计算的共同注意力明确帮助分类器将语义标签与相应的对象区域关联起来,并更好地理解不同对象部分之间的关系。它实质上充分利用了训练数据中的上下文信息。 直观地说,对于基于共同注意力的共同语义分类,Im和In共享的标签lm ∩ ln用于监督学习:
对于跨图像的独占语义挖掘,除了上述描述的探索跨图像共同语义的共同注意力外,我们提出了一种对比共同注意力,用于挖掘成对图像之间的语义差异。共同注意力和对比共同注意力相辅相成,帮助分类器更好地理解对象的概念。 如图2(a)所示,对于Im和In,我们首先从它们的共同注意力特征Fm∩n和Fn∩n中得到无类别偏倚的共同注意力:
其中,σ(·)是sigmoid激活函数,参数矩阵WB∈R^1×C用于学习共同语义集合,并通过1×1卷积层实现。Bm∩n m和Bm∩n n是无类别偏倚的,并且分别在Im和In中突出显示所有共同的对象区域,基于这些区域我们得到对比共同注意力:
对于跨图像的独占语义挖掘,除了上述描述的探索跨图像共同语义的共同注意力外,我们提出了一种对比共同注意力,用于挖掘成对图像之间的语义差异。共同注意力和对比共同注意力相辅相成,帮助分类器更好地理解对象的概念。 如图2(a)所示,对于Im和In,我们首先从它们的共同注意力特征Fm∩n和Fn∩n中得到无类别偏倚的共同注意力:
其中,σ(·)是sigmoid激活函数,参数矩阵WB∈R^1×C用于学习共同语义集合,并通过1×1卷积层实现。Bm∩n m和Bm∩n n是无类别偏倚的,并且分别在Im和In中突出显示所有共同的对象区域,基于这些区域我们得到对比共同注意力:
其中,‘⊗’表示逐元素乘法,其中注意力值沿通道维度复制。接下来,我们可以顺序地得到类别感知的激活图,即S m\n m = ϕ(F m\n m ) ∈ R^K×H×W和S n\m n = ϕ(F n\m n ) ∈ R^K×H×W, 以及语义得分,即s m\n m = GAP(S m\n m ) ∈ R^K和s n\m n = GAP(S n\m n ) ∈ R^K。 对于s m\n m和s n\m n,它们用于识别不共享对象的类别,即lm\ln和ln\lm。 与探索共同语义作为增强对象模式挖掘的信息提示的共同注意力相比,对比共同注意力从成对图像之间的语义差异中获取互补知识。图2(b)给出了一个直观的例子。在计算Im和In之间的对比共同注意力(公式7)之后,在它们原始图像中独特的Table和Cow被突出显示。基于对比共同注意力特征,即F m\n m和F n\m n,分类器需要准确识别Table和Cow类别。当对比共同注意力过滤掉共同对象时,分类器有机会更专注于其余图像区域,并更有意识地挖掘不共享的语义。这也有助于分类器更好地区分不同对象的语义,因为对比共同注意力将共同对象的语义和不共享的对象的语义解耦。例如,如果Cow的某些部分被错误识别为与Person相关,对比共同注意力将在F n\m n中丢弃这些部分。然而,F n\m n中剩余的语义可能不足以识别Cow。这将迫使分类器更好地区分不同对象。
对于基于对比共同注意力的不共享语义分类,监督损失被设计为:
更深入的讨论。可以从辅助任务学习的角度解释我们的共同注意力分类器[14,43],这是自监督学习领域中进行的一种研究,旨在通过探索内在数据结构中的辅助任务来提高数据效率和鲁棒性。在我们的情况下,我们不是研究传统的单图像语义识别任务,在传统的弱监督语义分割方法中已经广泛研究,而是探索了两个辅助任务,即从图像对中预测共同和不共同的语义,以充分挖掘来自弱监督的监督信号。分类器通过关注(对比的)共同注意力特征来更好地理解跨图像的语义,而不仅仅依赖于图像内部的信息(见图2(c))。此外,这种策略也体现了图像共分割的思想。由于训练集中给出了图像级别的语义信息,关于一些图像共享或不共享某些语义的知识应该被用作线索或监督信号,以更好地定位相应的对象。我们基于共同注意力的学习流程还提供了一种有效的数据增强策略,由于使用了成对的样本,其数量接近单个训练图像数量的平方。
3.2.共同注意力分类器引导的弱监督语义分割学习
训练共同注意力分类器。我们的共同注意力分类器的整体训练损失包括公式1、5和9中定义的三个项:
在我们的所有实验中,不同损失项的系数都设置为1。在训练过程中,为了充分利用共同注意力来挖掘共同的语义,我们采样两个具有至少一个共同类别的图像(Im,In),即lm∩ln 6=0。
生成对象定位图。一旦我们的图像分类器训练完成,我们将其应用于训练数据I={(In, ln)}n,以生成相应的对象定位图,这对语义分割网络的训练非常重要。我们探索了两种不同的策略来生成定位图。
- 单次前向预测,对每个训练图像进行独立预测。对于每个训练图像In,运行分类器并直接使用其类别感知激活图(即Sn∈R K×H×W)作为对象定位图Ln,这与大多数之前基于网络可视化的方法[23,32,54]类似。
- 多轮共同注意预测与额外的参考信息,通过考虑其他相关训练图像(参见图1(c))。具体而言,给定训练图像In及其关联的标签向量ln,我们以类别为单位生成其定位图Ln。对于In中标记为类别k∈{1,···,K}的语义类,即ln,k = 1且ln,k是ln的第k个元素,我们从I中采样一组相关图像R={Ir}r,这些图像也被标注为类别k,即lr,k = 1。然后,我们计算每个相关图像Ir∈R到In的共同注意特征Fm∩rn,并得到基于共同注意的类别感知激活图Sm∩rn。给定来自R的所有类别感知激活图{Sm∩rn}r,它们被集成来推断仅针对类别k的定位图,即Ln,k = 1/|R| * Σr∈R Sm∩rn,其中Ln,k∈RH×W和S(·)n,k∈RH×W表示Ln∈RK×H×W和S(·)n∈RK×H×W的第k个通道的特征图,‘|·|’表示元素数量。在为In的所有标记语义类推断定位图后,我们可以得到Ln。
这两种定位图生成策略在我们的实验中进行了研究(§4.5),并且最后一种策略更受青睐,因为它同时使用了图像内部和图像间的语义信息进行对象推断,并且与训练阶段具有相似的数据分布。可能会注意到这里没有使用对比共同注意力。这是因为对比共同注意力特征(公式8)来自其原始图像,在分类器训练期间对特征表示学习有很好的提升作用,但对于定位图推断(具有有限的跨图像信息)贡献较小。相关实验可见于§4.5。
学习语义分割网络:在获得高质量的定位图后,我们为所有训练样本I生成伪像素级标签,这些标签可以用于训练任意的语义分割网络。对于伪真值的生成,我们遵循当前流行的流程[20, 22, 23, 31, 32, 81],即使用定位图提取类别特定的对象线索,并采用显著图[19, 38]获取背景线索。对于语义分割网络,我们选择了DeepLab-LargeFOV [5],就像[20, 23, 31, 32]中所做的一样。
利用额外的简单单标签图像进行学习。最近的一些工作[35, 48]致力于探索来自其他现有数据集[15, 51]的额外简单单标签图像,以进一步提高WSSS的性能。尽管取得了令人印象深刻的成果,但由于额外使用的数据与目标复杂多标签数据集(如PASCAL VOC 2012 [10])之间存在域差异的问题,需要特定的网络设计。有趣的是,我们基于共同注意力的WSSS算法提供了一种自然解决域差异挑战的替代方法。在这里,我们重新审视了公式2中的共同注意力的计算。当Im和In来自不同的域时,参数矩阵WP实质上学习将它们映射到统一的共享语义空间[44],共同注意力特征可以捕捉到域共享的语义。因此,对于这种设置,我们学习了三个不同的参数矩阵WP,分别用于Im和In来自(1)目标语义分割域,(2)单标签图像域和(3)两个不同的域的情况。因此,域自适应有效地作为共同注意力学习的一部分实现。我们在第4.2节中进行了相关实验。
利用额外的网络图像进行学习。另一种方法的趋势[18, 24, 54, 70]是解决网络监督的语义分割问题,即利用网络图像作为额外的训练样本。虽然成本更低,但网络数据通常存在噪声。为了应对这个问题,之前的研究提出了多样且有效的解决方案,如多阶段训练[24]和自适应学习[70]。我们基于共同注意力的WSSS算法可以很容易地扩展到这种设置,并优雅地解决数据噪声问题。由于我们的共同注意力分类器是使用成对的图像进行训练的,而不是像之前的方法那样仅依赖于每个图像,因此我们的模型提供了更强大的训练范式。此外,在定位图推断过程中,考虑了一组额外的相关图像,这提供了更全面和准确的线索,并进一步提高了鲁棒性。我们在第4.3节中通过实验证明了我们方法在这种设置下的有效性。
3.3.详细的网络架构
网络配置。与惯例[23,71,83]一致,我们的图像分类器基于ImageNet [29]预训练的VGG-16 [56]。对于VGG-16网络,最后三个全连接层被替换为具有512个通道和3×3的卷积层,与[23,83]中的做法相同。对于语义分割网络,为了与当前领先的方法[2,23,31,55]进行公平比较,我们采用了ResNet-101 [17]版本的DeepLab-LargeFOV架构。
共同注意力分类器和语义分割网络的训练阶段。我们的共同注意力分类器通过最小化公式10中定义的损失进行完全端到端的训练。训练参数设置为:初始学习率(0.001),每经过6个epoch后将学习率降低0.1倍,批量大小(5),权重衰减(0.0002)和动量(0.9)。一旦分类器训练完成,我们在所有训练样本上生成定位图和伪分割掩码(参见第3.2节)。然后,使用这些掩码,按照[5]中的超参数设置,对语义分割网络进行标准训练[23]。
语义分割网络的推理阶段。给定一张未见过的测试图像,我们的分割网络按照标准的语义分割流程[5]工作,即直接生成分割结果,不使用其他图像。然后,使用CRF [28]进行后处理,以细化预测的掩码。需要注意的是,以上设置适用于传统的WSSS数据集(即第4.1节、第4.2节、第4.3节)。由于LID20 [72]中特定的任务设置,相应的训练和测试设置将在第4.4节中详细说明。
4.实验
概述。首先,在三种不同的WSSS设置下进行实验:(1) 最标准的范式[22, 23, 55, 69],只允许使用来自PASCAL VOC 2012 [10]的图像级别监督(见第4.1节)。(2) 遵循[35, 48]的方法,可以使用额外的单标签图像,但会带来域差异的挑战(见第4.2节)。(3) 网络监督的语义分割范式[24, 32, 54],可以访问额外的网络数据(见第4.3节)。然后,在第4.4节中,我们展示了我们方法在LID20的WSSS任务中取得的成果。最后,在第4.5节中,我们进行了消融实验,以评估我们算法的关键部分的有效性。
评估指标。在我们的实验中,我们报告了在PASCAL VOC 2012 [10]的验证集和测试集上的标准交并比(IoU)准则。测试集上的分数是从官方的PASCAL VOC评估服务器获取的。
4.1.实验1:仅从PASCAL VOC数据集中学习弱监督语义分割
实验设置:我们首先按照最标准的设置进行实验,即仅使用图像级别标签[22, 23, 55, 69]学习WSSS,即只能访问来自PASCAL VOC 2012 [10]的图像级别监督。PASCAL VOC 2012包含了总共20个物体类别。与[5, 69]相同,我们还使用了来自[16]的增强训练数据。最后,我们的模型在总共10,582个样本上进行训练,只有图像级别的注释。评估分别在验证集和测试集上进行,分别包含1,449和1,456张图像。
实验结果:表1a比较了我们的方法和当前领先的WSSS方法(以最高的mIoU进行比较),在PASCAL VOC12的验证集和测试集上使用图像级别监督。此外,我们在图3中展示了一些分割结果。我们可以观察到,我们的方法在验证集和测试集上分别取得了66.2和66.9的mIoU分数,优于所有竞争对手。我们的方法的性能达到了DeepLab-LargeFOV [5]在完全注释数据上训练的87%的mIoU,该模型在验证集上达到了76.3的mIoU。与当前最佳方法OAA+ [23]相比,我们的方法在验证集上获得了1.0%的改进。这充分证明了我们的共同注意力分类器产生的定位图能够有效地检测到更完整的语义区域,朝着整个目标对象的方向。需要注意的是,我们的网络以一个单一阶段优雅地进行端到端的训练。相比之下,许多其他近期的方法,包括OAA+ [23]和SSDD [55],使用额外的网络[2, 23, 55]来学习辅助信息(例如,积分注意力[23]、像素级语义亲和力[55]等),或者采用多步训练[1, 69, 71]。
表1:在三种不同设置下的WSSS实验结果。(a)仅使用PASCAL VOC 2012图像的标准设置(§4.1)。(b)使用额外的单标签图像(§4.2)。(c)使用额外的网络爬取图像(§4.3)。*: 使用VGG骨干网络。†: 使用ResNet骨干网络。
4.2.实验2:使用额外的简单单标签数据学习弱监督语义分割
实验设置:按照[35, 48]的方法,我们使用PASCAL图像和额外的单标签图像训练我们的共同注意力分类器和分割网络。额外的单标签图像来自Caltech-256 [15]和ImageNet CLS-LOC [51]的子集,并且其注释在20个VOC物体类别内。总共有20,057个额外的单标签图像。
实验结果:比较结果如表1b所示。我们的方法在这个设置下显著提高了最近的方法(即AttnBN [35]),在验证集和测试集上分别提高了5.0%和4.2%。由于来自不同领域但属于相同类别的对象共享相似的视觉模式[35],我们的共同注意力提供了一种端到端的策略,有效地捕捉了共同的、跨领域的语义,并自然地学习了领域适应。即使AttnBN是专门设计用于解决这种设置的知识传递方法,我们的方法仍然大幅度地压制了它。与§4.1中仅使用PASCAL图像进行训练的设置相比,我们的方法在验证集和测试集上都取得了改进,验证了它成功地从额外的简单单标签数据中挖掘知识,并有效地处理了领域差异。
图3:在PASCAL VOC12验证集上的视觉比较结果。从左到右依次为:输入图像,真实标签,PSA [2]的结果,OAA+ [23]的结果和我们的方法的结果。
表2:在PASCAL VOC12验证集上报告的针对不同对象定位图生成策略的消融研究。详细信息请参见§4.5。
4.3.实验3:使用额外的网络数据学习弱监督语义分割
实验设置:我们还使用PASCAL VOC图像和网络爬取图像进行实验。我们使用[54]提供的网络数据,这些数据是根据类别名称从Bing搜索引擎检索得到的。最终的数据集包含了20个PASCAL VOC类别的76,683张图像。
实验结果:表1c显示了我们的方法与先前的网络监督分割方法的性能比较。结果显示,我们的方法在PASCAL VOC 2012验证集和测试集上的mIoU分数分别为67.7和67.5,优于所有其他方法,并创造了新的最优结果。在比较的方法中,Hong等人[18]利用了额外的大规模视频提供的更丰富的时态动态信息。相比之下,尽管只使用静态图像数据,我们的方法在验证集和测试集上的表现仍分别超过它9.6%和8.8%。与Shen等人[54]使用相同的网络数据相比,我们的方法在测试集上明显提高了3.6%。
表3:LID19和LID20 WSSS赛道的验证集和测试集结果。
4.4.实验4:在LID20挑战赛的WSSS轨道上的性能表现
实验设置:挑战数据集[72]是基于ImageNet[51]构建的。它包含了349,319张带有图像级标签的图像,涵盖了200个类别。评估是在验证集和测试集上进行的,其中验证集有4,690张图像,测试集有10,000张图像。在这个挑战中,我们的共同注意力图像分类器是基于ResNet-38[75]构建的,因为数据集有200个类别,更强的主干网络可以更好地学习类别之间的微妙语义。训练参数设置如下:初始学习率(0.005),使用基于多项式策略的训练计划:lr=lrinit×(1−iter/max iter)γ,其中γ为0.9,批量大小为8,权重衰减为0.0005,最大训练轮数为15。在训练过程中,还采用了等变注意力[67]。一旦我们的图像分类器训练完成,我们运行分类器并直接使用其类别感知的激活图(即Sn)作为对象定位图(即Ln)。然后,我们为所有训练样本I生成伪像素级标签。由于只能使用图像标签,我们遵循[2]的方法:首先使用定位图训练AffinityNet模型,然后使用该模型生成伪地面真值掩码,背景阈值设置为0.2。为了获得更好的分割结果,我们选择基于ResNet-101的DeepLab-V3。参数设置如下:初始学习率为0.007,采用多项式策略,批量大小为48,最大训练轮数为100,权重衰减为0.0001。分割模型在4个Tesla V100 GPU上进行训练。在测试过程中,对多个尺度的结果进行平均,并进行条件随机场(CRF)优化。
实验结果:表3展示了LID19和LID20挑战赛中WSSS(Weakly Supervised Semantic Segmentation,弱监督语义分割)赛道的最终结果,使用标准的平均交并比(mIoU)作为评判标准。LID19和LID20挑战赛使用相同的数据。在LID19中,参赛者可以使用额外的显著性注释来学习显著性模型并改进伪地面真值。然而,在LID20中,只能使用图像标签。表中列出了表现最好的方法。从表3可以看出,我们的方法不仅在LID19中优于冠军团队(该团队可以使用基于深度学习的显著性模型),而且在LID20中取得了最佳表现,并创造了新的最优结果(验证集和测试集上的mIoU分别为46.2和45.1)。
4.5.消融研究
推理策略。表2展示了基于不同推理模式(见§3.2)在PASCAL VOC 2012验证集上的mIoU得分。当使用传统的单轮前向传递的推理模式时,我们的方法显著地抑制了基本分类器,将mIoU得分从61.7提高到了64.7。这表明我们分类器中的共同注意力机制(以端到端的方式进行训练)改善了底层特征表示,并且网络能够识别更多的目标区域。我们可以观察到,通过使用更多的图像生成定位图,我们的方法从“仅测试图像”(64.7)到“测试图像和其他相关图像”(66.2)获得了一致的改进。这是因为在定位图推理过程中利用了更多的语义上下文。此外,使用对比性共同注意力进行定位图推理并没有提升性能(66.2)。这是因为对比性共同注意力特征是从图像本身派生出来的。相反,共同注意力特征来自其他相关图像,在推理阶段可以更加有效。 共同注意力(对比性共同注意力)。正如在表4中所见,仅使用共同注意力(Eq. 5),我们已经将基本分类器(Eq. 1)的性能大幅抑制了3.8%。当添加额外的对比性共同注意力(Eq. 9)时,我们获得了0.7%的mIoU改进。以上分析验证了我们的两种共同注意力确实提升了性能。
定位图推理中相关图像的数量。对于定位图生成,我们使用了3个额外的相关图像(§3.2)。在这里,我们研究了参考图像数量对性能的影响。从表5可以很容易地观察到,当将相关图像的数量从0增加到3时,性能持续提升。然而,当进一步使用更多图像时,性能会下降。这可以归因于相关图像带来的有用语义信息和噪声之间的权衡。从0到3个参考图像,使用了更多的语义信息,并挖掘了更多的目标的完整区域。当进一步使用更多相关图像时,有用信息达到了瓶颈,由于分类器的不完美定位引起的噪声接管了主导地位,导致性能降低。
表4:我们的共同注意力和对比性共同注意力机制的训练消融研究结果,报告于PASCAL VOC12验证集上。详见§4.5。
表5:在目标定位图生成过程中使用不同数量相关图像的消融研究结果,报告于PASCAL VOC12验证集上(详见§4.5)。
5.概括
该工作提出了一种共同注意力分类网络,通过处理跨图像语义来发现完整的目标区域。为此,利用共同注意力来挖掘成对样本中的共同语义,同时利用对比性共同注意力来关注独特和不共享的语义,并捕捉互补的监督线索。此外,通过利用其他相关图像的额外上下文,共同注意力提升了定位图推理的性能。进一步地,通过利用额外的单标签图像和网络图像,我们的方法在领域差异和数据噪声下证明了良好的泛化性能。在三种弱监督语义分割设置下的实验证明了我们方法的优异结果。我们的方法还在LID20挑战赛的弱监督语义分割赛道中取得了第一名的成绩。