Spatial Structure Constraints for Weakly SupervisedSemantic Segmentation

摘要

由于易于获得，图像级标签在弱监督语义分割任务中很受欢迎。

由于图像级标签只能指示特定类别对象的存在或不存在，因此基于可视化的技术已被广泛采用来提供对象位置线索。由于类激活图(class activation map, CAMs)只能定位目标中最具辨识性的部分，目前的方法通常采用扩展策略来扩大激活区域，以实现更完整的目标定位。然而，如果没有适当的约束，扩展激活很容易侵入背景区域。本文提出了弱监督语义分割的空间结构约束(SSC)，以缓解注意扩展中多余对象的过度激活。

具体来说，我们提出了一个CAM驱动的重构模块，从深度CAM特征直接重构输入图像，通过保留图像内容的粗糙空间结构来限制最后一层目标注意力的扩散。

此外，我们提出了一个激活自调制模块，通过增强区域一致性来细化cam的空间结构细节。在没有外部显著性模型提供背景线索的情况下，我们的方法在PASCAL VOC 2012和COCO数据集上分别实现了72.7%和47.0%的mIoU，证明了我们提出的方法的优越性。

code：https://github.com/NUST-Machine-Intelligence-Laboratory/SSC

1.引言

图一：传统方法与我们方法的比较。(a)输入图像。(b) CAM[23]生成的定位地图只识别物体最具区别性的部分，例如汽车的窗户。(c)传统方法的CAM展开[24]结果。他们主要侧重于扩大激活区域，并依靠显著性图来提供背景线索。因此，它们也将不可避免地导致过度激活，即扩展的对象激活侵入背景区域。(d)我们的结果。我们提出的空间结构约束可以约束对象区域内的激活，以减轻对象的过度激活(第一和第二行)，并有助于激活更多完整的对象区域，以减轻对象的欠激活(最后一行)。最好以彩色观看。

在本文中，我们提出利用空间结构约束(SSC)进行弱监督语义分割，以缓解上述对象过度激活问题。虽然cam可以帮助定位目标物体的区域，但由于训练过程中缺乏形状信息，很难提供任何边界线索。这种无定形的定位解释了原始CAMs的激活不足和随着注意力扩展而扩大的CAMs的过度激活。因此，受Autoencoder的自监督学习工作[25]的启发，我们提出了一个CAM驱动的重构模块，从其CAM特征(即用于生成CAM的最后一层特征)直接重构输入图像。为了赋予CAMs图像内容的空间结构信息，我们使用依赖于预训练损失网络的高级特征的感知损失[26]来训练重建网络和分类骨干，而不是使用仅依赖于低级像素信息的逐像素损失函数(L1或L2损失)。值得注意的是，我们直接从类特定的CAM特征重建图像。这对于引导分类网络通过惩罚在语义和空间上偏离相应输入图像的重构图像来生成维护图像内容空间结构的cam至关重要。

然而，当我们以较低的分辨率从深层语义特征重构图像时，cam中只保留了图像的整体内容和粗糙的空间结构，而没有保留精确的形状。因此，我们提出了一种激活自调制模块，通过增强区域一致性来进一步细化具有更高分辨率空间结构细节的cam。具体来说，我们采用超像素，将颜色相似的像素和其他低级特征分组。我们首先对CAM特征进行细化，取每个超像素的平均值，得到区域一致的特征，从而得到局部光滑一致的CAM。然后，我们对得到的区域一致性CAM进行对齐，以激励分类网络保持区域一致性。然而，如果高激活只占相应超像素的一小部分，则平均运算也会显著抑制鉴别部分的激活，从而导致不必要的区域欠激活。因此，我们还利用一种可靠的激活选择策略来维持最具区别性的区域的高激活。我们提出的激活自调制模块同时增强了CAM的区域一致性，并保持了可靠的高激活，从而可以显著地保留目标物体的空间结构细节。从图1 (d)的前两行可以看出，我们提出的空间结构约束可以约束目标区域内的激活，从而缓解上述目标的过度激活问题。此外，如图1 (d)最后一行所示，用图像内容限制对象的注意力也有助于激活更多完整的对象区域，以减轻以前的方法无法解决的对象欠激活问题。

我们提出的SSC与分类网络在单轮中联合训练，可以直接插入到已有的网络中，如图2所示。在没有外部显著性模型提供背景线索的情况下，我们的方法在PASCAL VOC 2012和COCO数据集上分别实现了72.7%和47.0%的mIoU。这些结果证明了利用空间结构约束来缓解目标过度激活问题的优势。我们的贡献可以总结如下:

提出了基于空间结构约束(SSC)的弱监督语义分割方法，以缓解CAM扩展中的对象过度激活问题。
为了保留图像内容的粗糙空间结构，我们提出了一个带有感知损失的CAM驱动重建模块，该模块直接从其CAM特征重建输入图像。
我们提出了一个具有可靠激活选择策略的激活自调制模块，通过增强区域一致性，进一步细化具有更精细空间结构细节的cam。

本文的其余部分组织如下:第二节描述了相关工作，第三节介绍了我们的方法;然后，我们在第四节中报告我们对两个广泛使用的数据集的评估和消融研究，最后在第五节中总结我们的工作

2.相关工作

感知损失（Perceptual Loss）是一种在计算机视觉和机器学习中常用的损失函数，特别是在图像处理和生成模型（如生成对抗网络GANs）的上下文中。它基于人类视觉感知的原理，不仅考虑像素级别的差异，还考虑了图像内容的高级语义特征。

感知损失的主要优点是它能够生成视觉上更加逼真和可感知的输出，因为它模仿了人类对图像内容的感知方式。这与传统的损失函数（如均方误差MSE）不同，后者可能在像素级别上产生很小的损失，但从视觉角度看结果可能不够自然或逼真。

3.提出方法

A. CAM生成和注意力扩展

为了便于实现我们提出的cam驱动的重构和激活自调制模块，我们去掉分类网络中最后一个全连接层，将最后一个卷积层的输出通道设置为类数c。这样，我们就可以直接从前向传递中最后一个卷积层的类感知特征图F生成目标定位图，[58]证明了这与原始CAMs中的注意生成过程相同[23]。详细来说，对于每个目标类别c，我们将注意力映射 $F^{c}$ 馈送到ReLU层，然后将其归一化为0到1的范围:

对于分类网络的训练，我们采用如下的多标签软边际损失方法:

这里，σ(·)是s型函数。yc是第c类的图像级标签。如果类存在于图像中，则其值为1;否则，其值为0。

由于分类网络倾向于只从最具判别性的部分中识别模式进行识别，因此生成的对象激活通常是稀疏且不完整的。因此，我们效仿DRS[24]的最新工作，扩大激活目标区域，这是一种简单而有效的方法，需要很少或不需要额外的参数。给定一个中间特征映射X∈R^K×H×W，其中H、W和K分别是X的高度、宽度和通道数，我们首先利用全局最大池化来提取每个通道Xmax∈R^K×1×1的max-element。然后，我们使用恒定值0.55 (DRS[24]建议)来抑制判别区域，以确定X的上界。

这样的无参数模块抑制了对最具判别性区域的关注，并迫使分类网络关注更多的非判别性区域

公式中取最小值的原因是为了抑制（suppress）最具有区分性的区域的响应。通过将特征图 XX 中的每个位置与 0.550.55 倍的最大响应 XmaxXmax 比较，并将结果设置为两者中的较小值，可以减少最亮点的响应强度。这样，模型就不会只关注最具有区分性的部分，而是被迫关注那些不那么显著但仍然重要的区域。

为什么这种方法会关注非判别性区域呢？因为通过降低最显著特征的响应，模型需要在其他区域寻找有助于分类的线索。这鼓励了模型在图像中寻找和整合更多的上下文信息，从而生成更加完整和准确的伪标签，这对于训练一个鲁棒的分割模型至关重要。

B. CAM-Driven Reconstruction

抑制最高激活虽然可以成功地将区分区域的注意力分散到周围的非区分目标区域，但也会造成过度激活问题。如果没有适当的约束，注意力很容易侵入背景区域和属于其他类别的对象的部分。因此，最近的许多方法都采用额外的显著性图来为后处理或联合训练提供背景线索。然而，使用显著性地图通常需要对显著性目标检测模型进行额外的训练，并具有相应的ground truth.。相反，我们提出了一个cam驱动的重建模块，以帮助约束目标对象区域内的激活。具体来说，我们建议利用重建网络直接从最后一个卷积层的类特定CAM特征F中恢复输入图像I:

其中 $\hat{I}$ 为重构图像。请注意，这里使用CAM特征的所有通道来重建图像(例如，VOC数据集的20通道特征)，而不是与图像中存在的类别相关的一个或几个特定的特征通道。为了驱动分类网络保持图像内容的空间结构，我们对在语义和空间上偏离原始图像的重构图像进行了惩罚。为了鼓励网络更专注于语义内容和空间结构而不是图像的颜色或纹理，我们建议使用感知损失与骨干一起训练重建网络。这种损失依赖于预训练损失网络的高级特征，而不是只依赖于低级像素信息的逐像素损失函数。具体而言，在获得重构图像 $\hat{I}$ 后，我们将其与原始输入图像I一起输入到预训练的损失网络φ中。设 $\varphi _{j}\left ( I \right )$ 和 $\varphi _{j}\left ( \hat{I} \right )$ 为形状为Cj×Hj×Wj的第j个卷积层(阶段)输出的损失网络的特征映射，特征重构损失为两个特征表示之间的Mean Absolute Error:

然后将感知损失定义为损失网络的多阶段输出特征的多次重构损失之和:

其中J为重建损失计算的级数。1 /2 (J+1)−j是控制不同阶段特征重建损失相对重要性的权重(设计用于匹配逐渐降低的特征分辨率)。高层特征包含丰富的语义信息，低层特征可以提供丰富的物体边缘和形状线索。得益于保留图像内容的空间结构，我们的cam驱动的重建模块可以帮助约束目标物体(在其自身区域内)的激活，使其不会侵入其周围的背景区域。同时，本文提出的cam驱动重构方法也促进了在目标未激活的情况下，激活覆盖到更多完整的目标区域。

图二：我们提出的方法的架构。在使用图像级标签训练分类网络时，我们提出了一个 CAM 驱动的重建模块来从其 CAM 相关特征重建输入图像。此外，我们提出了一种激活自调制模块，通过增强区域一致性进一步细化具有更精细的空间结构细节的 CAM。我们提出的模块帮助分类网络学习保留图像内容的空间结构，约束目标区域内的高激活。⊗ 是 Hadamard 产品。最好以彩色观看。

C. Activation Self-Modulation

得益于具有感知损失的重建模块，从类感知特征派生的激活往往更紧凑，并且与图像内容保持一致。然而，由于我们从分辨率降低的深度语义特征重建图像，因此在 CAM 中只保留整体图像内容和粗空间结构，但形状不准确。为了赋予 CAM 更详细的空间结构知识，我们提出了一个激活自调制模块，通过增强区域一致性进一步细化 CAM。对于区域一致的激活学习，我们首先通过对每个超像素Sk中的值进行平均来细化CAM特征F，以获得区域一致的特征表示：

这里，Sk(ij) 表示第 k 个超像素，其中包含位置 (i, j) 处的像素。|·|是计算Sk(ij)中像素数的操作。然后我们应用等式 1 所示的 ReLU 和最大归一化来生成区域一致的 CAM。之后，我们建议将 CAM Ac 与获得的区域一致 CAM $\bar{A}^{c}$ 与用于驱动分类网络以提取保持区域一致性的特征的均方损失对齐：

超像素区域（Superpixel Region）是一种图像分割技术的结果，它将图像中的像素分组，使得每个组内的像素在视觉上相似或者在某些特征上是一致的。这些组就构成了超像素区域，它们通常在颜色、纹理、亮度等方面是相似的，而在区域的边界处有明显的变化。

每个超像素可以被认为是图像中的一个原子单位，它比单个像素更大，并且能够捕捉到图像中的基本视觉特征。超像素区域通常用于图像处理和计算机视觉任务，因为它们可以减少计算复杂度，同时保留重要的视觉信息。

其中 H′、W′ 和 C′ 是 CAM 的高度、宽度以及图像中存在的类数。注意，我们在这里对CAM进行上采样，以匹配超像素的半分辨率，以利用更精细的空间结构信息。通过我们的区域一致激活学习，我们可以增加非判别对象区域的注意力，尤其是那些包含最具辨别力对象部分的超像素中的那些。

然而，如果平均操作只占相应超像素的一小部分，也会稀释判别部分的激活，从而导致不必要的区域低激活。在存在多个稀疏高激活区域的情况下，在平均膨胀后，大超像素内的原始高注意力可能会显著抑制。这将导致对相反的方向的错误调制，定位图可能会逐渐失去目标区域的激活。因此，我们提出了一种可靠的激活选择策略来保持最具辨别力的区域的高激活。具体来说，我们首先利用对象阈值 Tobj 过滤掉注意力值相对较高的区域。然后我们应用侵蚀操作进一步缩小激活高的区域掩码 $M^{c}$ 以进行可靠的激活选择。我们的侵蚀操作可以帮助消除不必要的高激活侵入背景。因此，我们获得了具有可靠激活选择 (RS $\bar{A}^{c}$ ) 的 CAM 进行对齐，如下所示：

其中⊗是Hadamard乘积。我们提出的激活自调制模块同时增强了CAM的区域一致性，保持了可靠的高激活，从而显著保留了目标对象的空间结构细节。

D. Training Objective

通过我们提出的 CAM 驱动的重建和激活自调制模块，分类网络的整体训练损失如下：

这里，βp 和 βa 是控制感知损失和对齐损失的相对重要性的超参数。在利用训练好的分类网络获得 CAM 来定位目标对象后，我们遵循最近的工作 [59]-[63]，并采用 IRN [37] 进一步细化 CAM 以生成伪标签。

4 实验

A. Datasets and Evaluation Metrics

继之前的工作之后，我们在 PASCAL VOC 2012 数据集 [64] 和 COCO 数据集 [57] 上评估我们的方法。作为 WSSS 最流行的基准，PASCAL VOC 2012 数据集包含 21 个类（20 个对象类别和背景）进行语义分割。官方数据集拆分包含 1,464 张图像用于训练，1,449 张用于验证，1456 张用于测试。遵循语义分割中的常见协议，我们将训练集扩展为 10,582 张图像，其中包含来自 SBD 的额外数据 [65]。COCO数据集是一个更具挑战性的基准，有80个语义类和背景。继之前的工作 [60]、[66]、[67] 之后，我们在实验中使用默认的训练/val 分割（80k 图像用于训练，40k 用于验证）。对于所有实验，我们只采用图像级分类标签进行训练。采用联合平均交集(mIoU)作为指标来评估我们生成的CAMs、伪标签和分割结果的质量。PASCAL VOC 测试集的结果是从官方评估服务器获得的。

B. Implementation Details

对于分类网络，我们遵循 IRN [37] 的工作，并采用 ResNet-50 [68] 模型作为我们的主干进行公平比较，这在 ImageNet [69] 上进行了预训练。采用C通道的1×1卷积层作为像素级分类器来生成CAM特征。然后，将 CAM 特征直接输入到我们的 CAM 驱动的重建模块中，通过最小化重建图像和原始图像之间的感知损失来增加对特征的粗空间结构约束。另一方面，CAM 特征还被馈送到我们的激活自调制模块中，通过增强区域一致性和对齐损失，进一步细化具有更精细的空间结构细节的 CAM。SGD[70]优化器的动量衰减和权值衰减为0.9和1 × 10−4。初始学习率设置为0.1。输入图像的大小被调整为512 × 512，生成的CAM特征大小为32 × 32，步幅为=16。我们训练分类网络10个epoch，批大小为6。

重建网络包括一个头部ConvBlock、一个ResBlock、四个上采样块和一个尾部ConvBlock，以恢复CAM特征到输入图像的大小。具体来说，每个上采样块包含一个4×4转置卷积来对特征进行上采样，以及一个3×3卷积来进一步聚合表示。其详细架构如表 I 所示。对于损失网络，我们采用了在ImageNet[69]上预训练的VGG-19模型[71]。对于感知损失，我们设置 J = 5 在每个池化层之前选择特征进行重建损失计算。对于超像素，我们直接利用 ICD [55] 工作提供的那些进行公平比较。具体来说，超像素首先使用[72]的方法生成，然后分层与选择性搜索[73]合并，以便每个图像最多包含64个超像素。

对于WSSS的第二阶段训练，按照BECO[74]最近的工作，我们采用DeeplabV2[27]作为分割网络，使用ResNet101[68]作为输出步幅为16的主干。SGD优化器的动量衰减和权值衰减为0.9和10−4。初始学习率设置为10−2，并使用多项式衰减减少。在 VOC 和 MS COCO 数据集上分别训练了 80 个 epoch 和 40 个 epoch，公共批量大小为 16。我们还遵循 DeeplabV2 [27] 的默认设置，并使用 VGG16 主干进行实验，以便与以前的方法 [15]、[34]、[35]、[38]、[55]、[75] 进行更全面的比较。ResNet101 和 VGG16 主干都在 ImageNet 数据集 [69] 上进行了预训练。

C. Comparisons to the State-of-the-arts

伪掩码的准确性。对于弱监督语义分割，生成的伪标签的质量直接影响训练好的分割网络的性能。因此，我们首先展示了从我们的方法和其他先进技术派生的伪掩码的质量的比较。如表 II 所示，我们的方法生成的分割种子可以达到 58.3% 的 mIoU，与 IRN [37] 报告的基线相比，带来了 10% 的增益。我们的方法可以获得比 RIB [62] 和 ReCAM [63] 等最先进的方法更准确的种子 1.7%。我们提出的SSC也可以比最近的D2CAM[76]高出0.3% mIoU。利用IRN[37]中的随机游走算法进一步细化CAMs进行伪标签生成，我们的伪掩码的mIoU可以达到71.9%。

PASCAL VOC 2012 上分割图的准确性。我们分别在表 III 和表 IV 中展示了 VGG 和 ResNet 主干的 PASCAL VOC 2012 上的分割结果。可以看出，对于 VGG 主干，我们的方法比其他仅使用图像级标签的最先进方法取得了更好的结果。具体来说，我们的分割结果在测试集上可以达到 67.4%，优于 ECS [75] 最近的工作 4%。它们的性能也与许多依赖于显著图的方法竞争，例如NSROM[77]和EPS[34]。对于 ResNet 主干，我们可以在验证集上获得 72.7%，在测试集上获得 72.8%。我们提出的方法可以在验证集上优于 ACR [78] 和 BECO [74] 的最新工作 0.6%，在测试集上优于 0.9%。虽然W-OoD[79]和CLIP-ES[80]的方法利用额外的分布外图像和语言监督来帮助区分前景和背景，但我们的方法仍然可以比它们高出 1.4%。此外，我们提出的 SSC 还可以与最近的 SOTA 方法（如 PPC [81] 和 RCA [82]）相媲美的性能，这些方法需要额外的显着性模型。PASCAL VOC 2012 val 集上的一些示例预测图如图 3 所示。

分布外图像" 指的是那些在训练数据分布之外的图像，也就是说，这些图像与模型训练时所见过的图像在某些特征或属性上存在显著差异。这可能包括不同的背景、光照条件、物体姿态、遮挡情况等。在某些任务中，如域适应、迁移学习或鲁棒性训练，模型可能需要学习如何处理这些分布外的图像。

在更具挑战性的COCO数据集上，我们为VGG和ResNet骨干网络分别提供了与最新弱监督语义分割（WSSS）方法的性能比较，详见表V和表VI。如表V所示，我们提出的SSC（Spatial Structure Constraints，空间结构约束）方法使用VGG骨干网络能够达到38.1%的mIoU（mean Intersection over Union，平均交并比）性能，远好于仅使用图像级标签进行监督的先前方法，例如，比CONTA [60]高出14.4%的mIoU。此外，与使用额外显著性引导的先前最先进方法相比，我们的方法也能获得更好的结果（例如，在验证集上分别比RCA [82]和MDBA [1]高出1.3%和0.3%的mIoU）。同样，使用ResNet骨干网络，我们提出的SSC达到了47.0%的mIoU，与先前的SOTA WSSS方法相比表现最佳。具体来说，我们的方法分别比ACR [78]和BECO [74]高出1.7%和1.9%的mIoU。我们的SSC还能比依赖于超大型数据集的语言-图像预训练模型的CLIP-ES [80]获得1.6%更高的mIoU。一些COCO验证集上的示例预测图可以在图4中查看。

D. Ablation Studies

Element-Wise Component Analysis。在这一部分中，我们展示了我们的方法中提出的每个组件在提高伪掩码质量方面的贡献。实验结果如表VII所示。虽然基线伪标签的准确率为48.3%，但DRS[24]可以将结果提高到50.2%。通过我们提出的 CAM 驱动的重建模块，我们可以显着提高伪掩码的质量，准确率达到 54.5%。可以注意到，如果我们从早期特征重建输入图像，准确率将下降到 52.3%。这突出了直接从其 CAM 特征重建输入图像以保留注意力图中的空间结构的重要性。图6可以观察到图像重建结果的一些可视化。可以看出，重构感知损失的结果更多地关注图像的内容和空间结构，而不是低级像素信息。通过我们的激活自调制模块，我们进一步约束具有详细空间结构信息的定位图，并将伪掩码的准确率提高到58.3%。可以看出，在没有我们可靠的激活选择策略的情况下，准确率将下降到 57.2%。这突出了保持最具辨别力的区域的高激活以减轻相反方向的错误调制的重要性。

一些PASCAL VOC 2012训练集上的示例定位图可以在图5中查看。从最初的两列可以看出，尽管DRS[24]可以帮助扩大激活区域，但它也会不可避免地导致过度激活，即扩展的对象激活侵入到背景区域。通过我们提出的基于CAM的重建模块，我们可以帮助限制激活在对象区域内（例如，第一列中的飞机和第二列中的鸟喙）。我们提出的激活自调制模块通过增强区域一致性进一步限制了网络对目标对象的注意力，这导致更紧凑的对象激活。此外，得益于我们的空间结构约束，我们提出的基于CAM的重建和激活自调制模块也可以帮助激活更完整的对象区域，以缓解困难图像中剩余的激活不足问题，这在最后一列中进行了说明。一些PASCAL VOC 2012验证集上的示例预测图可以在图3中查看。

感知损失的讨论。为了驱动分类网络保留图像内容的空间结构，我们提出了一个基于CAM的重建模块来恢复输入图像。然后采用感知损失来惩罚在语义和空间上偏离原始图像的重建图像。选择感知损失而不是在自监督学习中也广泛使用的L1或L2损失的动机有两个。首先，L1和L2损失强调低级信息的对齐。这种严格的逐像素对齐会鼓励网络更多地关注颜色和纹理，而不是图像内容和空间结构。其次，使用L1或L2损失的图像重建要求网络保留比感知损失更微妙的信息，这可能超出了CAM特征的容量，从而降低其定位能力。表VIII展示了CAM驱动重建中感知损失与L1和L2损失的定性比较。可以看出，使用L1或L2损失仅实现了约1%的性能提升。相比之下，采用感知损失，我们提出的基于CAM的重建可以将准确性从50.2%提高到54.5%。

参数分析。对于 CAM 驱动的重建模块，我们通过实验来研究感知损失的影响。如图 7 (a) 所示，我们在 {0.1, 0.5, 1, 2, 5} 范围内改变权重 βp。我们可以看到，当权重在 1 到 2 之间时，我们获得了更好的性能。太小的 βp 可能不会大大提高结果，较大的 βp 会严重恶化性能。我们推测，增加感知损失的重要性会使网络过分强调重建结果，削弱定位能力。同样，我们以相同的范围改变 βa 以研究激活自调制模块的效果。虽然 βa 在 0.1 和 2 之间可以实现更稳定的性能，但结果也显着下降，权重较大。在我们的实验中，我们根据经验设置 βp = 1 和 βa = 1。对于可靠的激活选择策略，对象阈值 Tobj 将影响侵蚀操作的参数。因此，我们首先经验地固定 Tobj = 0.3 来定位注意力值相对较高的区域，这是 OAA+ [17] 和 NSROM [77] 采用的阈值作为前景对象阈值。然后我们进行实验来研究侵蚀内核大小 r 的影响。如图 7 (b) 所示，我们在 {2, 4, 6, 8, 10, 12} 范围内改变内核大小 r。我们可以看到，当内核大小在 6 到 10 之间时，我们获得了更好的性能。过大或较小的内核大小可能不会大大提高结果。我们推测太小的内核大小在 CAM 中保持了太多的高激活，并将背景误认为前景，这将恶化 CAM 调制。同时，过大的内核大小保持较少的对象激活，稀释了可靠激活选择的效果。在我们的实验中，我们根据经验设置 Tobj = 0.3 和 r = 8。

E. Limitation and Failure Cases.

GPU消耗。如表 IX 所示，与无参数 DRS [24] 相比，我们的 CAM 驱动重建模块的引入将 GPU 消耗从 3.2G 增加到 10.6G。然而，我们的完整模型只消耗 14.2G GPU 内存，可以使用单个 16G 或 24G GPU 进行训练。

失败案例。尽管我们提出的 SSC 在 WSSS 任务中取得了巨大成功，但它仍然面临着一些具有挑战性的场景的困难。一些典型的失败案例如图8所示。首先，我们的方法可能无法解决共现问题。例如，在图 8 的第一行中，我们的模型无法区分火车和铁路背景，因为这两个类别经常在图像中同时出现。同样，我们的方法将键盘视为第二行监视器的一部分。此外，我们的模型有时无法识别外观相似的不同类别的对象，例如，它会错误摩托车最后一行的人。未来，我们想探索上述挑战的解决方案。

5.结论

在这项工作中，我们提出了弱监督语义分割的空间结构约束，以缓解注意力扩展过程中对象过度激活问题。具体来说，我们提出了一个 CAM 驱动的重建模块，该模块直接从其 CAM 特征重建输入图像。采用感知损失来鼓励分类主干保留图像内容的粗略空间结构。此外，我们提出了一种激活自调制模块，通过增强区域一致性进一步细化具有更精细的空间结构细节的 CAM。我们提出的方法可以帮助激活更多的积分目标区域并约束对象区域内的激活。在 PASCAL VOC 2012 和 COCO 数据集上的广泛实验证明了我们提出的方法的优越性。