GCoNet+：更强大的团队协作 Co-Salient 目标检测器 2023 GCoNet+（翻译）

摘要

摘要：本文提出了一种新颖的端到端群体协作学习网络，名为GCoNet+，它能够高效（每秒250帧）且有效地识别自然场景中的共同显著目标。所提出的GCoNet+通过基于以下两个关键准则挖掘一致性表示，实现了共同显著目标检测（CoSOD）领域的最新最优性能：1）组内紧凑性，利用我们全新的群体亲和模块（GAM）捕捉共同显著目标内在的共享属性，从而更好地构建这些目标之间的一致性；2）组间可分离性，引入我们新的群体协作模块（GCM），以不一致的一致性特征为条件，有效抑制噪声目标对输出结果的影响。为了进一步提高检测精度，我们设计了一系列简单但有效的组件，具体如下：其一，循环辅助分类模块（RACM），在语义层面促进模型学习；其二，置信度增强模块（CEM），帮助模型提升最终预测结果的质量；其三，基于群体的对称三元组（GST）损失函数，引导模型学习更具判别性的特征。在三个具有挑战性的基准数据集，即CoCA、CoSOD3k和CoSal2015上进行的大量实验表明，我们的GCoNet+优于现有的12种前沿模型。代码已在https://github.com/ZhengPeng7/GCoNet plus上发布。

一介绍

共同显著目标检测（CoSOD）旨在检测一组给定的相关图像中最为常见的显著目标。与标准的显著目标检测（SOD）任务相比，共同显著目标检测更具挑战性，它需要区分不同图像中同时出现的目标，而其中其他目标则充当干扰因素。为此，类内紧凑性和类间可分离性是两个重要的线索，应当同时进行学习。随着最新的共同显著目标检测方法在准确性和效率方面不断提升，共同显著目标检测不仅被用作其他视觉任务的预处理组件（如文献[2]至[6]所述），而且还被应用于许多实际场景中（如文献[1]、[7]、[8]所提及）。

图1. 七种具有代表性的共同显著目标检测（CoSOD）方法与我们的方法在CoSOD3k数据集[9]上的比较。我们从速度（横轴）和准确性（纵轴）两方面对现有的基于深度学习的具有代表性的CoSOD方法进行了比较。气泡越小意味着模型越轻量。我们的GCoNet+在效率和效果两方面均优于这些模型。“训练集1、训练集2和训练集3”分别代表DUTS类别数据集、COCO-9k数据集和COCO-SEG数据集（更多相关细节见表3）。所有模型均在A100-80G上以批量大小为2进行测试。我们的推理速度基准测试结果可在https://github.com/ZhengPeng7/CoSOD fps collection上查看。

现有的研究工作试图通过利用语义连接[10]-[12]或各种不同的共享线索[13]-[15]，来增强给定图像之间的一致性，从而解决图像组内的共同显著目标检测（CoSOD）任务。在文献[9]、[16]中，所提出的模型联合优化一个统一的网络，用于生成显著性图和共同显著性信息。尽管这些方法带来了一定的改进，但大多数现有模型仅依赖于单个图像组内的一致性特征表示[16]-[21]，这可能会带来以下局限性。首先，来自同一图像组的图像只能提供不同目标之间的正相关关系，而不能同时提供正相关和负相关关系。仅用来自单个组的正样本训练模型，可能会导致过拟合，并且对于离群图像会产生模糊的结果。此外，通常一个图像组中的图像数量有限（在现有的共同显著目标检测数据集上，大多数组的图像数量在20到40张之间）。因此，从单个组中学习到的信息，通常不足以形成具有判别性的表示。最后，单个图像组可能不容易挖掘语义线索，而这些语义线索在复杂的现实场景测试中，对于区分噪声目标至关重要。由于现实场景中图像上下文的复杂性，非常需要一个专门用于挖掘共同信息的模块。除此之外，当使用二元交叉熵（BCE）损失函数进行监督训练时，生成的显著性图的像素值往往更接近0.5，而不是0或1。由于存在这种不确定性，这些显著性图很难直接应用于实际应用中。

为了克服上述限制，我们提出了一种新的群体协作学习网络（GCoNet），它能够在同一图像组内建立语义一致性，并区分不同的图像组。我们的GCoNet包含三个基本模块：群体亲和模块（GAM）、群体协作模块（GCM）和辅助分类模块（ACM），这三个模块同时引导GCoNet以更好的方式学习组间可分离性和组内紧凑性。具体而言，群体亲和模块（GAM）使模型能够学习同一图像组内的一致性特征，而群体协作模块（GCM）则用于判别不同组之间的目标属性，从而使得该网络能够在现有的丰富的显著目标检测（SOD）数据集上进行训练。为了学习到更好的嵌入空间，我们在每一幅图像上使用辅助分类模块（ACM），以便在全局语义层面上改进特征表示。

我们对原有的GCoNet进行了改进，具体体现在以下方面：对现有成果给出了更精确的阐释，即构建了一个用于共同显著目标检测（CoSOD）的简洁网络；新增了三个组件，这些组件能够提升学习一致性和差异性的能力；同时，我们还对现有训练集的不足展开了探讨，并给出了相应的解决办法。

图2. 特征图可视化。(a) 源图像和真实标注。(b-f) 分别为我们的GCoNet [1]和GCoNet+（对应表3中的训练集1）解码器不同层级的特征图，按从高层到低层的顺序捕捉。(b) 中所示的特征图分辨率最低。如 (b) 所示，我们的GCoNet+ 给出了更具全局性的响应，并且在非常早期的阶段不会做出特定的预测，因为在这个阶段特征图的质量不足以产生精确的结果。(g) 共同显著性图的预测结果。与GCoNet相比，GCoNet+ 在目标及其周围区域获得了更具全局性的响应。

总而言之，我们已将我们的GCoNet大幅扩展为GCoNet+，主要差异如下：

创新方法。我们提出了三个新组件，以提升 GCoNet + 的性能和鲁棒性，分别是置信度增强模块（CEM）、基于群组的对称三元组（GST）损失函数以及循环辅助分类模块（RACM），用以解决我们的 GCoNet 模型现有的不足之处。（1）置信度增强模块（CEM）：为了减少输出图的不确定性，我们在置信度增强模块中采用了可微二值化方法和混合显著性损失函数。这能够生成质量更高的图，并进一步提升整体性能。（2）基于群组的对称三元组（GST）损失函数：我们是最早将度量学习应用于基于深度学习的共同显著目标检测（CoSOD）模型的团队之一。通过度量学习的方式，这使得不同群组所学习到的特征更具判别性。（3)循环辅助分类模块（RACM）：为了更好地表示辅助分类特征，我们将原始的辅助分类模块扩展为循环版本，它能更精确地聚焦于目标物体的像素。此外，我们对 GCoNet [1] 进行了改进，使其成为一个更轻量且更强大的网络，以此作为我们的基线模型。在实验中，这三个组件与新的基线网络有机结合，在所有现有数据集以及实际应用中都取得了优异的性能表现。

实验。尽管共同显著目标检测领域发展迅速，但目前通常有三个用于训练的数据集，即 DUTS 类别数据集、COCO-9k 数据集和 COCO-SEG 数据集，然而对于这项任务而言，并没有选择训练集的标准。与现有研究中所使用的训练集各不相同的情况不同，为了进行公平的实验对比，我们针对这三个训练集的所有不同组合进行了更全面的实验。如前文 “创新方法” 部分所述，结合本文新提出的组件，与使用相同训练集的 GCoNet [1] 相比，我们在 Eξmax [22] 和 Sα[23] 指标上取得了约 3.2% 的相对提升，在目前所有公开可用的共同显著目标检测（CoSOD）模型 [9] 中达到了当前最先进的性能水平。

新的见解。基于所获得的实验结果，我们发现了现有共同显著目标检测（CoSOD）训练集存在的潜在问题，并针对未来如何改进这些训练集给出了相应的分析。

二有关工作

2.1 显著目标检测

在传统的显著目标检测（SOD）方法中，手工设计的特征在检测中起着最重要的作用[24]-[27]。在深度学习的早期，特征是从图像块、目标候选区域[28][30]或超像素[31]-[34]中提取的。尽管这些方法取得了一些进展，但在提取目标区域及其特征时耗时较长。随着全卷积网络[35]在分割任务中的成功，最近的显著目标检测研究主要集中在进行逐像素预测的模型上。更多细节和总结可以在最近的综述文献[8]、[36]、[37]中找到，其中最新的文献[8]对现有显著目标检测模型在各种具有挑战性的显著目标检测数据集上的性能、鲁棒性和泛化能力提供了最全面的基准测试和分析，同时也对显著目标检测领域的开放性问题和未来研究方向进行了建设性的讨论。在文献[38]中，显著目标检测方法中的网络架构被分为五类，即单流架构、多流架构、侧边融合架构、U型架构和多分支架构。在这些架构中，U型架构是应用最广泛的一种，尤其是特征金字塔网络（FPN）[39]和U型网络（U-Net）[40]的基础结构。在早期阶段，通过聚合来自这些U型网络不同阶段的特征来采用多阶段监督，以使输出特征更加鲁棒和稳定[1]、[16]、[41]。在文献[42][45]中，设计了注意力机制及相关模块来进行改进。此外，在训练过程中引入了外部信息作为额外的指导，比如边缘信息[41]和边界信息[46]。

在二值分割任务中（例如，显著目标检测[1]、[42]、[46]，光学字符识别[47][49]），真实标注（ground truth）是目标物体的二值图。然而，由于像素级损失（即均方误差损失、二值交叉熵损失），预测得到的图并非完全的二值图。在许多实际应用中，具有很大不确定性的预测图不适合程序用来做决策[50]。在这种情况下，人们提出了一些最新的方法来提高二值图的质量。在文献[51]中，设计了特定的组件来增强物体的完整性。在文献[46]中，还采用了混合损失函数，以使模型关注除像素级误差之外的更多属性。

2.2 协同显著目标检测

图像共同分割是一项基础且热门的计算机视觉任务，它从一组图像中分割出共同的物体。这一技术已被广泛应用于许多相关领域，比如共同显著目标检测[1]、[9]、[17]、[52]，小样本学习[53]、[54]，语义分割[55]、[56]等等。许多现有的共同分割方法都采用孪生网络来寻找输入图像对的共同特征[57]、[58]。基于图像对之间的比较，Chang等人[59]和Rother等人[60]分别使用显著性和颜色直方图来引导对视觉特征进行更精确的比较。随着深度学习方法的发展，共同分割模型倾向于使用隐含的语义特征来寻找共同的物体。从模型的角度来看，Wei等人[17]和Fan等人[9]在他们的网络中嵌入了协同注意力机制来生成群组一致性，Chen等人[61]利用通道注意力机制以实现更好的物体共同分割，而Zhang等人[63]和Li等人[64]则采用了长短期记忆网络（LSTM）[62]来在两幅图像之间交换信息并增强群组表示。从训练策略的角度来看，Wang等人[65]采用弱监督策略在结果图上探索了显著性引导的迭代优化，而Hsu等人[66]利用图像内的物体差异和图像间的前景背景分离，以无监督的方式实现了图像共同分割。

2.3 图像协同分割

显著目标检测（SOD）任务[46]、[67]-[69]旨在从单张图像中单独分割出显著目标，而共同显著目标检测（CoSOD）的目标则是从一组语义相关的图像中找出共同的显著目标。以往的共同显著目标检测方法主要致力于挖掘组内线索来分割共同显著目标。例如，早期的共同显著目标检测方法常常基于手工设计的线索来探索一组相关图像之间的对应关系。通过从每张图像中分割出计算单元（例如超像素[70]），这些方法建立对应模型，并通过采用排序方案、聚类引导或平移对齐[71]的方式来发现共同区域。度量学习[11]、[72]、直方图统计和对比度分析[24]，以及成对相似度排序等方法也被用于构建更好的语义属性，以便进行进一步的计算。

在深度学习时代，已经提出了许多端到端的深度共同显著目标检测（CoSOD）模型。文献[11]、[17]的作者试图通过学习单个图像组中的一致性来发现共同的目标物体。随着上游深度学习方法的发展，现有的方法[1]、[16]、[18]、[73]、[74]使用功能强大的卷积神经网络（CNN）模型（例如，残差网络（ResNet）[75]、视觉几何组网络（VGGNet）[76]和Inception网络[77]），甚至是Transformer模型（例如，视觉Transformer（ViT）[78]和金字塔视觉Transformer（PVT）[79]、[80]）来构建他们的模型，这有助于取得当前最优（SOTA）的性能表现。除了大多数现有研究工作通过全监督的方式来设计其模型之外，弱监督策略（例如，全局弱监督共同显著性检测（GWSCoSal）[81]、特征注意力引导的半监督共同显著性检测（FASS）[82]、基于稀疏池化的多示例学习（SP-MIL）[83]、对比目标加权（CODW）[7]和图优化网络（GONet）[84]）也取得了可接受的结果。

2.4 图像内与图像间一致性学习

随着深度学习的迅速发展，深度模型在探索图像内和图像间的一致性方面取得了优异的性能表现，比如图卷积网络（GCN）[85]–[87]、协同注意力机制[9]、协同聚类[88]、循环单元[89]、相关技术[20]、自学习方法[10]以及质量评估方法[90] 。

在图像内一致性学习的各种实现方法中，自协同注意力机制首次在文献[91]中被研究以来，它已成为探索相似图像分割一致性时应用最广泛的组件之一。此外，许多后续研究[92]–[94]通过引入更多信息和采用更好的方法，包括像素对比度、关系数据和图网络等，对其进行了更深入的研究。这些研究成果显示出了强大的有效性，并为相关领域的研究带来了显著的提升。

此外，图像内和图像间的一致性在其他研究领域也显示出了其有效性，例如目标检测[95]、[96]，语义分割[97]以及显著目标检测[98]，尤其是在弱监督学习中，对于建立物体之间的关系以获取不同类别的更好语义特征方面。

在以往的共同显著目标检测（CoSOD）方法中，组内一致性已经得到了详细的研究[1]、[7]、[16]、[17]。相比之下，人们对组间一致性的关注较少，然而，组间一致性对于引导模型为每个类别学习更具判别性和通用性的特征有着重要的作用。在文献[16]中，采用了拼图训练策略，引入来自其他组的图像来间接地促进组训练。在文献[7]中，多组图像被输入到他们的模型中，以学习图像内的对比度。由于缺乏更先进且明确的设计来学习组间信息，他们的模型仍然主要针对组内信息。我们的方法在探索组间关系方面与现有模型有很大不同。我们试图在组的层面上，从语义上明确且精确地学习具有判别性的特征。

三方法

我们针对共同显著目标检测（CoSOD）任务引入了我们的GCoNet+模型。该架构的概述将在3.1节中给出。然后，我们将依次介绍所提出的基本模块：组亲和模块（GAM）、组协作模块（GCM）、置信度增强模块（CEM）、基于组的对称三元组（GST）损失函数，以及循环辅助分类模块（RACM）。

3.1 概述

所提出的GCoNet+的基本框架是基于我们的GCoNet [1]，GCoNet是目前最先进的方法之一。与现有的共同显著目标检测（CoSOD）模型[9]、[16]、[18]、[20] 不同，那些模型仅利用单个类别组内的共同信息，而GCoNet+则以孪生网络的方式同时挖掘不同组之间的内部和外部关系。

GCoNet+的流程图如图3所示。首先，我们的模型同时将两组原始图像G1、G2作为输入。通过拼接图像组（©），我们的编码器提取特征图F，然后将其输入到辅助分类模块（ACM）进行分类，并输入到我们的组协作模块（GCoM）进行进一步处理。在GCoM中，F根据其类别被分为两部分，即，其中C表示通道数，H × W是空间尺寸，N表示组的大小。这两个特征分别输入到组亲和模块（GAM）中，在该模块中，所有单张图像的特征被组合起来，以提取一致性特征。同时，应用组协作模块（GCM）来获得不同图像组之间目标属性更具判别性的表示。GCoM的输出特征被拼接起来并输入到我们的解码器中。与此同时，解码器通过1x1卷积层与编码器相连。然后，置信度增强模块（CEM）将解码器的预测结果作为输入，进行优化并输出最终的共同显著图。最后，网络的输出与原始图像G相乘，以消除不相关的区域。我们基于组的对称三元组（GST）损失函数应用于掩码图像GM，以度量学习的方式对GCoNet+进行监督。此外，掩码图像随后再次输入到编码器中，以获得掩码编码特征。与F不同，仅包含预测区域的特征，并且具有更精确的语义表示，可应用于循环辅助分类模块（RACM）以获得分类损失。

3.2 组亲和性模块（GAM)

在现实生活中的大多数情况下，同一类别的物体在外观和特征上具有相似性，这一特性已被广泛应用于许多计算机视觉任务中。例如，自监督视频跟踪方法[99]–[102]常常基于两个相邻帧之间的像素级对应关系来传播目标物体的分割图。因此，我们将这一思路引入到共同显著目标检测（CoSOD）任务中，通过计算同一组中所有图像之间的全局亲和度来实现。

对于任意两张图像的特征，我们以内积的形式计算它们在像素层面的相关性：

其中，θ、φ表示线性嵌入函数（3×3×512的卷积层）。亲和度图能够有效地捕捉给定图像对（n, m）中共同显著目标的共同特征。然后，我们可以通过基于Fm为Fn的每个像素找到最大值来生成Fn的亲和度图，这减轻了图中噪声相关值的影响。

类似地，我们可以将图像对的局部亲和度的使用扩展到整个图像组的全局亲和度。具体来说，我们使用公式1计算所有图像特征F的亲和度图。然后，我们从SF中为每张图像找到最大值，得到，并对N张图像的所有最大值求平均值，以生成全局亲和度注意力图。通过这种方式，亲和度注意力图在所有图像上进行了全局优化，从而减轻了偶然出现的共现偏差的影响。然后，我们使用softmax操作对AF进行归一化，并对其进行重塑，以生成注意力图。有了注意力图AS，我们将其与原始特征F相乘，以生成注意力特征图。最后，整个组的注意力特征图F a通过在批量维度和空间维度上进行平均池化来生成注意力一致性特征Ea，如图4所示。

组亲和模块（GAM）专注于捕捉同一组中同时出现的显著目标的共性，从而提高一致性表示的组内紧凑性。这种组内紧凑性减轻了同时出现的噪声带来的干扰，并促使模型专注于共同显著区域。这使得共同显著目标的共享属性能够被更好地捕捉，从而得到更好的一致性表示。通过深度相关性[103]、[104]，将得到的注意力一致性特征与原始特征图F相结合，以实现高效的信息关联。然后，将不同组生成的特征图拼接在一起，并输入到解码器中。经过置信度增强模块（CEM）处理后，为所有图像生成最终的共同显著图M。

3.3 组协作模块 (GCM)

目前，大多数现有的共同显著目标检测（CoSOD）方法往往侧重于一致性的组内紧凑性。然而，组间可分离性对于区分干扰目标至关重要，尤其是在处理包含多个显著目标的复杂图像时。为此，我们提出了一个简单但有效的模块，即组协作模块（GCM），通过学习对组间可分离性进行编码来解决这一问题。

通过组亲和模块（GAM），我们可以得到两组图像的注意力一致性特征。然后，我们在相应的特征{F1, F2}和注意力一致性特征之间进行组内和组间的交叉相乘（·），以得到组内协作结果：，。相比之下，组间相乘操作则处理不同组的特征和一致性特征，即，以此来表示组间交互。计算组内表示用于预测共同显著图，而组间表示则用于获得具有组间可分离性的一致性表示。具体来说，我们将组间和组内特征输入到一个带有上采样层的小型卷积网络中，并通过不同的监督信号得到显著图。如图5所示，我们使用真实标注图对进行监督，而对使用全零图进行监督。损失函数为：

其中，表示焦点损失函数[39]，表示真实标注图，表示全零图，表示拼接操作。

因此，组协作模块（GCM）使得一致性表示在不同组之间具有较高的组间可分离性，并且使得在复杂环境中更容易识别干扰因素。具体而言，该模块在推理过程中不会引入额外的计算，并且可以完全舍弃。

3.4 置信度增强模块（CEM）

在显著目标检测（SOD）任务中，由于网络通常会附加一个 sigmoid 函数，所以预测的显著图的像素值范围在 0 到 1 之间。尽管真实标注图的像素值要么是 0 要么是 1，但预测的显著图的像素值可能会接近 0.5，这表明预测中存在更多的不确定性和噪声。在一些非常困难的情况下，具有更多不确定性和噪声的结果，通过一些经典的评估指标[22]，例如加权 F 值（Fbw）[105]、交并比（IoU）[106]、平均绝对误差（MAE）等，可能会得到较高的分数，然而在实际应用中效果却很差，这与最终目标相悖。

为了处理预测结果中的不确定值，我们从损失函数和网络架构两个角度展开研究。从损失函数的角度来看，我们设置了对比实验，以验证不同的损失函数能够为同一个网络引入不同的优化方向。具体来说，交并比（IoU）损失函数引导网络输出的结果几乎为 0 或 1，但使用现有的评估指标（如 S 度量[23]、E 度量[22]）时，精度较低。相比之下，二元交叉熵（BCE）损失函数引导网络预测出更多不确定的值，但在上述评估指标中能取得更好的分数。如图 6 所示的预期结果图，虽然交并比（IoU）损失函数为预测图带来了较高的置信度，但这种优化过于粗糙。它在显著图的完整性方面表现不佳。因此，在训练过程中，二元交叉熵（BCE）损失函数仍然是必要的。为了在实际应用中从二值化的角度提高显著图的质量，我们尝试平衡二元交叉熵（BCE）损失函数和交并比（IoU）损失函数，将它们作为一种混合像素损失函数来进行监督。

从网络架构的角度来看，我们在图 3 的末端采用了置信度增强模块（CEM）。在以往的显著目标检测（SOD）方法中，通常会使用 sigmoid 函数将输出值压缩到 0 到 1 之间。然而，正如文献[47]中所描述的那样，sigmoid 激活函数不够陡峭，并且它所产生的值二值化程度不够。为了解决这个问题，如图 7 所示，解码器的输出特征被输入到置信度增强模块（CEM）中。首先，特征经过两个并行的分支，每个分支都包含两个 3x3 卷积层，随后都跟着批量归一化层、一个 ReLU 激活函数，以及一个 1x1 卷积层和一个 sigmoid 激活函数。在这之后，生成概率图 P 和阈值图 T，并将它们输入到可微二值化函数中，以得到最终的预测结果。根据文献[47]，最终的共同显著图 M 可以表示为：

其中，k 是控制阶跃函数陡峭程度的因子。在我们的实现中，k 的默认值设置为 300。当在训练过程中损失值出现非数值（NaN）时，在当前的传播过程中会将其替换为 50。

3.5 基于组的对称三元组损失

在过去几年里，已经有一些从度量学习的角度来解决共同显著目标检测（CoSOD）任务的方法[11]、[72]。然而，现有的大多数基于度量学习的共同显著目标检测方法使用超像素[107]来提取图像块作为度量单位。这些方法大多通常不是端到端的，并且效率较低。此外，现有的研究通常会引入类别标签来帮助模型学习更具代表性的、具有高语义的特征。具体来说，在文献[16]中，张等人根据主要显著目标的类别将 DUTS 数据集[108]划分为不同的组，以构建训练集。然而，在现实场景中可能不会给出绝对的类别标签。相反，只有两组的相对标签（它们是否属于同一组）。 2015 年，施罗夫等人提出了三元组损失函数[109]来辅助人脸识别，这是一种通过拉近正样本、推远负样本以学习不同身份的判别性特征的好方法。由于三元组损失函数在人脸识别[109]、视觉跟踪[110]、行人重识别[111]等领域取得了成功，我们对原始的三元组损失函数进行了修改，得到基于组的对称三元组（GST）损失函数，以便从不同组中学习更具判别性的特征，这能够提高具有不同类别标签的目标的一致性特征的独特性和判别性。

请注意，我们的基于组的对称三元组（GST）损失函数仅在训练过程中起作用。具体而言，它应用于，是编码器从中提取的输出特征，即预测显著图 M 与原始图像 G 的乘积结果（见图 3）。通过这种方式，只有目标物体的像素被用于度量。以图 8 中的为例，主干网络从用 M1 掩码的原始图像中提取语义表示。然后，按类别被分为两部分，即。来自同一组的特征被视为彼此的正样本，而来自另一组的特征则被视为负样本。如图 8 所示，我们的 GST 损失函数是在对称结构中计算的。最后，在上计算三元组损失，其中特征之间的距离使用欧几里得距离来度量。具体来说，可以表示如下：

其中，α 表示间隔，它是一个超参数，用于在正样本对和负样本对之间设置一个界限[109]。表示输入的二范数。由于基于组的对称三元组（GST）损失函数具有对称性，同样也以相同的方式使用欧几里得距离来度量。

最终的基于组的对称三元组（GST）损失是当 G1 和 G2 从用预测图进行掩码的图像中交替作为正样本时，两个 LTri 的组合：

3.6 循环辅助分类模块

现有的研究通常使用同一组内的图像来训练模型，以提取共同信息。具体来说，某一批次中的图像仅对属于同一类别的目标有真实标注图，在这种情况下，模型只能学习到组内的共同特征。然而，由于对所学习的特征没有约束，不同类别的共同特征可能会彼此接近，从而难以区分。

在文献[1]中，辅助分类模块（ACM）有助于获得高层次的语义表示，从而为一致性学习提取更具判别性的特征。具体而言，在主干网络之后应用了一个由全局平均池化层和一个全连接层组成的类别预测器。通过类别层面的监督，将属于同一类别的目标的特征聚类到一起。尽管辅助分类模块（ACM）在 GCoNet [1] 中表现良好，但它也存在一些缺陷：来自主干网络的特征不稳定，并且可能包含非正确目标的特征。因此，辅助分类模块（ACM）可能会给出错误的优化方向。与此同时，它运行过程不透明，难以进行监控。

我们提议使用循环辅助分类模块（RACM）来克服上述问题。循环辅助分类模块（RACM）的流程与原始的辅助分类模块（ACM）几乎相同。不同的是，循环辅助分类模块（RACM）将模型的输出作为掩码，仅获取目标物体的像素，而不是像辅助分类模块（ACM）那样使用整幅图像。然后，掩码图像将再次被发送到编码器和类别预测器。在消除了其他干扰区域后，我们的循环辅助分类模块（RACM）只专注于感兴趣的区域。当我们的 GCoNet+ 的预测结果与真实标注图相差甚远时，循环辅助分类模块（RACM）可以给予更强的惩罚，以帮助加速训练的收敛。通过结合原始图像和真实标注图来制定损失函数，循环辅助分类模块（RACM）使模型能够分别学习到更具判别性的特征，以实现组间可分离性和组内紧凑性。分类的损失函数如下：

其中，φ 和分别表示类别预测器（全局平均池化（GAP）层和一个线性层）和编码器。LCE 是交叉熵损失，YCLS 是真实的类别标签，而分别是由辅助分类模块（ACM）和循环辅助分类模块（RACM）预测出的类别标签。

3.7 目标函数

目标函数是显著图损失（二元交叉熵（BCE）损失和交并比（IoU）损失的组合）、组协作模块（GCM）损失、我们提出的基于组的对称三元组（GST）损失以及分类损失的加权组合。二元交叉熵（BCE）损失和交并比（IoU）损失如下所示：

其中，Y$是真实标注值，是预测值。结合组协作模块（GCM）损失（公式 2）、基于组的对称三元组（GST）损失（公式 5）以及分类损失（公式 8），我们最终的目标函数为：

其中，λ1、λ2、λ3、λ4 和 λ5 分别设置为 30、0.5、250、3 和 3，以便在训练开始时使所有损失处于相同的数量级水平。

四实验

本节分别提供了我们在基础实验和拓展实验中的指导方针和详细信息，即数据集、实验设置、评估协议，以及训练和测试过程中的分析内容。

4.1 数据集

训练集。我们参照 GICD [16]，使用 DUTS 类别数据集作为我们设计实验的训练集。在经过张等人 [16] 剔除噪声样本后，整个 DUTS 类别数据集被划分为 291 组，总共包含 8250 张图像。在我们的消融实验中，DUTS 类别数据集是唯一用于评估的训练集。如今，仍然缺乏一个得到充分认可的训练数据集。为了与最新的研究成果 [17]、[18]、[20]、[112]、[113] 进行公平比较，我们采用了被广泛使用的 COCO9k [17]（它是 COCO [114] 的一个子集，包含 65 组共 9213 张图像）以及同样是 COCO [114] 子集且包含 20 万张图像的 COCO-SEG [112]，来训练我们的 GCoNet+ 作为补充实验。

测试集。为了全面评估我们的 GCoNet+，我们在三个广泛使用的共同显著目标检测（CoSOD）数据集上对其进行测试，即 CoCA [16]、CoSOD3k [9] 和 CoSal2015 [7]。在这三个数据集中，CoCA 是最具挑战性的数据集。就背景、遮挡、光照、周围物体等方面而言，它具有更高的多样性和复杂性。按照最新的基准测试标准 [9]，我们不对 iCoseg [115] 和 MSRC [116] 进行评估，因为在这些数据集中的大多数图像里都只包含一个显著目标。在具有更多显著目标的图像上评估共同显著目标检测（CoSOD）方法更具说服力，这也更接近现实生活中的应用场景。

4.2 评估协议

遵循 GCoNet [1] 的做法，我们采用 S 度量 [23]、最大 F 度量 [117]、最大 E 度量 [22] 以及平均绝对误差（MAE）来评估我们实验中的性能表现。评估工具箱可参考网址：https://github.com/zzhanghub/eval-co-sod 。

S 度量 [23] 是显著图与其对应的真实标注图之间的一种结构相似性度量。使用 Sα 进行评估无需进行二值化处理，并且可以快速得到评估结果。S 度量的计算方式如下：

其中，So 和 Sr 分别表示对象感知的结构相似性和区域感知的结构相似性，并且根据范等人在文献[1]中的建议，α 默认设置为 0.5。

F 度量 [117] 旨在评估精确率和召回率的加权调和均值。将显著图的输出通过不同的阈值进行二值化处理，以获得一组二值化的显著预测结果。将预测的显著图与真实标注图进行比较，从而得到精确率和召回率的值。在整个数据集上，使用最佳阈值得到的最佳 F 度量分数被定义为 $F_{\max}^{\beta}$ 。F 度量的计算方式如下：

其中，按照文献[36]的设定，β² 被设置为 0.3，目的是为了使精确率比召回率得到更多的重视。

E 度量 [22] 被设计为一种感知度量指标，用于从局部和全局视角评估预测图与真实标注图之间的相似度。E 度量的定义如下：

其中，$\varphi_{\xi}$ 表示增强对齐矩阵。与 F 度量类似，我们也采用最大 E 度量（$E_{max}^{\xi}$）作为我们的评估指标。

平均绝对误差（MAE）是一种简单的像素级评估指标，它在无需进行二值化处理的情况下，衡量预测图与真实标注图之间的绝对差异。其定义如下：

4.3 实现细节

基于 GCoNet [1]，我们采用带有批量归一化（batch normalization）的 VGG-16 网络 [118] 作为主干网络。在每个训练批次中，我们从两个不同的组中随机选取 N 个样本。

其中，N 表示训练的批量大小，# 表示相应组中的图像数量。由于某些组中的图像数量较少，我们选择 32 和随机选取的两个组中较少的图像数量这两者之间的最小值。请注意，训练时的批量大小 N 和测试时的批量大小可以不同。在测试过程中，我们遵循先前的研究 [1]、[16]、[18]、[113]、[119]、[120] 的做法，将给定组中图像的确切数量设置为批量大小 N 。

为了阐明我们所提出的网络，我们给出了新提出的模块中的超参数。在置信度增强模块（CEM）中，阶梯函数在反向传播后会产生一些 NaN（非数字）值。因此，我们将可微二值化（DB）中的 k 设置为激进值 300 和保守值 50。当在某一步中产生 NaN 值时，将使用 50 来替代，在我们的实验中，这样做从未产生过 NaN 值。在基于组的对称三元组（GST）损失中，边界值被设置为 1.0。

在训练和测试时，图像被调整大小为 256×256 像素。输出的预测图会被调整回原始大小以进行评估。在我们的训练过程中采用了三种数据增强策略，即水平翻转、颜色增强和旋转。我们的 GCoNet+ 使用 Adam 优化器进行了 320 个 epoch 的训练。初始学习率设置为 3×10⁻⁴，β1 = 0.9，β2 = 0.99。整个训练过程大约需要 20 个小时。所有实验均基于 PyTorch [121] 实现，并且使用单块特斯拉 V100 GPU 进行计算。

4.4 消融研究

我们研究了 GCoNet+ 中所采用的每个扩展组件（即循环辅助分类模块（RACM）、置信度增强模块（CEM）和基于组的对称三元组（GST））的有效性，并探究了它们为何能在我们的框架中帮助学习到良好的一致性特征和具有判别性的特征。关于每个模块的定性结果如图 11 所示。如需了解更多的消融实验研究和实验设置内容，可参考我们的会议版本论文[1]。

基线模型。我们参照 GCoNet [1] 以孪生网络的方式来设计我们的 GCoNet+。需要注意的是，GCoNet 沿用了 GICD [16] 的架构，但并没有对 GICD 中每个组件的有效性进行广泛的实验验证，这些组件包括多头监督、损失函数、特征归一化等等。尽管这些组件给网络本身带来了额外的参数和复杂度，但目前的实验证据仍无法证明它们的有效性。我们没有理所当然地接受这些组件，而是对每个组件都进行了大量实验。首先，我们尝试像原始的特征金字塔网络（FPN）[39] 那样，只用一个 1×1 卷积层来替代横向连接中的多个卷积块。其次，我们尝试去除解码器上对显著图的多阶段监督。第三，我们尝试在除 1×1 卷积层之外的每个卷积层后面添加批量归一化层。最后，正如我们的实验所示，二元交叉熵（BCE）损失在我们的实验中带来了更高的准确率，而交并比（IoU）损失则产生了更多二值化的最终显著图，并且收敛速度更快。为了更好地结合这两种损失，我们通过不同的权重将初始的 BCE 损失和 IoU 损失控制在相同的数量级水平，然后将它们相加。

这些修改可以归纳为三个部分，即网络架构简化、归一化层以及混合损失函数。遵循奥卡姆剃刀原则[5]，我们尝试去除许多现有研究中使用的但缺乏足够实验依据的不确定模块。与基线模型 GCoNet（表 1 中 ID:1）相比，这些修改在简洁性和准确性方面都大幅提升了我们的 GCoNet+。如表 1 所示，综合所有这些修改，在交并比（E-measure）指标上，GCoNet+ 在 CoSOD3k 数据集上相对提升了 2.6%，在 CoSal2015 数据集上相对提升了 2.8%。在最具挑战性的共同显著目标检测（CoSOD）测试集 CoCA 上，它在 E-measure 指标上也实现了 2.5% 的相对提升。

循环辅助分类模块（RACM）的有效性。RACM 引导模型学习更具判别性的特征，以便区分不同类别的对象。与原始的辅助分类模块（ACM）相比，它的工作更加精准，并且加快了（见图 9）我们的 GCoNet+ 的收敛速度。从表 2 中可以看到，就大多数评估指标而言，RACM 在 CoCA 和 CoSOD3k 数据集上略微提升了基线模型的性能。图 10 中的激活图表明，我们的 GCoNet+ 在各种情况下都具有更高的准确性，并且能更精确地引导模型关注目标。GCoNet+ 解码器各个阶段的特征图如图 2 所示。结果显示，在区分不同类别的对象方面，GCoNet+ 比 GCoNet [1] 具有更好的性能。

置信度增强模块（CEM）的有效性。在以往的共同显著目标检测（CoSOD）方法中，交并比（IoU）损失和二元交叉熵（BCE）损失往往被用作训练损失。然而，在大多数这些方法中，训练期间仅使用单一的损失函数进行监督。BCE 从像素的角度指导监督，而 IoU 从区域的角度指导监督。尽管许多现有方法 [1]、[18]、[87]、[119]、[120] 取得了出色的性能，但单独使用 BCE 和 IoU 损失仍存在一些问题。具体来说，当使用 IoU 损失在区域层面监督模型时，预测的显著图通常比较粗糙，无法很好地处理小细节。BCE 可以引导模型关注细节。与此同时，受 BCE 监督的显著图往往包含很多不确定性，这使得这些预测难以直接应用到实际中。在这种情况下，我们应用 CEM 来同时预测更准确且二值化的显著图，以更接近实际应用的需求。如图 11 和表 2 所示，CEM 能够使预测的显著图在准确性和可视化效果方面都表现得更好。

基于组的对称三元组（GST）损失的有效性。一致性特征在共同显著目标检测（CoSOD）任务中对于检测共同对象起着重要作用。然而，某些类别的一致性特征可能会彼此过于接近。为此，我们需要使一致性特征更具区分性，并与其他特征保持较远的距离。我们引入了 GST 损失，以使所学习到的不同类别的特征彼此之间更具判别性。如表 2 和图 11 中的实验所示，GST 损失成功地在全局和感兴趣区域（RoI）层面上区分了特征，并进一步提升了模型的竞争力。

4.5 对比方法

由于并非所有的共同显著目标检测（CoSOD）模型都是公开可用的，我们仅将我们的 GCoNet 和 GCoNet+ 与一种具有代表性的传统算法 CBCS [14] 以及 11 个基于深度学习的 CoSOD 模型进行比较，这些模型包括了所有最新的模型，即：GWD [17]、RCAN [89]、CSMG [123]、GCAGC [87]、GICD [16]、ICNet [20]、CoADNet [18]、CoEGNet [9]、DeepACG [120]、CADC [113]、UFO [52] 以及 DCFM [119]。由于最新的 CoSOD 方法相较于单目标显著目标检测（single-SOD）方法性能要优秀得多，我们没有列出单目标显著目标检测方法。关于先前方法的完整排行榜可在文献 [9] 中找到。

定量结果。表 3 展示了我们的 GCoNet+ 与先前最先进方法的定量结果。我们的 GCoNet+ 在所有评估指标上均优于其他所有方法，尤其是在 CoCA 和 CoSOD3k 数据集上。与另外两个数据集相比，CoCA 是最难确定共同显著目标的数据集，因为单张图像中的目标数量更多，且背景更加多样化。我们的 GCoNet+ 在分割方面表现出更强的能力，这分别得益于其在显著目标检测和一致性学习方面得到改进的特征。 CoSOD3k 具有类似的属性，并且我们的 GCoNet+ 在该数据集上相较于所有其他方法保持着最佳性能。CoSal2015 是最简单的数据集，因为它的大多数图像仅包含一个显著目标，这使得使用单目标显著目标检测（single-SOD）方法就能轻松处理。尽管难度较低且缺乏共同显著性，但我们的 GCoNet+ 仍然以相对较小的优势超过了其他方法。此外，如表 4 所示，与大多数现有方法相比，我们的 GCoNet+ 参数更少，推理速度更快。

定性结果。图12展示了由不同方法生成的显著图，以便进行定性比较。啤酒瓶组的图像包含多个不同类别的显著目标，在这种情况下，我们的GCoNet+能够精确地检测出共同显著目标，而其他方法则无法做到。在拐杖组的图像中，目标是细长的草图，但我们的GCoNet+仍然能够高精度地分割这些草图，而其他方法甚至无法进行正确的分割。我们选取网球组的图像来比较各模型检测小目标的能力，在这方面，我们的GCoNet+在分类和精度上都比其他方法表现得更好。相比之下，其他方法可能会遗漏小目标，或者将注意力集中在其他类别的目标上。在番茄组的图像中，许多番茄作为共同显著目标，需要被同时检测出来。我们的方法能够通过出色的显著图找到所有的番茄，而其他方法可能会遗漏一些显著的番茄，或者分割出其他非常相近的目标。在上述例子中，我们的GCoNet+能更好地找到组内的共同信息，并区分组间的信息。

4.6 现有共显著目标检测（CoSOD）训练集探讨

尽管在共同显著目标检测（CoSOD）领域已经涌现出许多优秀的研究成果，但仍然缺乏一个标准的训练集。DUTS类数据集、COCO-9k数据集和COCO-SEG数据集是三个常用的训练集，但它们都存在一些局限性，例如，真实标注（GT）图不够准确，以及目标物体的数量较少。

DUTS类数据集。由于DUTS类数据集仅旨在检测显著目标，所以在单张图像中存在不同类别的显著目标。如图13所示，在真实标注（ground truth）中仍然存在类别标注错误的目标，这为模型提供了错误的优化方向。此外，单张图像中只有极少数的目标物体，这使得训练过程缺乏对共同目标的分割能力。

COCO-9k/COCO-SEG数据集。正如在文献[17]、[112]中提到的，COCO-9k和COCO-SEG数据集均是从COCO数据集[114]中采集而来。然而，这两个数据集都没有考虑显著目标这一因素。因此，带有真实标注（ground truth）的目标可能并非是显著目标。所以，仅在COCO-9k数据集或仅在COCO-SEG数据集上训练的模型，可能在分割共同目标方面表现良好，但在分割显著目标方面表现欠佳。

实验。在三个公开测试集以及现实场景中，情况可能有难有易，有的包含各种各样的物体和复杂的场景，有的则只是白纸上一个占主导地位的物体。为了在所有这些情况下都能取得令人满意的结果，模型需要在共同目标分割和显著目标检测这两方面都有出色表现，而这两个方面分别是可以从COCO-9k [17]/COCO-SEG [112] 以及DUTS类数据集 [16] 中学习到的主要优化目标。正如在4.1节中提到的，CoCA [16] 更侧重于在复杂场景中分割共同目标，而CoSal2015 [7] 在测试模型检测显著目标的能力方面起着更为关键的作用。我们使用这两个数据集来检验模型在不同方面的性能。

我们分别在 DUTS 类数据集以及 COCO9k/COCO-SEG 数据集上对 GCoNet+ 进行训练，也会将它们联合起来进行训练。以图 14 中 CoSal2015 [7] 的结果为例，在 DUTS 类数据集 [16] 上训练的模型在显著目标检测（SOD）任务上表现出更好的性能，但在检测共同类别的目标时存在不足。然而，在 COCO-9k 或 COCO-SEG 数据集上进行训练能使模型学习到良好的分割共同类别目标的能力，不过在检测简单的显著目标时性能相对较差。与在 DUTS 类数据集上训练的模型相比，仅在 COCO-9k/COCO-SEG 上训练的模型常常无法检测到显著目标。

为了处理共同显著目标检测（CoSOD）中的两个子任务，即分割共同目标和检测显著目标，我们需要从两个方向对我们的 GCoNet+ 进行优化。因此，我们对 GCoNet+ 设置了在 DUTS 类数据集[16] 以及 COCO-9k/COCO-SEG 数据集[17, 112] 上的联合训练。在联合训练的设置下，同一个模型在上述两个方向上都表现出了更强的性能。如表 3 所示的性能结果，联合训练（即训练设置 1 和 3）的模型在所有这三个测试集上都取得了更好的结果。具体来说，与仅在 DUTS 类数据集上训练的模型相比，我们的 GCoNet+ 在 CoSal2015 数据集上表现出相当的性能，而在 CoCA 数据集上的性能则要好得多。同时，与仅在 COCO-9k 或仅在 COCO-SEG 数据集上训练的模型相比，联合训练的模型在 CoCA 数据集上表现出类似的性能，而在 CoSal2015 数据集上则取得了更好的结果。同样的现象也出现在预测图上，如图 14 所示。

4.7 失败案例

共同显著目标检测网络有两个主要的子目标，这意味着我们可以从两个角度来描述网络的能力，也就是找出共同目标，并对其中的显著目标进行分割。因此，我们选取了这两类典型的失败情况来进行分析。如图15所示，当单张图像中出现了过多不同类别的相似目标，或者目标物体难以与相邻物体区分开来时，我们的模型可能会误判这些目标，并给出不准确的预测结果。

具体而言，对于图15左侧所示的草莓图像，我们经过良好训练的GCoNet+ 倾向于关注物体的纹理和颜色。麻子状的纹理可能会被误认成草莓的纹理。因此，小红莓和樱桃会被误认成草莓，而蓝莓则能够被正确识别出来。对于图中右侧的筷子图像，我们的GCoNet+ 更有能力找出目标物体，但仍然无法处理这种复杂的分割问题。尽管我们的GCoNet+ 在这些极其困难的情况下仍然面临一些问题，但它仍然展现出了巨大的潜力，并且表现优于我们之前的GCoNet模型。

为了在这些困难的情况下进一步改进模型，将需要一个包含更多类别的更大规模的训练集。更多的类别将带来更强的区分不同类别相似物体的能力，而更多的分割示例将增强模型在复杂场景中准确分割物体的通用分割能力。正如在4.6节中所提到的，这可能是未来对共同显著目标检测（CoSOD）任务的一个主要潜在贡献。

五潜在应用

我们展示了利用所提取的共同显著图为相关的下游图像处理任务生成高质量分割掩码的潜力。

应用 #1：内容感知的共同分割。共同显著图已被广泛应用于图像预处理任务中。以我们实现的无监督目标分割为例，我们首先在互联网上通过关键词找到一组图像。然后，运用我们的 GCoNet+ 生成共同显著图。最后，借助这些共同显著图，就能提取出特定图像组中的显著目标。参照文献[24]，我们可以使用 Grab Cut 算法[124]来获取最终的分割结果。在此，我们选择自适应阈值[125] 来初始化 GrabCut 算法，以处理显著图的二值版本。如图 16 所示，我们的方法在内容感知的目标共同分割任务中表现良好，这对于现有的电子商务应用在背景替换方面应该是有益的。

应用 #2：自动生成缩略图。成对图像缩略图的概念源自文献[71]。出于同样的目的，我们引入了一种基于卷积神经网络（CNN）的照片分类应用，这对于在网站上分享图像具有重要价值。如图 17 所示，橙色框是由 GCoNet+ 生成的显著图所确定的区域。我们还可以根据橙色框进行放大，得到更大的红色框。最后，采用集合感知裁剪技术[71]，就能得到第二行所示的结果。

六总结

这项工作提出了一种新颖的群组协作模型（GCoNet+）来处理共同显著目标检测（CoSOD）任务。通过所进行的实验，我们发现群组级别的一致性能够引入有效的语义信息、辅助分类以及度量学习，从而从组内紧凑性和组间可分离性的角度提升特征表示能力。定性和定量实验都证明了我们的GCoNet+的优越性以及其达到的当前最优性能。我们表明，GCoNet+的技术也能够被迁移并轻松应用于许多相关的领域，例如共同检测和共同分割。