目录
- 基本信息
- 标题
- 摘要
- 引言
- 方法
- PCS
- RPP
- 实验
基本信息
期刊 | IEEE TPAMI |
---|---|
年份 | 2023 |
论文地址 | https://arxiv.org/pdf/2303.07670.pdf |
代码地址 | https://github.com/ZZY816/CoRP |
标题
具有共同表示净化的共同显著目标检测
摘要
共同显著目标检测(Co-SOD)旨在发现相关图像组中的共同对象。挖掘共同表示对于定位共同显著目标至关重要。然而,当前的Co-SOD方法并未充分关注与共同显著对象无关的信息是否包含在共同表示中。共同表示中的此类不相关信息会干扰其定位共同显著对象。在本文中,我们提出了一种旨在寻找无噪声共同表示的共同表示净化(CoRP)方法。我们搜索可能属于共同显著区域的一些像素级嵌入。这些嵌入构成我们的共同表示并指导我们的预测。为了获得更纯净的共同表示,我们使用预测来迭代减少共同表示中的不相关嵌入。对三个数据集的实验证明,我们的CoRP在基准数据集上实现了最先进的性能。
引言
人类感知系统可以轻松地发现最显著的区域。共同显著目标检测(Co-SOD)旨在从一组相关的图像中发现共同显著的对象。同时,Co-SOD需要处理在训练过程中未学习的未知对象类别。这种能力可以作为许多现实世界应用的预处理步骤,例如视频共定位、语义分割、图像质量评估和弱监督学习。Co-SOD任务的难点在于在混乱的现实世界环境中发现共同显著的对象。如图1所示,自动发现和分割多个不相关显著对象中的共同显著对象“香蕉”是具有挑战性的。
(a) "•"代表共同显著对象“香蕉”的嵌入。我们观察到嵌入(在蓝色圆圈区域内)非常接近中心,很可能属于共同显著对象。我们将它们用作我们的共同表示,以定位共同显著对象。 (b) 当我们的初步预测滤除了许多不相关对象的嵌入时,我们可以获得一个新的中心,不受不相关嵌入的干扰。这个新的中心有助于搜索更纯净的共同表示,从而实现更准确的预测
为了区分共同显著对象,大多数最先进的方法(SOTA)直接估计一个共同表示,以捕捉共同显著对象的共享特征,通过特征聚合、聚类、主成分分析、全局池化等方法。这些方法的共同表示是从所有区域汇总的,或者是在预测的显著区域内总结的。尽管在许多场景中取得了令人满意的性能,但它们通常忽略了与不相关的显著对象相关的噪声信息。
利用带噪声的共同表示可能导致共同显著对象的不正确定位,限制了Co-SOD模型的性能,特别是对于复杂的现实世界场景。为了克服这一瓶颈,我们尝试减少共同表示中的不相关信息。与当前的方法不同,后者通过总结所有区域或显著区域来直接获得共同表示,我们提出了一个迭代过程,只搜索属于共同显著区域的自信位置作为我们的共同表示,这将引导共同显著对象的完整分割。
具体而言,我们首先提出纯共同表示搜索(PCS)来找到属于共同显著区域的自信嵌入,作为我们的共同表示。如图1所示,在所有显著对象的像素嵌入中,由于图像组中共同显著对象的重复性,共同显著对象的嵌入占主导地位。当通过总结所有显著区域的嵌入来获得中心时,我们发现靠近中心的嵌入更有可能属于共同显著对象。基于这一观察,我们不直接使用不完美的中心来检测共同显著对象,而是将中心视为用于索引与其高度相关的嵌入的代理共同表示。与从所有显著区域总结的代理共同表示相比,我们的共同表示由自信的共同显著嵌入组成,受到不相关噪声的干扰较少。
图2. 我们CoRP的总体框架。 “PCS” 和 “RPP” 分别表示提出的纯共同表示搜索(第3.2节)和递归代理净化(第3.3节)。如上所示,当接收一组图像时,首先通过共享骨干的显著性目标检测(SOD)头部来预测相应的显著性图。通过显著性图过滤背景噪声生成共同表示代理。借助代理的帮助,PCS搜索纯共同表示,指导共同显著性预测。RPP反馈共同显著性图以计算新的代理,有助于搜索更纯净的共同表示。在PCS和RPP的协作下,预测中的噪声被迭代地去除。为了简洁起见,我们没有绘制我们的编码器-解码器架构和SOD头部,这些部分与Co-SOD网络共享骨干参数。
考虑到来自PCS的索引共同表示仍然包含不相关的嵌入,我们提出了递归代理净化(RPP),使用预测的共同显著性图来迭代净化共同表示。在获得共同显著性图的预测之后,我们使用预测来过滤更多的噪声并获取一个新的代理。新的代理有助于PCS搜索更少噪声的共同表示,以实现更准确的预测。我们迭代地执行上述过程来净化我们的共同表示。在PCS和RPP的交替工作下,我们的共同表示中的不相关嵌入逐渐减少。也就是说,迭代过程使我们的表示变得越来越纯净。在下面的章节中,我们简称我们的方法为CoRP(共同表示净化)。总之,我们的主要贡献如下
我们提出了两种净化策略:(i)PCS用于挖掘无噪声的共同表示,和(ii)RPP用于基于先前的共同显著性图迭代减少噪声。
CoRP在具有挑战性的数据集CoCA、CoSOD3k和CoSal2015上实现了最先进的性能。
方法
PCS
PCS策略旨在通过找到多个与目标共同表示的纯代理来提高Co-SOD网络的性能。具体而言,PCS方法通过以下步骤来生成纯代理:
- 使用预训练的VGG16网络作为特征提取器,提取输入图像的特征。
- 使用一个大小为K的矩阵K Embeddings来表示每个纯代理。K Embeddings中的每个元素都与输入图像中的一个元素对应。
- 对于每个纯代理,使用基于随机森林的分类器预测其所属的类别。
- 使用SOD(Single Salient Object Detection)网络在预测类别的基础上,提取对应的纯代理。
- 对提取到的纯代理进行排序,并记录下它们的IoU(Intersection over Union)分数。
- 使用IoU分数来筛选出前K个最具相关性的纯代理。
- 将前K个纯代理拼接在一起,生成一个长度为K的向量,作为纯代理的最终表示。
RPP
RPP策略旨在通过迭代去除与目标共同表示的代理,从而提高Co-SOD网络的性能。具体而言,RPP方法通过以下步骤来生成纯代理:
- 使用预训练的VGG16网络作为特征提取器,提取输入图像的特征。
- 使用一个大小为K的矩阵K Embeddings来表示每个纯代理。K Embeddings中的每个元素都与输入图像中的一个元素对应。
- 对于每个纯代理,使用基于随机森林的分类器预测其所属的类别。
- 使用SOD(Single Salient Object Detection)网络在预测类别的基础上,提取对应的纯代理。
- 在每次迭代中,使用前一时刻的纯代理生成新的纯代理。具体而言,对于每个新纯代理,使用基于随机森林的分类器预测其所属的类别。
- 如果新纯代理与前一时刻的纯代理IoU分数差异较大,或者新纯代理的IoU分数低于某一阈值,则将其从内存中移除。
- 经过若干次迭代后,得到一个纯代理序列,该序列代表了输入图像中与目标共同表示的所有纯代理。
- 使用IoU分数来筛选出前K个最具相关性的纯代理。
- 将前K个纯代理拼接在一起,生成一个长度为K的向量,作为纯代理的最终表示。