小样本目标定位：Few-shot Object Localization

论文：Few-shot Object Localization

代码：https://github.com/Ryh1218/FSOL

核心贡献：

1. 本文首次定义了小样本目标定位任务，为在标注数据有限的场景下进行目标定位提出了新的研究方向，并建立了高性能的基准。
2. 提出的双路径特征增强模块旨在同时增强支持图像和查询图像之间的变形和梯度关联，从而显著提升定位性能。
3. 提出的自查询模块通过相似性矩阵加权来利用查询图像，以增强相似性图，同时避免过多的噪声干扰。

摘要：

现有的目标定位方法主要针对特定类别的目标进行定位，严重依赖于大量标注数据进行模型优化。然而，在许多现实场景中，获取大量标注数据具有挑战性，这极大地限制了定位模型的广泛应用。为弥补这一研究空白，本文定义了一项新的任务，称为小样本目标定位（Few-Shot Object Localization, FSOL），旨在通过有限的样本实现精确定位。该任务通过利用少量标注的支持样本来查询对应图像中目标的位置信息，从而实现广义的目标定位。为了推进这一领域的发展，我们设计了一种创新的高性能基线模型。该模型集成了双路径特征增强模块，以增强支持图像和查询图像之间的形状关联和梯度差异，同时还包含自查询模块，以探索特征图与查询图像之间的关联。实验结果表明，我们的方法在小样本目标定位任务中显著提升了性能，建立了一个高效的基准，为进一步研究提供了基础。

任务框架：

小样本目标定位（FSOL）任务的演示。在训练阶段，模型根据给定的支持样本及其对应的查询图像预测位置图。然后，通过最小化真实值与预测位置图之间的均方误差损失来调整其参数。在测试阶段，训练好的模型预测在训练阶段未出现的新类别样本在对应查询图像中的位置图。

模型框架：

我们的FSOL流程示例如图。给定查询图像和支持图像，从查询图像中提取查询特征FQ，而支持特征FS则从FQ中裁剪出来。双路径特征增强（DFA）模块首先通过变形和梯度分支增强FQ和FS中的变形和梯度信息，输出变形增强的FDQ和FDS以及梯度增强的FCQ和FCS。然后，DFA对堆叠的FDQ和FDS进行3D卷积，使用堆叠的FCQ和FCS作为卷积核权重，获得查询图像和支持图像之间的相似性图S。接着，自查询（SQ）模块接受S作为输入，并使用原始FQ来引导S中的对象分布信息，随后输出优化后的相似性图SSQ。最后，将SSQ发送到回归头以获得最终的位置图。

引言：

目标定位是计算机视觉中的一项基础任务，随着深度学习技术的推动，取得了显著进展。在图像中实现精确的目标定位在多个应用领域中至关重要，包括自动驾驶汽车、监控系统、医学图像分析和人群管理等。尽管取得了重大进展，现有方法主要依赖大量标注数据来训练高精度模型。然而，在现实场景中获取此类标注数据集往往面临巨大的挑战，主要由于相关费用和时间限制。为应对这些挑战，小样本学习作为一种有前景的范式出现，旨在减少对大量标注数据集的依赖。通过使模型从有限数量的标注样本中学习，小样本学习增强了模型的泛化能力，特别适用于获取大量标注数据不切实际或不可行的场景。

随着小样本学习的进步，在没有大量标注数据的情况下实现精确的目标定位变得可行但尚未被充分探索。因此，我们进一步研究了小样本环境下的目标定位，即在给定仅有少量样本标注的图像时，仅借助这些标注样本来定位其他同类样本。我们将此问题称为小样本目标定位（Few-Shot Object Localization, FSOL）任务。与主要关注数量分析的小样本目标计数任务不同，FSOL强调识别目标并提供图像中精确的位置信息。如图1所示，模型在训练阶段从已知类别的标注支持样本中学习。在测试阶段，模型展示了对新类别的显著泛化能力，极大地提升了其整体适应性和性能。

本研究旨在通过引入一个高性能基准模型来推动少样本目标定位（FSOL）任务的研究。在这一任务中，我们识别出了两个主要挑战：

类内目标的外观差异：查询图像中同一类别的目标之间存在显著差异，与支持图像样本相比，产生了外观差距，影响了查询的准确性（见图2(a)）。
目标间遮挡导致的漏检：模型难以准确区分查询图像中密集、重叠的目标，导致定位召回率下降（见图2(b)）。

小样本目标定位中的困难会带来负面影响：a) 类内对象之间的外观差异；b) 由于对象间遮挡导致的对象遗漏。

为了解决FSOL任务中的关键挑战，我们设计了一个双路径特征增强模块。为了处理形状、大小和方向的类内变化，我们使用了可变形卷积分支，通过适应特征变化来增强定位性能。为了减少对象遗漏，我们实施了跨中心差分卷积分支，通过捕捉梯度差异来提高特征辨别能力。此外，我们引入了3D卷积来捕捉图像结构、纹理和模式，从而增强特征表示和模型性能。查询图像与支持图像进行3D卷积，以生成反映对象位置的相似性图。

此外，利用原始查询图像来增强获得的相似性图已成为一种有前途的策略。目前的方法通常将查询特征直接添加到相似性特征图中，使用残差连接技术来保留原始图像中的对象信息并优化相似性特征图。然而，这种直接添加策略会引入查询图像中的大量噪声，使其不适合需要高精度的定位任务。因此，受自支持匹配的启发，我们利用查询图像和相似性图之间计算的相似性矩阵进行加权。此方法旨在更准确地结合查询图像的信息，同时减少不良噪声。

在本文中，我们介绍了FSOL的开创性任务，并提出了一个创新的高性能基准。为了应对定位任务中显著的类内变化和目标遮挡带来的挑战，我们设计了一个双路径特征增强模块，旨在增强支持特征和查询特征之间的外观对应性和梯度辨别能力。此外，为了有效利用查询图像中的信息来增强相似性图，我们引入了一个自查询模块，以探索特征图和查询图像之间的复杂关联。实验结果表明，我们的方法在FSOL任务中显著提高了性能，为在有限数据场景下的目标定位研究建立了一个高效的基准。总之，本文的贡献可以概括如下：

我们首次定义了少样本目标定位任务，为在有限标注数据场景下的目标定位提出了新的研究方向，并建立了一个高性能基准。
提出的双路径特征增强模块旨在同时增强支持图像和查询图像之间的变形和梯度关联，显著提高定位性能。
提出的自查询模块使用相似性矩阵加权来利用查询图像增强相似性图，同时避免过多的噪声干扰。

关键图展示：

演示了两种用于增强支持图像和查询图像中变形和梯度信息的卷积策略：(a) 可变形卷积：普通卷积使用固定的采样点，可能会引入噪声，而可变形卷积通过调整采样点来减少背景噪声并提高适应性。(b) 跨中心差分卷积（CCD-Conv）：跨中心差分卷积计算中心像素周围相邻像素之间的差异，并使用这些差异作为权重生成最终输出。这种方法能够捕捉到图像的细微变化，如纹理、边缘和细节。

自查询（SQ）模块的演示。SQ模块通过整合相似性图S和原始查询图像特征FQ的信息，增强模型对对象分布的感知。首先，它对S和FQ应用一个共享的卷积层，从而引入非线性并捕捉相似的模式。接着，它计算S和FQ之间的余弦相似度以获得自查询权重W。这些权重逐元素地添加到S中，使S中的分布信息通过FQ引导优化。最后，经过另一个卷积层后，SQ模块生成优化后的相似性图SSQ。