《Few-shot Object Counting with Similarity-Aware Feature Enhancement》CVPR2023

news2025/4/12 3:57:03

摘要

论文提出了一种新颖的学习模块，该模块包含一个相似性比较模块（Similarity Comparison Module, SCM）和一个特征增强模块（Feature Enhancement Module, FEM）。通过比较支持图像和查询图像的投影特征，生成一个得分图，然后通过在样本维度和空间维度上的归一化，得到可靠的相似性图。然后，利用这些相似性作为权重系数，增强查询特征。这种设计鼓励模型更多地关注查询图像中与支持图像相似的区域，从而实现更清晰的不同对象之间的边界。通过在各种基准和训练设置上的广泛实验，论文证明了其方法超过了现有的最先进方法。

概述

拟解决的问题：论文旨在解决少样本目标计数问题，即在只有少量支持图像的情况下，对查询图像中的目标对象进行计数。这与大多数现有研究不同，因为现有研究假设测试阶段要计数的目标对象已被训练数据覆盖。

few-shot目标计数：希望找到查询图像中出现少量支持图像描述的示例对象的数量。除了训练阶段包含的对象外，我们还期望模型在测试阶段处理新类而无需重新训练。

三种不同的方法：基于特征的方法、基于相似性的方法，以及本文提出的相似性感知特征增强块（Similarity-Aware Feature Enhancement block，简称SAFEBlock）：

a 展示了基于特征的方法，其中查询特征与池化后的支持特征进行连接，然后通过一个回归头（Regress Head）来识别两个特征是否足够接近。然而，池化操作忽略了支持图像的空间信息，这可能导致特征比较不够可靠。
b 展示了基于相似性的方法，通过从原始特征生成相似性图作为回归对象。但是，相似性信息不如特征信息丰富，这使得在查询图像中密集排列的对象之间难以识别出清晰的边界。
c 展示了本文提出的SAFEBlock，它由两个主要部分组成：相似性比较模块（Similarity Comparison Module，简称SCM）和特征增强模块（Feature Enhancement Module，简称FEM）。

拓展阅读：

回归头的结构和功能：

卷积层序列：通常包括多个卷积层，用于处理和提取增强特征映射中的空间信息。
激活函数：如Leaky ReLU，用于增加网络的非线性处理能力，帮助捕捉更复杂的模式。
上采样（Upsampling）：通过如双线性插值（bilinear interpolation）等上采样方法，将特征映射的分辨率提升到与原始查询图像相同的尺寸。这是因为在特征提取过程中，通常会通过池化或卷积步长的改变来降低特征映射的尺寸，因此需要上采样来恢复到原始尺寸。
最终输出层：最后一个卷积层将特征映射到单个通道，输出最终的密度图。

创新之处：

提出了一种新颖的相似性感知特征增强模块（SAFECount），该模块整合了特征和相似性的优势，通过利用相似性作为指导来增强特征。
引入了相似性比较模块（SCM），通过学习特征投影并比较这些投影特征来生成得分图，从而获得可靠的相似性图。
引入了特征增强模块（FEM），使用相似性作为权重系数，将支持特征融合到查询特征中，使增强的查询特征更加关注与样本目标相似的区域。

方法

使用支持图像和查询图像的特征，通过SCM生成得分图，然后归一化生成相似性图。
FEM利用相似性图作为权重，将支持特征融合到查询特征中，增强查询特征。
通过特征提取器和回归头，将增强的查询特征转换为密度图，用于目标计数。
允许SAFECount模块堆叠，以进一步提高性能。

框架中的核心块，称为相似性感知特征增强块。我们将支持特征和查询特征分别表示为 $f_{S}\in \mathbb{R}^{K\times C\times H_{S}\times W_{S}}$ 和 $f_{Q}\in \mathbb{R}^{C\times H_{Q}\times W_{Q}}$ ，其中 K 是支持图像的数量。相似度比较模块 (SCM) 首先将 $f_{S}$ 和 $f_{Q}$ 投影到比较空间，然后在每个空间位置比较这些投影特征，得到分数图 $R_{0}$ 。然后， $R_{0}$ 沿样本维度和空间维度进行归一化，得到可靠的相似度图 R。以下特征增强模块（FEM）首先通过用 R 加权 $f_{S}$ 得到相似度加权特征 $f_{R}$ ，然后设法将 $f_{R}$ 融合到 $f_{Q}$ 中，产生增强特征 $f_{Q}^{'}$ 。通过这样做，关于与支持图像相似的区域的特征是“突出显示的”，这有助于模型在密集填充的对象之间获得可区分的边界。最后，密度图从 $f_{Q}^{'}$ 回归。