摘要
论文提出了一种新颖的学习模块,该模块包含一个相似性比较模块(Similarity Comparison Module, SCM)和一个特征增强模块(Feature Enhancement Module, FEM)。通过比较支持图像和查询图像的投影特征,生成一个得分图,然后通过在样本维度和空间维度上的归一化,得到可靠的相似性图。然后,利用这些相似性作为权重系数,增强查询特征。这种设计鼓励模型更多地关注查询图像中与支持图像相似的区域,从而实现更清晰的不同对象之间的边界。通过在各种基准和训练设置上的广泛实验,论文证明了其方法超过了现有的最先进方法。
概述
拟解决的问题: 论文旨在解决少样本目标计数问题,即在只有少量支持图像的情况下,对查询图像中的目标对象进行计数。这与大多数现有研究不同,因为现有研究假设测试阶段要计数的目标对象已被训练数据覆盖。
三种不同的方法:基于特征的方法、基于相似性的方法,以及本文提出的相似性感知特征增强块(Similarity-Aware Feature Enhancement block,简称SAFEBlock):
- a 展示了基于特征的方法,其中查询特征与池化后的支持特征进行连接,然后通过一个回归头(Regress Head)来识别两个特征是否足够接近。然而,池化操作忽略了支持图像的空间信息,这可能导致特征比较不够可靠。
- b 展示了基于相似性的方法,通过从原始特征生成相似性图作为回归对象。但是,相似性信息不如特征信息丰富,这使得在查询图像中密集排列的对象之间难以识别出清晰的边界。
- c 展示了本文提出的SAFEBlock,它由两个主要部分组成:相似性比较模块(Similarity Comparison Module,简称SCM)和特征增强模块(Feature Enhancement Module,简称FEM)。
拓展阅读:
回归头的结构和功能:
- 卷积层序列:通常包括多个卷积层,用于处理和提取增强特征映射中的空间信息。
- 激活函数:如Leaky ReLU,用于增加网络的非线性处理能力,帮助捕捉更复杂的模式。
- 上采样(Upsampling):通过如双线性插值(bilinear interpolation)等上采样方法,将特征映射的分辨率提升到与原始查询图像相同的尺寸。这是因为在特征提取过程中,通常会通过池化或卷积步长的改变来降低特征映射的尺寸,因此需要上采样来恢复到原始尺寸。
- 最终输出层:最后一个卷积层将特征映射到单个通道,输出最终的密度图。
创新之处:
- 提出了一种新颖的相似性感知特征增强模块(SAFECount),该模块整合了特征和相似性的优势,通过利用相似性作为指导来增强特征。
- 引入了相似性比较模块(SCM),通过学习特征投影并比较这些投影特征来生成得分图,从而获得可靠的相似性图。
- 引入了特征增强模块(FEM),使用相似性作为权重系数,将支持特征融合到查询特征中,使增强的查询特征更加关注与样本目标相似的区域。
方法
- 使用支持图像和查询图像的特征,通过SCM生成得分图,然后归一化生成相似性图。
- FEM利用相似性图作为权重,将支持特征融合到查询特征中,增强查询特征。
- 通过特征提取器和回归头,将增强的查询特征转换为密度图,用于目标计数。
- 允许SAFECount模块堆叠,以进一步提高性能。
框架中的核心块,称为相似性感知特征增强块。我们将支持特征和查询特征分别表示为 和 ,其中 K 是支持图像的数量。相似度比较模块 (SCM) 首先将 和 投影到比较空间,然后在每个空间位置比较这些投影特征,得到分数图 。然后, 沿样本维度和空间维度进行归一化,得到可靠的相似度图 R。以下特征增强模块(FEM)首先通过用 R 加权 得到相似度加权特征 ,然后设法将 融合到 中,产生增强特征 。通过这样做,关于与支持图像相似的区域的特征是“突出显示的”,这有助于模型在密集填充的对象之间获得可区分的边界。最后,密度图从 回归。
3.1 相似性比较模块(SCM)
目的:通过比较支持图像和查询图像的特征,生成一个表示它们之间相似度的得分图(score map),然后将其转换为一个可靠的相似性图(similarity map)。
学习特征投影:使用1x1卷积层将支持特征 和查询特征 投影到比较空间。
特征比较:通过将投影后的查询特征 与支持特征 进行卷积操作来生成得分图 ,在这里,支持特征被用作卷积核(kernel),这意味着每个空间位置的卷积运算都是与支持特征的相应部分进行比较:
其中 g(⋅) 表示特征投影,即1x1卷积层后接层归一化(Layer Normalization)。
得分归一化:将 沿样本维度和空间维度进行归一化,生成相似性图 R。
最终相似性图 R 由 和 逐元素相乘得到:
3.2 特征增强模块(FEM)
目的:利用SCM生成的相似性图 R 作为权重系数,将支持特征 融合到查询特征 中,以增强查询特征。
加权特征聚合:使用相似性图 R 作为权重,通过卷积操作将支持特征 聚合成相似性加权特征 。
其中 flip(⋅) 表示将输入张量水平和垂直翻转,以保留空间结构。
可学习的特征融合:将 融合到 中,生成增强的查询特征 。
其中 h(⋅) 是由两个卷积层构成的网络。