概述
摘要: 这篇论文提出了一种新颖的“无范例类别无关计数”(Exemplar Free Class Agnostic Counting)方法,旨在测试时对新类别的对象进行计数,而无需访问该类别的标记训练数据。以往的类别无关计数方法无法在完全自动化的环境中工作,且需要在测试时进行计算昂贵的适应。为了解决这些挑战,作者提出了一个视觉计数器,它可以在完全自动化的环境中运行,且不需要任何测试时的适应。该方法首先从图像中识别出重复对象的范例,然后对这些重复对象进行计数。作者提出了一种新颖的区域提议网络来识别范例,然后使用基于密度估计的视觉计数器来获得相应的计数。该方法在FSC-147数据集上进行了评估,并显示出比现有方法更优越的性能。
拟解决的问题: 传统的视觉计数器通常针对特定类别的对象进行计数,需要大量的标注训练数据,并且只能一次计数一个类别。这限制了它们在多种类别对象计数中的可扩展性。作者提出了一种类别无关的视觉计数器,能够同时对多个类别的对象进行计数,而不需要在测试时提供特定类别的范例。
创新之处:
- 提出了第一个无需范例的类别无关视觉计数器,能够对训练时未标注的新颖类别进行计数。
- 开发了一种新颖的卷积网络架构,称为重复区域提议网络(Repetitive Region Proposal Network, RepRPN),用于自动识别图像中最频繁类别的少量范例。
- 提出了一种知识转移策略,用于处理FSC-147数据集中未标注对象的问题。
方法
- Repetitive Region Proposal Network (RepRPN):用于从图像中识别重复对象类别的范例,并预测每个提议的对象性(objectness)和重复性(repetition)得分。
- Density Prediction Network (DPN):用于预测与RepRPN生成的每个范例对应的高分辨率密度图。
- 知识转移策略:利用在大规模目标检测数据集上训练的RepRPN和在FSC-147上训练的密度预测网络作为教师网络,来处理FSC-147数据集中未标注对象的问题。
2.1 RepRPN
从图像中识别出重复对象的区域,并为这些区域生成高质量的区域提议。它旨在为后续的密度预测网络(DPN)提供准确的范例,以便对图像中的重复对象进行有效的计数。
RepRPN 利用了 ResNet-50 作为其特征提取的骨干网络,并在特征图上应用了自注意力(Self-Attention)机制来捕获全局信息。它预测每个锚点位置的提议边界框以及对象性(objectness)和重复性(repetition)得分。
对象性和重复性得分:
- 对象性得分:表示提议是否属于任何对象类别而不是背景类别的概率。
- 重复性得分:指图像中提议内包含的对象出现的次数。例如,如果图像中有 m 只猫和 n 个橙子,RepRPN 应该为任何猫的提议预测 m 作为重复性得分,为任何橙子的提议预测 n。
2.2 RepRPN-Counter
DPN的目的是为每个选定的范例预测一个高分辨率的密度图。密度图表示了图像中每个像素点属于某个特定范例对象的概率。DPN的工作流程如下:
- 特征提取:使用与RepRPN相同的ResNet-50骨干网络提取特征图。
- 区域感兴趣(Region of Interest, RoI)池化:对RepRPN选定的范例进行RoI池化,提取每个范例的特征。
- 密度图预测:将范例特征与整个图像的特征相结合,通过全卷积网络预测密度图。DPN由多个卷积层和上采样层组成,输出的密度图与输入图像具有相同的空间尺寸。
- 计数:通过累加密度图中所有像素的值来计算每个范例的总数量。
2.3 知识转移
知识转移策略旨在利用额外的预训练模型来弥补训练数据中的不足。通过从预训练的模型中转移知识,可以提高模型对未标注类别的识别和计数能力。
预训练的Repetitive Region Proposal Network (RepRPN):
- 首先,在大规模目标检测数据集(如MSCOCO)上预训练RepRPN,使其能够识别各种类别的对象。
- 使用这个预训练的RepRPN作为“教师模型”,为FSC-147数据集中未标注的对象生成对象性得分和重复性得分。
预训练的密度预测网络 (FamNet):
- 使用在FSC-147数据集上预训练的FamNet作为教师模型,它能够预测任何单个范例的密度图。
- 对于未标注的对象,使用FamNet生成目标密度图,作为训练RepRPN-Counter时的监督信号。
知识转移的过程:
(1)生成目标标签:
- 对于FSC-147数据集中未标注的对象,利用预训练的RepRPN生成对象性得分和重复性得分。
- 对于需要密度预测的未标注对象,利用FamNet生成目标密度图。
(2)训练RepRPN-Counter:
- 使用从教师模型转移来的目标标签来训练RepRPN-Counter。
- 这样,即使在训练数据中未明确标注某些类别的对象,模型也能够学习如何识别和计数这些对象。
结论
作者提出的RepRPN-Counter是首个能够处理在测试时未见过的类别的视觉计数器。通过新颖的区域提议网络和密度估计网络,该计数器在FSC-147数据集上实现了优越的性能,并且优于现有的类别无关视觉计数器。此外,RepRPN还可以显著提高其他类别无关视觉计数器的性能。