开放世界目标检测：检测区分出未知物体

01 Abstract

开放世界目标检测旨在识别未见过类别的目标，并在提供注释后逐步识别这些目标。与传统的只限于预定义类别的范式不同，这种设置承诺通过使用与类别无关的信息来持续且通用地估计目标性。然而，实现目标性和类别信息之间的这种去相关化证明是具有挑战性的。在没有明确考虑的情况下，现有方法通常对未知目标的召回率较低，并且可能将它们误分类为已知类别。为了解决这个问题，我们在检测过程中利用了三个层次的正交性：首先，通过在设计的极坐标系统中使用彼此正交的特征集，将目标性和分类头分离。其次，引入了一种预测去相关损失，引导检测器进行更通用且与类别无关的预测。此外，我们提出了一种校准方案，帮助在整个训练过程中保持正交性，以减轻灾难性干扰并促进对以前未见过的目标的增量学习。我们的方法在开放世界和增量目标检测基准上进行了全面评估，证明了其在检测已知和未知目标方面的有效性。

代码地址：

https://github.com/feifeiobama/OrthogonalDet

02 Introduction

目标检测是计算机视觉中的一项基础任务，传统上遵循封闭世界的范式。尽管在这种方法上取得了显著进展，但它受限于假设所有要检测的目标类别在训练期间都是预定义且已知的。这本质上阻碍了检测器识别未知目标以及在不断变化的世界中学习新发现的目标。为了应对这些限制，提出了一种新的设置，称为开放世界目标检测，它通过自主发现未知目标并在获得标注后逐步识别它们，从而以更具适应性的方式处理目标检测，使得检测器能够在开放世界中持续运作。
然而，接受这种新的开放世界设置带来了几个关键挑战，这是由于问题的开放集和增量特性所致。核心在于，模型应能够推广以检测未知目标，并正确地将它们分配到一个特殊的未知类别。它还需要自适应地融入新的目标知识，而不会干扰已知类别。
我们通过解释以往方法的缺陷，揭示了它们在目标性和类别预测之间的依赖关系。基本原理有两个：首先，因为现有模型通常通过从已知类别中转移类别特定信息来检测未知目标，因此一些在先前分布中不太突出的通用目标性线索（如形状）可能会被忽视。这会影响未知目标的召回率，特别是那些在视觉上与已知类别不相似的目标。其次，依赖类别相关信息进行目标性预测导致在它们的特征空间中产生相关的决策边界，如图1a所示。因此，检测到的未见过目标往往会与已知目标相似，因此更有可能与它们混淆，这也在增量学习阶段引入了额外的干扰。后续章节还包含了更多关于这种新考虑的相关性的证据。
为了缓解上述目标性和类别信息之间的干扰，我们受正交化解耦文献的启发，提出在检测器的特征空间和预测空间中强制正交化。具体而言，在特征空间中，我们采用了极坐标系统，将每个目标特征分解为两个正交分量，即幅度和方向，如图1b所示。这两个分量分别用于目标性和类别预测，其中幅度对应于目标性，因为较大的幅度表示更显著的目标，而不同的方向则编码了关于已知和未知类别的信息。在这里，通过一种启发式策略，通过预测置信度低的分布外提议来区分未知类别。此外，为了增强目标性和类别信息之间的正交性，我们在预测空间中引入了一种去相关损失，用以惩罚目标性和类别预测之间的统计相关性。这两种设计共同促进了更与类别无关的检测结果，结果显示这显著提高了模型在已知和未知目标上的性能，从而在开放世界目标检测中实现了更好的目标发现。我们还注意到，在新增目标的增量学习过程中，所提出的正交化方案的效果可能会被削弱，因为在类别分布发生剧烈变化时，特征正交性不再成立。为了解决这个问题，我们开发了一种跨任务校准层，用于对齐不同任务的特征空间以进行联合正交化。具体而言，校准层在目标性和类别预测头之前进行交错排列，并学习一组任务特定的仿射变换，对因任务变化导致的潜在表示偏移进行修正。在推理过程中，我们使用一种路由算法来估计每个目标提议的任务，并相应地执行校准变换。这使得模型能够在不断变化的目标分布下持续保持正交性，从而生成更通用和与类别无关的预测。

03.Method

3.1 问题的提出

开放世界物体检测涉及在不断发展的世界中检测物体，在此过程中，训练数据中不断添加新的未知类别。在任何任务t时，模型接收来自已知类别

的标注数据，这些数据包括包含多个物体实例的N张图像，每个实例都有边界框

和类别标签重要的是，训练后的模型需要识别来自已知类别和未知类别

的物体，后者可以传递给标注员生成来自扩展类别

的新训练数据。通过迭代这一过程，物体检测器能够持续发现并整合新的物体类别，从而适应开放世界。然而，在对未知物体进行检测并逐步识别它们而不严重干扰已知类别的情况下，这带来了显著的挑战。我们提出通过正交性的概念来应对这些挑战。接下来，我们从基础检测器开始（见第3.2节），并在其特征空间（见第3.3节）和预测空间（见第3.4节）中施加正交性。最后，在第3.5节中讨论增量学习技术。

3.2. 基础模型

我们采用RandBox作为基础模型，因为它在已知类别上的性能处于最先进水平。它去除了区域提议网络，形成了类似Fast R-CNN的架构，如图2a所示。具体来说，该模型首先从输入图像中提取特征图，并使用RoI池化基于随机采样的边界框获得物体提议特征f。这些特征随后被送到检测头h以生成物体性、类别和定位预测。由于我们的工作主要关注前两部分（物体性和类别），我们简单地将检测头h表示为两个独立的头部hobj和hcls。物体性和类别概率pobj和pcls可以推导如下：

其中pcls分布在C + 1个类别上，包括C个已知类别和一个特殊的未知类别。在此基础上，我们可以进一步推导出每个提议的联合概率

，并将其用于模型训练。基础模型的训练概述如下。首先，应用动态匹配器将物体提议与真实标签关联。剩余的具有最高匹配分数的提议被伪标注为未知物体。两者都被用作学习监督。此外，在任务进展过程中，我们的模型在所有新数据和类别上进行顺序训练时，采用重放缓冲区来保留以前物体的知识并减轻遗忘。

3.3. 特征正交化

基础模型对未知类别的召回率有限，可能是由于其检测结果与类别信息相关，如图3a所示。为了解决这一问题，并使检测结果更加通用且与类别无关，我们将其物体性和类别预测头重新设计为在两个相互正交的特征集上操作。
物体性和类别特征的正交化。为了有效地分解物体特征，我们采用了一种手动设计的方案，避免了流行的正交化方法中的密集计算和优化误差。具体来说，我们从基于极坐标分解的文献中汲取灵感，将物体特征投影到大小和方向的两个正交分量中。大小独立表示物体性，而方向用于分类，从而将这两个预测过程解耦。推理过程如图2b所示，可公式化为：

值得注意的是，这种分解在很大程度上保留了特征表达能力，因为角度特征已被广泛应用于许多判别任务和学习设置。同时，特征大小在某些以物体为中心的任务中也被证明是有用的。
未知类别的判别。将类别信息编码在单位超球面上后，针对未知类别进行建模变得具有挑战性，因为现有的基于能量的方法[30]或概率方法是为欧几里得特征空间设计的。我们通过一种仅基于模型预测的启发式策略来解决这一问题。直观上，未知物体可以被视为具有较低预测置信度的异常值，因此可以使用基于置信度的标准来检测这些异常值。设表示原始类别预测，是概率最高的类别，则将其补充分配给未知类别概率，公式如下：

其余类别概率重新调整以确保它们的总和等于1。

3.4. 预测正交化

为了进一步解耦物体性和类别预测，从而提高对未知类别的性能，我们建议在物体检测器的输出空间中直接施加正交性。这通过引入一种新的正则化损失来实现，该损失惩罚两个预测之间的统计相关性。
物体性和类别预测的去相关化。虽然理想的目标是实现两者之间的完全独立性，但直接通过互信息评估依赖性被认为是困难的。因此，我们选择了一种更简化的方法，重点关注两个变量之间的线性相关性。设pc表示第c个类别概率，则其与物体性pobj的线性相关性可以通过平方相关系数有效地测量，得到以下损失：

其中var(·)和cov(·, ·)计算小批量中的所有提议的方差和协方差。并且它直接添加到目标函数中进行训练。
这些正交设计的有效性在图3b和3c中得到了验证。可以看出，特征正交性增强了未知类别的物体性，而预测正交性则减少了对已知类别的偏差。后续实验将表明，两个设计都为提高未知物体的召回率并减少混淆做出了贡献。

3.5. 增量学习

除了在一个阶段内检测开放集物体之外，开放世界物体检测还包含新物体的增量学习，这带来了因分布变化而导致遗忘已知类别的关键挑战，即灾难性遗忘。为了解决这个问题，我们提出了一种校准方案（即对旧的表示进行轻量级转换），以使模型保持类别独立性，从而在学习过程中减少遗忘的可能性。
在任务变化下校准正交性。我们模型中的灾难性干扰的一个典型表现是由于表示偏移而导致的正交性受损。如图2c所示，物体性决策边界可以从超球面移至超椭球面，不再与角度类别特征正交。光谱分析（见图4）进一步支持了这一点，非均匀的奇异值类似于超椭球体的半轴，表明了表示的扭曲。
基于这些观察结果，我们引入了一组任务特定的仿射变换Mi来校准以前任务的特征，以实现联合正交化（对于当前任务，Mt = I）。校准过程是通过将原始特征fo输入到所有任务特定的变换中，以获得候选特征Mifo，然后进行加权求和以形成校准特征：

其中，w 是一个指定校准层中推理路径的独热向量，这也有助于通过参数隔离来减轻遗忘。下文介绍了决定w的路由算法。
校准层内的路由。为了为每个物体提议选择适当的校准变换，需要估计与其相关的任务。受第3.3节中做法的启发，我们利用类别预测的置信度来评估任务概率。具体来说，设pc表示路由前第c个类别的概率，那么第i个任务概率πi由其对应类别范围：

其中Z为归一化因子。由于直接从上述分布中选择最大值是不可微分的，我们采用Gumbel-Max技巧来抽取样本：

其中G是Gumbel噪声。然后，使用直通估计器计算梯度，允许通过端到端训练将采样的路由向量w与其他校准参数一起优化。
最后需要注意的是，这个校准层对计算和内存的开销很小（在我们的模型中，每个任务的开销不足0.1%）。结合其他正交设计，它有助于在开放世界物体检测中积累不断发展的新类别的知识。

04 Experiment

1.开放世界目标检测。M-OWODB 和 S-OWODB 上的比较结果总结在表1中。我们的方法在基准模型上显示出持续的改进，通常在未知类别召回率（U-Recall）和平均精度（mAP）方面实现了最先进的结果。具体而言，在U-Recall方面，我们的方法持续超越了之前领先的方法CAT，最高可达7.3%。在mAP方面，我们在两个基准的最后三个任务中分别超越了最先进的基准方法1.4%-2.5%和0.6%-3.8%。唯一表现不佳的指标是第一个任务的mAP，但尽管基准方法PROB和CAT也结合了类别信息的解耦，我们的正交性方法显然优于它们，即使使用了更简单的基准架构，计算成本也较低。

我们进一步在表2中检查了未知类别的混淆情况。可以看到，我们的方法在绝对开放集错误（A-OSE）和U-Recall方面达到了最先进的水平，同时保持了非常有竞争力的荒野影响（WI）。事实上，我们的WI比大多数基准方法都要低，表明了有效区分未知类别的能力。

2.增量目标检测。明确地建模未知物体可以增强增量目标检测的性能。我们将我们的方法适应了这一设置，在表3中总结了结果。我们的完整方法进一步提高了整体mAP，超过了现有基准1.8%-4.6%。特别是，基准模型对之前类别的平均mAP提升了1.4%-4.3%，突显了我们设计在减轻灾难性遗忘方面的效果。

3.可视化。为了更直观地展示我们的开放世界性能，图5展示了在M-OWODB的第二个任务之后与RandBox的比较。我们的方法能够识别不同类型的物体，包括RandBox无法识别的稀有纹理中的一些未知物体，如第一张图中的风筝和第四张图中的床。此外，已知和未知物体之间的混淆有所减少，我们的方法准确地检测到第二张图中的冲浪板（这是一个未见过的类别），而没有将其误分类为已知类别。最后，得益于我们方法学习到的更好物体表示，未知物体的定位在第三张图中显著提高。这些例子清楚地展示了我们方法在检测未知物体和减少已知与未知类别混淆方面的优越性。

4.消融实验。表4验证了我们主要正交设计的有效性。在M-OWODB的第一个任务中，特征正交化提高了U-Recall 9.8%和K-mAP 1.5%，而预测正交性进一步增加了U-Recall 6.4%，确认了它们在检测已知和未知物体方面的有效性。在未知类别混淆方面，两种设计明显减少了A-OSE，尽管WI略有增加。然而，正如之前在表2中所示，它们在WI方面的混淆仍然低于大多数基准方法。
正交校准的有效性在M-OWODB的第二个任务中得到了验证。尽管我们未使用校准的方法在U-Recall上表现较高，但在mAP方面，特别是对于之前已知的类别，其性能趋于饱和，这表明在增量学习过程中效果减弱。相比之下，我们的校准方案在U-Recall（提高9.1%）和mAP（提高0.9%-1.2%）方面带来了显著改进，有效地缓解了灾难性推理。

05 结论

本文的主要贡献如下：

1.研究了在开放世界目标检测中以前被忽略的目标性和类别信息之间的相关性，并通过特征正交化方案和去相关损失来应对，旨在促进与类别无关的预测。
2.设计了一个跨任务校准层，以在增量学习过程中保持特征正交性，这也有助于缓解先前遇到的目标类别的灾难性遗忘。
3.在两个开放世界基准（M-OWODB和S-OWODB）和一个增量基准（PASCAL VOC）上进行了全面实验，清晰展示了本文的方法实现了新的最先进的性能。

引用文章：
Exploring Orthogonality in Open World Object Detection

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术，关注我，一起学习自动驾驶感知技术。