开放世界目标检测:检测区分出未知物体

news2024/9/22 5:26:13

开放世界目标检测:检测区分出未知物体

01 Abstract

开放世界目标检测旨在识别未见过类别的目标,并在提供注释后逐步识别这些目标。与传统的只限于预定义类别的范式不同,这种设置承诺通过使用与类别无关的信息来持续且通用地估计目标性。然而,实现目标性和类别信息之间的这种去相关化证明是具有挑战性的。在没有明确考虑的情况下,现有方法通常对未知目标的召回率较低,并且可能将它们误分类为已知类别。为了解决这个问题,我们在检测过程中利用了三个层次的正交性:首先,通过在设计的极坐标系统中使用彼此正交的特征集,将目标性和分类头分离。其次,引入了一种预测去相关损失,引导检测器进行更通用且与类别无关的预测。此外,我们提出了一种校准方案,帮助在整个训练过程中保持正交性,以减轻灾难性干扰并促进对以前未见过的目标的增量学习。我们的方法在开放世界和增量目标检测基准上进行了全面评估,证明了其在检测已知和未知目标方面的有效性。

代码地址:

https://github.com/feifeiobama/OrthogonalDet

02 Introduction

目标检测是计算机视觉中的一项基础任务,传统上遵循封闭世界的范式。尽管在这种方法上取得了显著进展,但它受限于假设所有要检测的目标类别在训练期间都是预定义且已知的。这本质上阻碍了检测器识别未知目标以及在不断变化的世界中学习新发现的目标。为了应对这些限制,提出了一种新的设置,称为开放世界目标检测,它通过自主发现未知目标并在获得标注后逐步识别它们,从而以更具适应性的方式处理目标检测,使得检测器能够在开放世界中持续运作。
然而,接受这种新的开放世界设置带来了几个关键挑战,这是由于问题的开放集和增量特性所致。核心在于,模型应能够推广以检测未知目标,并正确地将它们分配到一个特殊的未知类别。它还需要自适应地融入新的目标知识,而不会干扰已知类别。
我们通过解释以往方法的缺陷,揭示了它们在目标性和类别预测之间的依赖关系。基本原理有两个:首先,因为现有模型通常通过从已知类别中转移类别特定信息来检测未知目标,因此一些在先前分布中不太突出的通用目标性线索(如形状)可能会被忽视。这会影响未知目标的召回率,特别是那些在视觉上与已知类别不相似的目标。其次,依赖类别相关信息进行目标性预测导致在它们的特征空间中产生相关的决策边界,如图1a所示。因此,检测到的未见过目标往往会与已知目标相似,因此更有可能与它们混淆,这也在增量学习阶段引入了额外的干扰。后续章节还包含了更多关于这种新考虑的相关性的证据。
为了缓解上述目标性和类别信息之间的干扰,我们受正交化解耦文献的启发,提出在检测器的特征空间和预测空间中强制正交化。具体而言,在特征空间中,我们采用了极坐标系统,将每个目标特征分解为两个正交分量,即幅度和方向,如图1b所示。这两个分量分别用于目标性和类别预测,其中幅度对应于目标性,因为较大的幅度表示更显著的目标,而不同的方向则编码了关于已知和未知类别的信息。在这里,通过一种启发式策略,通过预测置信度低的分布外提议来区分未知类别。此外,为了增强目标性和类别信息之间的正交性,我们在预测空间中引入了一种去相关损失,用以惩罚目标性和类别预测之间的统计相关性。这两种设计共同促进了更与类别无关的检测结果,结果显示这显著提高了模型在已知和未知目标上的性能,从而在开放世界目标检测中实现了更好的目标发现。我们还注意到,在新增目标的增量学习过程中,所提出的正交化方案的效果可能会被削弱,因为在类别分布发生剧烈变化时,特征正交性不再成立。为了解决这个问题,我们开发了一种跨任务校准层,用于对齐不同任务的特征空间以进行联合正交化。具体而言,校准层在目标性和类别预测头之前进行交错排列,并学习一组任务特定的仿射变换,对因任务变化导致的潜在表示偏移进行修正。在推理过程中,我们使用一种路由算法来估计每个目标提议的任务,并相应地执行校准变换。这使得模型能够在不断变化的目标分布下持续保持正交性,从而生成更通用和与类别无关的预测。

图片

03.Method

3.1 问题的提出

开放世界物体检测涉及在不断发展的世界中检测物体,在此过程中,训练数据中不断添加新的未知类别。在任何任务t时,模型接收来自已知类别

图片

的标注数据,这些数据包括包含多个物体实例的N张图像,每个实例都有边界框

图片

和类别标签重要的是,训练后的模型需要识别来自已知类别和未知类别

图片

的物体,后者可以传递给标注员生成来自扩展类别

图片

的新训练数据。通过迭代这一过程,物体检测器能够持续发现并整合新的物体类别,从而适应开放世界。然而,在对未知物体进行检测并逐步识别它们而不严重干扰已知类别的情况下,这带来了显著的挑战。我们提出通过正交性的概念来应对这些挑战。接下来,我们从基础检测器开始(见第3.2节),并在其特征空间(见第3.3节)和预测空间(见第3.4节)中施加正交性。最后,在第3.5节中讨论增量学习技术。

3.2. 基础模型

我们采用RandBox作为基础模型,因为它在已知类别上的性能处于最先进水平。它去除了区域提议网络,形成了类似Fast R-CNN的架构,如图2a所示。具体来说,该模型首先从输入图像中提取特征图,并使用RoI池化基于随机采样的边界框获得物体提议特征f。这些特征随后被送到检测头h以生成物体性、类别和定位预测。由于我们的工作主要关注前两部分(物体性和类别),我们简单地将检测头h表示为两个独立的头部hobj和hcls。物体性和类别概率pobj和pcls可以推导如下:
 

图片

其中pcls分布在C + 1个类别上,包括C个已知类别和一个特殊的未知类别。在此基础上,我们可以进一步推导出每个提议的联合概率

图片

,并将其用于模型训练。基础模型的训练概述如下。首先,应用动态匹配器将物体提议与真实标签关联。剩余的具有最高匹配分数的提议被伪标注为未知物体。两者都被用作学习监督。此外,在任务进展过程中,我们的模型在所有新数据和类别上进行顺序训练时,采用重放缓冲区来保留以前物体的知识并减轻遗忘。

图片

3.3. 特征正交化

基础模型对未知类别的召回率有限,可能是由于其检测结果与类别信息相关,如图3a所示。为了解决这一问题,并使检测结果更加通用且与类别无关,我们将其物体性和类别预测头重新设计为在两个相互正交的特征集上操作。
物体性和类别特征的正交化。为了有效地分解物体特征,我们采用了一种手动设计的方案,避免了流行的正交化方法中的密集计算和优化误差。具体来说,我们从基于极坐标分解的文献中汲取灵感,将物体特征投影到大小和方向的两个正交分量中。大小独立表示物体性,而方向用于分类,从而将这两个预测过程解耦。推理过程如图2b所示,可公式化为:
 

图片

值得注意的是,这种分解在很大程度上保留了特征表达能力,因为角度特征已被广泛应用于许多判别任务和学习设置。同时,特征大小在某些以物体为中心的任务中也被证明是有用的。
未知类别的判别。将类别信息编码在单位超球面上后,针对未知类别进行建模变得具有挑战性,因为现有的基于能量的方法[30]或概率方法是为欧几里得特征空间设计的。我们通过一种仅基于模型预测的启发式策略来解决这一问题。直观上,未知物体可以被视为具有较低预测置信度的异常值,因此可以使用基于置信度的标准来检测这些异常值。设表示原始类别预测,是概率最高的类别,则将其补充分配给未知类别概率,公式如下:
 

图片

其余类别概率重新调整以确保它们的总和等于1。

3.4. 预测正交化

为了进一步解耦物体性和类别预测,从而提高对未知类别的性能,我们建议在物体检测器的输出空间中直接施加正交性。这通过引入一种新的正则化损失来实现,该损失惩罚两个预测之间的统计相关性。
物体性和类别预测的去相关化。虽然理想的目标是实现两者之间的完全独立性,但直接通过互信息评估依赖性被认为是困难的。因此,我们选择了一种更简化的方法,重点关注两个变量之间的线性相关性。设pc表示第c个类别概率,则其与物体性pobj的线性相关性可以通过平方相关系数有效地测量,得到以下损失:
 

图片

其中var(·)和cov(·, ·)计算小批量中的所有提议的方差和协方差。并且它直接添加到目标函数中进行训练。
这些正交设计的有效性在图3b和3c中得到了验证。可以看出,特征正交性增强了未知类别的物体性,而预测正交性则减少了对已知类别的偏差。后续实验将表明,两个设计都为提高未知物体的召回率并减少混淆做出了贡献。

图片

3.5. 增量学习

除了在一个阶段内检测开放集物体之外,开放世界物体检测还包含新物体的增量学习,这带来了因分布变化而导致遗忘已知类别的关键挑战,即灾难性遗忘。为了解决这个问题,我们提出了一种校准方案(即对旧的表示进行轻量级转换),以使模型保持类别独立性,从而在学习过程中减少遗忘的可能性。
在任务变化下校准正交性。我们模型中的灾难性干扰的一个典型表现是由于表示偏移而导致的正交性受损。如图2c所示,物体性决策边界可以从超球面移至超椭球面,不再与角度类别特征正交。光谱分析(见图4)进一步支持了这一点,非均匀的奇异值类似于超椭球体的半轴,表明了表示的扭曲。
基于这些观察结果,我们引入了一组任务特定的仿射变换Mi来校准以前任务的特征,以实现联合正交化(对于当前任务,Mt = I)。校准过程是通过将原始特征fo输入到所有任务特定的变换中,以获得候选特征Mifo,然后进行加权求和以形成校准特征:
 

图片

其中,w 是一个指定校准层中推理路径的独热向量,这也有助于通过参数隔离来减轻遗忘。下文介绍了决定w的路由算法。
校准层内的路由。为了为每个物体提议选择适当的校准变换,需要估计与其相关的任务。受第3.3节中做法的启发,我们利用类别预测的置信度来评估任务概率。具体来说,设pc表示路由前第c个类别的概率,那么第i个任务概率πi由其对应类别范围:
 

图片

其中Z为归一化因子。由于直接从上述分布中选择最大值是不可微分的,我们采用Gumbel-Max技巧来抽取样本:
 

图片

其中G是Gumbel噪声。然后,使用直通估计器计算梯度,允许通过端到端训练将采样的路由向量w与其他校准参数一起优化。
最后需要注意的是,这个校准层对计算和内存的开销很小(在我们的模型中,每个任务的开销不足0.1%)。结合其他正交设计,它有助于在开放世界物体检测中积累不断发展的新类别的知识。

图片

04 Experiment

1.开放世界目标检测。M-OWODB 和 S-OWODB 上的比较结果总结在表1中。我们的方法在基准模型上显示出持续的改进,通常在未知类别召回率(U-Recall)和平均精度(mAP)方面实现了最先进的结果。具体而言,在U-Recall方面,我们的方法持续超越了之前领先的方法CAT,最高可达7.3%。在mAP方面,我们在两个基准的最后三个任务中分别超越了最先进的基准方法1.4%-2.5%和0.6%-3.8%。唯一表现不佳的指标是第一个任务的mAP,但尽管基准方法PROB和CAT也结合了类别信息的解耦,我们的正交性方法显然优于它们,即使使用了更简单的基准架构,计算成本也较低。
 

图片

我们进一步在表2中检查了未知类别的混淆情况。可以看到,我们的方法在绝对开放集错误(A-OSE)和U-Recall方面达到了最先进的水平,同时保持了非常有竞争力的荒野影响(WI)。事实上,我们的WI比大多数基准方法都要低,表明了有效区分未知类别的能力。

图片

2.增量目标检测。明确地建模未知物体可以增强增量目标检测的性能。我们将我们的方法适应了这一设置,在表3中总结了结果。我们的完整方法进一步提高了整体mAP,超过了现有基准1.8%-4.6%。特别是,基准模型对之前类别的平均mAP提升了1.4%-4.3%,突显了我们设计在减轻灾难性遗忘方面的效果。

图片

3.可视化。为了更直观地展示我们的开放世界性能,图5展示了在M-OWODB的第二个任务之后与RandBox的比较。我们的方法能够识别不同类型的物体,包括RandBox无法识别的稀有纹理中的一些未知物体,如第一张图中的风筝和第四张图中的床。此外,已知和未知物体之间的混淆有所减少,我们的方法准确地检测到第二张图中的冲浪板(这是一个未见过的类别),而没有将其误分类为已知类别。最后,得益于我们方法学习到的更好物体表示,未知物体的定位在第三张图中显著提高。这些例子清楚地展示了我们方法在检测未知物体和减少已知与未知类别混淆方面的优越性。

图片

4.消融实验。表4验证了我们主要正交设计的有效性。在M-OWODB的第一个任务中,特征正交化提高了U-Recall 9.8%和K-mAP 1.5%,而预测正交性进一步增加了U-Recall 6.4%,确认了它们在检测已知和未知物体方面的有效性。在未知类别混淆方面,两种设计明显减少了A-OSE,尽管WI略有增加。然而,正如之前在表2中所示,它们在WI方面的混淆仍然低于大多数基准方法。
正交校准的有效性在M-OWODB的第二个任务中得到了验证。尽管我们未使用校准的方法在U-Recall上表现较高,但在mAP方面,特别是对于之前已知的类别,其性能趋于饱和,这表明在增量学习过程中效果减弱。相比之下,我们的校准方案在U-Recall(提高9.1%)和mAP(提高0.9%-1.2%)方面带来了显著改进,有效地缓解了灾难性推理。

图片

05 结论

本文的主要贡献如下:

1.研究了在开放世界目标检测中以前被忽略的目标性和类别信息之间的相关性,并通过特征正交化方案和去相关损失来应对,旨在促进与类别无关的预测。
2.设计了一个跨任务校准层,以在增量学习过程中保持特征正交性,这也有助于缓解先前遇到的目标类别的灾难性遗忘。
3.在两个开放世界基准(M-OWODB和S-OWODB)和一个增量基准(PASCAL VOC)上进行了全面实验,清晰展示了本文的方法实现了新的最先进的性能。

引用文章:
Exploring Orthogonality in Open World Object Detection

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

 

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术,关注我,一起学习自动驾驶感知技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2069880.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java码农35岁之后只能送外卖?

声明:此篇为 ai123.cn 原创文章,转载请标明出处链接:https://ai123.cn/2208.html Hey,Java界的小伙伴们,有没有感受到互联网行业这一场没有硝烟的“代际战争”?🤖💥 关于“35岁后只…

配电房挂轨机器人巡检系统的主要优点包括

背景 配电房是724h工作的封闭环境,人工巡检无法在时间上和空间上对配电室进行全量监控。有限的巡检时间,必然带来设备运转的黑盒时间,设备故障和隐患无法及时监控与消缺。因而不可避免存在漏检、误检的情况,不仅容易隐藏电力系统…

AI Agent产品经理血泪史:一年来我摸过的那些石头【Tools篇】

前几天刚好看到一篇关于GPT-6的报道,才想起来还有这麽回事情,于是赶紧把草稿捞出来改改交个任务。 至于为什麽贴这张图,以及为什麽血泪史从Tools开篇。 那是因为你看,即使到了GPT-6的时代,Tools仍然是AI Agent落地的…

ElementPlus下拉框输入框对齐问题

1.问题 2.解决方法 2.1label-width 说明:el-form中label-width设置为auto 2.2 label-wdith固定值 说明:如果在el-form-item里面设置了label-width"100px";采用宫格布局。 .demo-one{display: grid;grid-template-columns: repe…

C++:vector篇

前言: 本篇仅介绍vector中常用的函数接口,如果需要详细的请到官网查看。 vector是一种动态数组,能够自动调整大小。与数组类似,vector使用连续内存来存储元素,允许高效访问,但可以动态增加容量。为了应对容…

买了服务器后如何正确挂载数据盘|什么是系统盘,什么是数据盘

一、前言 我们买了服务器后,一般会再买一个数据盘,如果没有数据盘,万一服务器系统出现问题后数据丢失就完了,什么数据都没了,所以为了避免意外的发生,我们通常会再买一个数据盘 如上图,我就在…

差一点通关某公司面试靶场

没有web4和web8,web2的4没做出来。 web1 国光ssrf改版靶场 1 直接读取flag 3 使用file协议读取hosts IP为172.18.240.5 dict探针内网主机开启常见端口 172.18.240.1:80 172.18.240.5:3306 172.18.240.1:3306 172.18.240.5:80 172.18.240.5:8080 172.18.240.1:…

RocketMQ Dashboard

rocketmq-dashboard是一个可视化查看和管理RocketMQ消息队列的工具 官方地址:RocketMQ Dashboard | RocketMQ 1、点击下载源码 2、下载并解压,切换至源码目录rocketmq-dashboard-1.0.0 3、修改配置文件 4、编译 rocketmq-dashboard打成jar包 &#xf…

【2024最新】注册Github账号图文教程

GitHub 是一个全球最大的开源代码托管平台,它提供了基于 Git 的版本控制和协作功能,使开发者能够共享、管理和协作开发项目。用户可以创建、克隆、编辑代码,并通过分支、合并请求等工具进行协同工作。GitHub 还提供社区交流、项目管理和代码审…

qt圆环饼状图,非常小的窗口都能显示

非常小的窗口都能显示 QT core gui charts#include <QtCharts> using namespace QtCharts;//创建饼状图 void MainWindow::createpieSewies() {//饼状图QPieSeries * my_pieSeries new QPieSeries();//中间圆与大圆的比例my_pieSeries->setHoleSize(0.35);//…

Spring MVC、Spring Boot和Spring Cloud

一、Spring MVC 主要特点 传统的基于Servlet的Web框架: 需要手动配置Servlet、Filter等。 配置灵活: 可以使用XML或Java类来定义Bean和依赖关系。 依赖于Web容器: 需要部署到外部Web容器&#xff08;如Tomcat、Jetty&#xff09;中运行。 视图技术支持: 支持JSP、Thymelea…

DALI-2 NFC调光解码方案,电源模块,解码板

DALI-2 DT6 NFC 调光模块 一、产品概述 深圳锐科光电科技有限公司的DALI2 DT6&D4i&#xff0c;NFC调光模块&#xff0c;符合IEC62386-101 Ed2.0、IEC62386-102 Ed2.0和 IEC62386-207 Ed1 adapted to Ed2&#xff08;DT6&#xff09;标准协议。采用国外进口单片机芯片&#…

阮一峰《TypeScript 教程》学习笔记一类型系统、数组、元祖

阮一峰《TypeScript 教程》 本篇文章主要记录浏览阮一峰《TypeScript 教程》书籍的过程中本人不会的一些TypeScript的用法。当然&#xff0c;可以说&#xff0c;我都不会哈哈哈&#xff0c;不过有的用法比较奇葩的我就不记录了&#xff0c;只记录我觉得项目中会用到&#xff0c…

Python类型检查器库之typeshed使用详解

概要 在 Python 开发中,类型检查器(如 mypy)和 IDE(如 PyCharm)能够显著提高代码的可读性和可维护性。然而,Python 本身是一种动态类型语言,标准库和第三方库通常没有类型注解。这就需要一个包含这些库类型信息的资源库,以便类型检查器能够正常工作。Typeshed 正是这样…

【Python】学习Python的流程,有这一篇资料就够了,带你深入了解Python!!!

点击免费领取《CSDN大礼包》&#xff1a;Python入门到进阶资料 & 实战源码 & 兼职接单方法 安全链接免费领取 书籍推荐 《Python编程:从入门到实践》 作者&#xff1a;埃里克马瑟斯&#xff08;Eric Matthes&#xff09;特点&#xff1a;通过实际项目引导读者学习Pyt…

前端生成验证码

一.效果图 二、实现 2.1html <template><div class"outer-box"><div class"code-box"><div class"inout-code"><label class"label" for"inputCode">验证码&#xff1a;</label><…

内存管理篇-05物理页面的迁移类型migratetype

本节内容依旧是对上节课伙伴系统的补充&#xff0c;主要介绍了新版伙伴系统的页面迁移相关的内容 为什么要引入页面迁移类型&#xff1f;新版本伙伴系统针对老版本的伙伴系统的升级改进。主要优化memory compaction内存碎片整理的过程。 页面迁移实际上就是伙伴系统中free_area…

第一次get到学习大模型的沉浸感和成就感 ,大模型入门必看!!<大模型应用开发极简入门>(PDF分享)

人工智能大潮已来&#xff0c;不加入就可能被淘汰。就好像现在职场里谁不会用PPT和excel一样&#xff0c;基本上你见不到。 而大模型是人工智能代表&#xff0c;潜力与使用方式有关。使用好大模型可提高效率&#xff0c;让人获得更好的待遇和更多机会。所以今天给大家推荐一本…

【STM32】中断

中断与GPIO一样是STM32中非常常用的东西&#xff0c;以我一个写上位机的人的理解&#xff0c;它相当于上位机程序中多线程的地位&#xff0c;因为多线程和中断都是为了提高某些响应的实时性。悄悄说一句&#xff0c;我觉得中断在一定程度上比多线程还好用。哈哈哈哈哈哈哈~ 大部…

竖图秒变横屏壁纸!AI绘画SD最强控制插件ControlNet教程,一键实现图片的扩展式填充真的太强了!

大家好&#xff0c;我是画画的小强 经常用PhotoShop作图的人都知道&#xff0c;自从去年PS2023beta版的发布&#xff0c;引入了AI绘画给广大创作者带来了不小的惊喜&#xff0c;最主要的就是它的“创成式填充”&#xff0c;通过现有图片可以进行扩展和延展&#xff0c;其强大的…