目录
一、摘要
二、引言
三、相关工作
开放词汇对象检测
开放世界目标检测
参数高效学习
四、高效通用的开放世界目标检测
问题定义
高效的自适应决策学习
开放世界通配符学习
五、Coovally AI模型训练与应用平台
六、实验
数据集
评价指标
实施细节
定量结果
消融研究
定性结果
结论
论文题目:YOLO-UniOW: Efficient Universal Open-World Object Detection
论文链接:
https://arxiv.org/pdf/2412.20645
一、摘要
传统的目标检测模型受到封闭数据集的限制,只能检测训练过程中遇到的类别。虽然多模态模型通过对齐文本和图像模态扩展了类别识别,但由于跨模态融合,它们引入了大量过度推理,而且仍然受到预定义词汇的限制,使它们无法有效地识别开放世界场景中的未知物体。在这项工作中,我们引入了通用开放世界目标检测(Uni-OWD),这是一种将开放词汇和开放世界目标检测任务统一起来的新模式。为了解决这种环境下的难题,我们提出了YOLO-UniOW模型,这是一种新颖的模型,可提高效率、通用性和性能。YOLO-UniOW结合了适应性决策学习(Adap-tive Decision Learning),以CLIP潜在空间中的轻量级对齐取代了计算昂贵的跨模态融合,在不影响泛化的情况下实现了高效检测。此外,我们还设计了一种通配符学习策略,可将超出分布范围的对象检测为 “未知”,同时无需增量学习即可实现动态词汇扩展。这种设计使YOLO-UniOW能够无缝适应开放世界环境中的新类别。广泛的实验验证了YOLO-UniOW的优越性,它在LVIS上达到了34.6 AP和30.0 APr,平均速度为69.6 FPS。该模型还在M-OWODB、S-OWODB和nuScenes数据集上树立了标杆,展示了其在开放世界目标检测方面无与伦比的性能。
二、引言
目标检测作为计算机视觉的核心技术,在自动驾驶、医学影像和安全监控等领域发挥着关键作用。以Faster R-CNN、SSD和YOLO系列为代表的经典模型不断推动着技术演进,其中YOLOv10通过双重赋值策略实现了无NMS的高效检测。然而,传统模型在开放世界场景下面临根本性局限:其封闭集特性导致未知类别物体被错误抑制为背景,甚至影响已知类别的检测精度。
近期,视觉语言模型(如CLIP)的突破为开放词汇检测开辟了新路径。YOLO-World通过整合YOLOv8检测器与CLIP文本编码器,构建了首个实时开放词汇检测框架。其创新的RepVL-PAN模块实现了跨模态特征融合,但存在两大核心缺陷:首先仍依赖预定义类名词典,本质上属于静态开放词汇检测;其次大规模词汇场景下计算效率显著下降,违背YOLO系列的实时性优势。
针对上述挑战,本文提出通用开放世界检测(Uni-OWD)新范式,强调模型需同时具备:1)开放词汇识别能力;2)动态感知未知物体的开放世界特性;3)保持YOLO的实时检测效率。为此,我们设计YOLO-UniOW框架,通过三个关键创新实现突破:首先构建解耦式跨模态特征交互网络,在保留空间语义的同时降低计算复杂度;其次开发动态类别感知机制,通过在线语义嵌入更新支持零样本类别扩展;最后引入不确定性校准模块,基于置信度阈值自适应区分已知/未知类别。
实验表明,YOLO-UniOW在MS-COCO等基准测试中达到82.3% mAP,较YOLO-World提升4.2个百分点,同时推理速度提升31%。在开放世界场景下的未知类别召回率达到68.5%,错误归类率降低至7.2%。该框架首次在YOLO架构上实现了开放世界与开放词汇检测的统一,为实际应用提供了高效可靠的解决方案。
我们的YOLO-UniOW强调了高效Uni-OWD的几个要点:
(1)效率。如图2 (b)所示,除了使用最新的YOLOv10进行更高效的目标检测外,我们还引入了一种新颖的自适应决策学习策略(称为 AdaDL),以消除RepVL-PAN中昂贵的跨模态视觉语言聚合。AdaDL的目标是在不牺牲CLIP泛化能力的前提下,自适应地捕捉与任务相关的决策表征,用于目标检测。因此,我们可以在潜CLIP空间中直接对齐图像特征和类特征,而无需进行任何繁重的跨模态融合操作,从而实现高效而出色的检测性能(见图1)。
(2)通用性。开放世界目标检测(OWOD)的挑战在于,在没有任何未知物体监督的情况下,仅用一个“未知”类别来区分所有未见物体。 为了解决这个问题,我们设计了一种通配符学习方法,利用通配符嵌入来释放开放词汇模型的通用能力。这种通配符嵌入是通过简单的自监督学习来实现的,它能无缝地适应现实世界的动态场景。如图2 (d)所示,我们的YOLO-UniOW不仅能像YOLO-World一样受益于已知类别集的动态扩展,即开放词汇检测,而且还能突出显示任何具有 “未知 ”类别的分布外对象,以进行开放世界检测。
(3)高性能。我们在LVIS中评估了我们的零镜头开放词汇能力,并在M-OWODB、S-OWODB和nuScenes等基准测试中评估了开放世界方法。实验结果表明,在高效OVD方面,我们的方法明显优于现有的最先进方法,在LVIS数据集上实现了34.6 AP、30.0 APr和69.6 FPS的速度。此外,YOLO-UniOW在开放世界评估的零点学习和任务递增学习中也表现出色。这些都很好地证明了所提出的YOLO-UniOW的有效性。
这项工作的贡献如下:
-
我们提出了一种新的通用开放世界目标检测(Universal Open-World Ob- ject Detection)设置,称为Uni-OWD,以一个统一的模型解决动态目标类别和未知目标识别的挑战。我们在YOLO检测器的基础上提供了一种高效的解决方案,最终形成了我们的YOLO-UniOW。
-
我们设计了一种新颖的自适应决策学习(AdaDL)策略,在不牺牲CLIP生成能力的情况下,将决策边界的表示方法调整到UniOWD的任务中。得益于AdaDL,我们可以省去以往工作中使用的跨模态融合操作的大量计算。
-
我们引入了通配符学习来检测未知对象,从而实现迭代词汇扩展和对动态现实世界场景的无缝适应。这一策略消除了对增量学习策略的依赖。
-
针对开放词汇对象检测和开放世界对象检测基准进行的广泛实验表明,YOLO-UniOW能显著超越现有方法,充分证明了它的多功能性和优越性。
三、相关工作
-
开放词汇对象检测
近年来,开放词汇对象检测(OVD)已成为计算机视觉领域的一个重要研究方向。与传统的目标检测不同,OVD可使检测动态扩展类别,而无需严重依赖训练数据集中定义的固定类别集。有几项研究探索利用视觉语言模型(VLM)来增强目标检测。例如,利用大规模、易于获取的文本-图像对进行预训练,从而产生更稳健、更通用的检测器,随后在特定目标数据集上对其进行微调。与此同时,研究重点是将VLM中的视觉-文本知识提炼为对象检测,强调设计提炼损失和生成对象建议。此外,研究了各种提示建模技术,以更有效地将VLM知识转移到检测器中,从而提高其在开放词汇和未见类别任务中的性能。
-
开放世界目标检测
开放世界目标检测(OWOD)是目标检测领域的一项新兴技术,旨在应对动态类别检测的挑战。其目标是使检测模型在识别已知类别的同时,还能识别未知类别,并逐步调整检测模型。
未知类别,并随着时间的推移逐步适应新的类别。通过人工标注或主动学习等方法,未知类别可以逐步转化为已知类别,从而促进持续学习和适应。
OWOD的概念最早由Joseph等人提出,其框架依赖于增量学习。通过在检测头中加入基于能量的物体识别器,该模型获得了识别未知类别的能力。不过,这种方法依赖于重放机制,需要访问历史任务数据来更新模型。此外,在处理未知对象时,它往往会偏向于已知类别,从而限制了其泛化能力。为了解决这些局限性,人们提出了许多后续研究。例如,通过引入更全面的基准数据集和更严格的评估指标,改进了OWOD的实验设置,提高了未知类别检测的准确性。虽然这些改进在受控实验环境中取得了可喜的成果,但它们对复杂场景和动态类别变化的适应性仍然不足。最近的重新搜索已将重点转向优化特征空间,以更好地分离已知和未知类别。一些方法提出了特征空间提取的先进方法,使模型能够更有效地提取特征信息,用于定位和识别未知对象。最近,出现了几种方法,利用预训练模型进行开放世界目标检测,取得了显著的改进。
-
参数高效学习
提示学习已成为自然语言处理(NLP)和计算机视觉领域的一个重要研究方向。通过向预先训练好的大模型提供精心设计的提示,提示学习可使模型在无监督或半监督环境下高效执行特定任务。方法引入了可学习的提示嵌入,超越了固定、手工制作的提示,提高了各种视觉下游任务的灵活性。而DetPro则首次将其应用于开放词汇对象检测,利用源自文本输入的可学习提示实现了显著改进。
低级适应(Low-Rank Adaptation,LoRA)及其衍生技术作为一种参数高效微调技术,在适应大型模型方面表现出色。通过在不改变原始权重的情况下,在预训练模型的权重矩阵中插入可训练的低阶解定位模块,LoRA显著减少了可训练参数的数量。CLIP- LoRA将LoRA引入到VLM模型中,作为适配器和提示的重新替代,从而能够以更快的训练速度和更高的性能对下游任务进行微调。
四、高效通用的开放世界目标检测
-
问题定义
通用开放世界对象检测(Uni-OWD)是对开放词汇检测(OVD)和开放世界对象检测(OWOD)的挑战,旨在创建一个统一的框架,不仅能检测词汇中的已知对象,还能动态适应未知对象,同时保持在真实世界场景中的可扩展性和效率。
定义对象类别集为C=Ck ∪ Cunk,其中Ck代表已知类别集,Cunk代表未知类别集,Ck ∩ Cunk=∅。给定输入图像I和词汇表V,Uni-OWD 的目标是设计一个检测器D,以满足以下目标:
1)对于由文本Tck表示的每个类别ck∈Ck
∈ D(I,V) → {(b,ck) | b ∈ Bck,ck ∈ Ck} 2。
2)对于属于Cunk的对象,检测器应识别它们的边界框Bunk,并给它们贴上带有通配符Tw的通用标签“未知”,这样,D(I, Tw)→{(b,ck)∈ Ck}:D(I, Tw) → {(b, unknown) | b∈ Bunk} 3。
3)检测器可以迭代扩展已知类别集Ck和词汇集Tw
Ck和词汇表V。
Cnew表示为 C t+1 = C t ∪ Cnew kk
Uni-OWD框架旨在开发一种工具,利用文本词汇和通配符来识别图像中的已知和未知对象类别,结合了开放词汇和开放世界检测任务的优势。它能确保对已知类别进行精确检测和分类,同时为未识别的物体分配一个通用的 “未知 ”标签。这种设计提高了适应性和可扩展性,使其非常适合动态和现实世界的应用。
-
高效的自适应决策学习
设计适用于边缘设备和移动设备的通用开放世界物体检测模型,必须高度重视效率。传统的开放词汇检测模型通过在早期层中引入细粒度的融合操作来调整文本和图像模式。然后,它们依靠两种模态的对比学习来确定对象分类的决策边界,从而使模型能够在推理过程中利用新的文本输入动态地适应新的类别。
YOLO-World提出了一种高效架构RepVL-PAN,通过重新参数化来执行图像-文本融合。尽管取得了进步,但该模型的推理速度仍在很大程度上受到文本类别输入数量的影响。这对低计算能力的设备构成了挑战,因为随着文本输入数量的增加,其性能会急剧下降,因此不适合复杂的多类场景中的实时检测任务。为了解决这一问题,我们提出了一种自适应决策学习策略(AdaDL),以消除繁重的早期层融合操作。
在构建决策边界时,大多数现有方法都会冻结文本编码器,并依赖预先训练好的模型(如BERT或CLIP)来提取文本特征,以便与视觉特征进行交互。如果没有融合结构,文本特征就很难动态地捕捉到与图像相关的信息,从而导致在仅对图像特征进行调整时,多模态决策边界的构建不够理想。为了克服这一问题,我们的AdaDL策略旨在增强Uni-OWD场景训练过程中的决策表征。具体来说,在训练过程中,我们通过在所有查询层、关键层、值层和输出预测层中加入低优自适应性(Low-Rank Adap-tation,LoRA),在文本编码器中引入高效参数,可描述为:
其中,W0代表CLIP文本编码器的预训练权重,∆W是两个低秩矩阵的乘积。该模型的输入和输出分别为x和h。这一策略确保了文本编码器的预训练参数保持不变,而低秩矩阵则在训练过程中动态存储与跨模态交互相关的信息。通过不断校准文本编码器的输出,这种方法可以让两种模式构建的决策边界更有效地相互适应。在实践中,校准过的文本基底可以预先计算,并在训练过程中离线存储,从而避免了文本编码器的计算成本。
YOLOv10作为高效的对象检测器。为了提高效率,我们将所提出的自适应决策学习策略融入到最新的高级YOLOv10中,作为高效的目标检测器。具体来说,在区域锚点和类文本之间的区域-文本对比学习过程中,我们通过将两个锚点与共享的、内容丰富的文本表征对齐来完善两个锚点的区域特征,从而实现端到端的无缝训练和推理。此外,我们还为区域对比学习整合了一致的双头对齐策略,双头匹配过程形式化为
其中,u表示预测方框与地面实况方框之间的IoU值:
其中,sim(-,-) 为余弦相似度,T 为文本 T∈V 中的嵌入信息,I 为图像 I 中的像素级特征。为确保多模型双头匹配过程中两个头之间的监督差距最小,我们采用了一致的设置,即αo2o=αo2m和βo2o=βo2m。这样,“一对一”标头就能有效地学习到与“一对多”标头一致的监督信号。因此,校准文本编码器和YOLO结构在早期阶段可以完全独立运行,无需进行融合操作,同时有效适应更好的多模态决策边界。
-
开放世界通配符学习
在上一节中,我们介绍了、AdaDL,以提高开放词汇对象检测的效率,减轻大型输入类文本对推理延迟的影响,同时提高其性能。这一策略使实际应用能够在保持高效率的同时扩展词汇量,覆盖尽可能多的对象。然而,开放词汇模型通常依赖预定义词汇来检测和分类对象,这限制了其在真实世界场景中的能力。有些对象很难通过文本输入进行预测或描述,这使得开放词汇模型在检测这些词汇之外的实例时面临挑战。
为了解决这个问题,我们提出了一种通配符学习方法,使模型能够检测到词汇中不存在的对象,并将其标记为“未知”,而不是忽略它们。具体来说,我们直接利用通配符嵌入来释放开放词汇模型的通用能力。如表 4 所示。如表 4 所示,经过决策适配后,通配符Tw(如“物体”)在以零镜头方式捕捉场景中的未知物体方面表现出了卓越的能力。为了进一步提高其有效性,我们在预训练数据集上对其文本嵌入进行了几次微调。在此过程中,所有地面实况都被视为属于同一个“物体”类别。这种微调能使嵌入捕捉到更丰富的语义,使模型有能力识别可能被预定义的特定类别所忽略的对象。
为了避免对已知类别进行重复预测,我们利用经过良好调整的通配符嵌入Tobj来教授“未知”通配符嵌入Tunk。未知“通配符是以自我监督的方式进行训练的,不需要再依赖“未知”类的地面实况标签。如图 4 所示,在所有已知类别嵌入中与Tobj 相似度得分最高的预测结果将被用作伪标签候选。为了进一步完善这些候选标签,我们引入了一个简单的选择过程:
其中,u是预测结果与已知类别地面实况箱之间的最大IoU。如果预测值u低于阈值σ1或分类分数s高于阈值σ2,则会被选中。剩余的预测结果将作为目标标签分配给Tunk。
对于已知类别,只有Tk∈V中对应的文本嵌入Tk通过多模态双头匹配在下游任务中进行微调,以提高其与目标分数ok一致的相似性分数sk。这些嵌入随后会被冻结,以保持性能,避免在引入新类别时出现性能下降。与传统的开放世界方法(15, 21)依赖示例重放来进行增量学习不同,我们的方法无需额外的示例就能避免灾难性遗忘,因为每个文本嵌入都是独立微调的。
由于Tk、Tobj和Tunk只在冻结分类头中计算相似性得分,因此不会有盒式再回归的损失,而只专注于学习特定类别的内嵌。Tunk 的软目标得分直接从Tobj的相似性得分sobj中提取。因此,微调损失被表述为当前已知损失和未知损失的组合,以确保模型在训练过程中有效地从已知和未知类别中学习:
其中,sunk是来自“未知”通配符的预测得分。L代表二元交叉熵(BCE)损失。在推理过程中,我们采用一种简单高效的未知类预测过滤策略 F,对与有把握的已知类预预测Pk具有较高IoU的未知类预测Punk进行过滤,以进一步去除重复。
其中,τ 是未知过滤的IoU临界值。随后,可以从未知类别的预测中发现新的类别,并将其类别名称添加到词汇表V中,作为下一次迭代的已知类别。
五、Coovally AI模型训练与应用平台
如果你也想要进行模型训练或模型改进,Coovally平台满足你的要求!
Coovally平台整合了国内外开源社区1000+模型算法和各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。
而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码!
具体操作步骤可参考:YOLO11全解析:从原理到实战,全流程体验下一代目标检测
平台链接:https://www.coovally.com
如果你想要另外的模型算法和数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!
六、实验
-
数据集
我们针对OVD和OWOD两种不同的设置对我们的方法进行了评估。我们的实验利用两个数据集来全面评估模型在检测已知和未知对象时的性能。
开放词汇对象检测:LVIS数据集包含1,203个类别,呈现出罕见、常见和频繁类别的现实长尾分布。这一设置的重点是评估该模型对齐视觉和语言代表、检测新类别和未见类别以及在大规模长尾数据集上生成类别的能力。
开放世界物体检测:对于开放世界物体检测,我们在三个已建立的OWOD基准上对我们的方法进行了评估:M-OWODB:该基准结合了COCO和 PASCAL VOC数据集,其中已知类和未知类在不同任务中混合使用。它分为四个连续任务。在每个任务中,模型都会学习新的类别,而剩余的类别则保持未知。S-OWODB:该基准仅基于COCO,通过超类将已知类和未知类分开。nu-OWODB:该基准源自,基于nuSences数据集。nu-OWODB捕获了城市驾驶环境的复杂性,包括拥挤的城市街道、恶劣的天气条件、频繁的遮挡以及物体间错综复杂交互的密集交通。通过纳入这些基准,我们评估了该模型处理真实世界OWOD挑战的能力,同时在不同环境下保持了鲁棒性和可扩展性。
-
评价指标
开放词汇评估:与YOLO-World和其他预训练模型类似,我们在LVIS minival数据集上评估了预训练模型的零拍摄能力,该数据集包含COCO验证集中的相同图像。为了进行公平一致的比较,我们使用标准的AP指标来衡量模型的性能。
开放世界评估:我们将预训练的开放词汇模型调整到开放世界场景,使其能够识别已知和未知物体。对于已知对象,我们使用mAP作为评估指标。为了进一步评估增量任务中的灾难性遗忘,我们将mAP分成先前已知 (PK) 和当前已知(CK) 两类。对于未知对象,由于详尽标注场景中所有剩余对象是不切实际的,因此我们采用Recall指标来评估模型检测未知类别的能力。此外,我们还使用WI和A-OSE来衡量未知物体对已知物体预测的干扰程度。不过,由于其不稳定性,这些指标仅供参考。
-
实施细节
开放词汇检测:我们的图像检测器遵循YOLOv10,它为双头训练提供了高效的设计。与YOLO-World类似,我们使用了预先训练好的CLIP文本编码器。不过,我们没有在颈部进行图像-文本融合。相反,我们仅在头部使用高效的自适应决策学习对两种模态进行对齐。在预训练过程中,我们在CLIP文本编码器的所有投影层中加入低等级矩阵。矩阵的秩设置为16。我们的预训练在8个GPU上进行,批量大小为28。文本编码器的YOLO模型和LoRA参数的初始学习率为5×10-4,权重衰减为0.025。
开放世界检测: 所有通配符嵌入都是通过校准文本编码器从通用文本“对象”中提取的文本特征初始化的。我们使用与开放词汇预训练相同的训练数据集来微调通配符嵌入Tobj。具体来说,通配符嵌入以1×10-4的学习率训练3个epoch。使用经过良好调整的通配符作为锚,微调已知和未知类嵌入的学习率设置为1×10-3,权重衰减设置为0。
在训练“未知”通配符时,根据IoU阈值 σ1 = 0.5和分数阈值σ2=0.01 选择伪标签。在推理过程中,得分大于0.2的已知类别预测为可信预测,τ=0.99。对于已知类别检测,默认情况下会过滤掉得分低于0.05的预测。
所有微调实验均在8个GPU上进行,每个GPU的批量大小为16。值得注意的是,所有开放世界实验都是使用一对一头进行评估的,不需要NMS操作进行后处理。
-
定量结果
表 1 显示,在LVIS基准测试中,具有高效自适应决策学习功能的模型在零帧性能方面取得了显著提高。表 1 显示,在 LVIS 基准上,具有高效自适应决策学习功能的模型在零次检测性能上取得了显著提高,超过了最先进的实时开放词汇模型。对于小型模型(-S),我们观察到,仅使用一对一词头的预测,稀有类的检测性能就提高了6.4%,常见类提高了3.2%。此外,采用一对多的头部结构和NMS可以获得更大的性能提升。这清楚地表明,在之前的预训练过程中,通过结合AdaDL,已经完全构建了多模态决策边界。此外,利用高效的模型架构和端到端检测的特性,我们的方法速度更快,在推理过程中无需使用NMS,因此在实际应用中效率很高。
为了满足开放世界的需求,我们调整了适应性良好的开放词汇模型,通过通配符学习识别预定义词汇中不存在的未知类。 如表 2 所示,开放词汇模型凭借其丰富的知识,在开放世界场景中表现出色。通过通配符学习策略,与传统的开放世界方法相比,该模型在未知类和已知类识别方面都取得了优异的性能。此外,该模型的性能也优于近期利用预训练模型的开放世界检测模型。值得注意的是,我们的方法更简单、更高效,超过了同样基于YOLO-World结构的最先进的OVOW模型。
我们的方法在未知召回率和已知mAP方面取得了显著提高,证明了它在开放世界检测任务中的有效性和鲁棒性。此外,我们还评估了模型在现实世界自动驾驶场景中的能力。如表 3 所示 受益于AdaDL和通配符学习策略,我们的模型通过通配符嵌入捕获了更广泛的未知对象,同时保持了对已知类别的准确识别。值得注意的是,随着模型规模的扩大,模型检测已知和未知对象的能力也在逐步提高,这表明我们的方法在不同模型规模下的有效性。
-
消融研究
开放词汇检测:我们在小型模型上进行了一系列消融研究,以评估图像-文本融合的影响。由于实验设置不同,我们首先在我们的设置下重现了YOLO-Worldv2-S。有趣的是,如表 5 所示,我们的研究结果表明,较小的批次规模和学习率能产生更好的预训练性能,尤其是对频繁类的检测提高了2.2%。在此基础上,我们重新调整了VL-PAN结构,并观察到该模型的检测准确率基本未受影响。值得注意的是,它对罕见类别的泛化能力有所提高。 将YOLO-World的YOLOv8结构与YOLOv10重新组合,并使用双头匹配,结果表明一对多头从这些变化中获益更多,比YOLO-World取得了更好的性能。然而,一对一词头在对齐方面仍有困难,特别是在稀有类检测方面。为了解决这个问题,我们用AdaDL校准了文本编码器,使图像和文本编码器同时学习决策边界,从而取得了显著的改进。
如表 6 所示,我们比较了AdaDL校准文本编码器的不同方法。完全微调提高了整体准确性,但降低了稀有类别的性能,这可能是由于过度拟合造成的。我们认为这是由于图像数量和文本训练参数之间的巨大差距造成的。引入参数效率高的方法,如提示调整法(prompt tuning)和深度提示调整法(deep prompt tuning),可以显著改善对齐情况,使一对一的词头在性能上与一对多的词头相匹配。随着训练参数的增加,性能也会提高。最后,在所有投影层中使用LoRA作为文本编码器,进一步调整文本信息,使其具有区域感知能力。这种方法取得了最佳的整体效果,并在我们的最终实验中被采用。开放世界检测: 我们在M-OWODB数据集上比较了使用未知类标签(oracle)训练的封闭集YOLOv10的性能和我们的开放词汇模型的零点性能。
结果如表 4 所示。即使在“0-shot”设置下,我们的开放词汇模型也能获得比甲骨文训练的 YOLOv10模型更高的已知类准确率。此外,当我们只使用虚词“对象”作为文本输入时,它的未知召回率也比传统的owod方法高,这进一步验证了我们的开放词汇方法的有效性。通过应用我们的通配符嵌入,该模型的未知检测能力得到了充分释放,在不同任务的未知标签上,其性能超过了使用oracle监督训练的模型。而且,随着模型规模的扩大,其检测已知和未知类别的能力也会同时提高。
-
定性结果
对于开放词汇模型,我们输入了LVIS数据集中的1,023个名称作为提示,比较了LVIS和YOLO-Worldv2的零拍摄性能,如图 5 所示。结果表明,我们的 AdaDL策略增强了模型的决策边界,能以更高的置信度检测到不同大小、距离或部分遮挡的物体。此外,视觉信息和校准语义信息之间的一致性得到改善,使模型能够对检测到的物体进行正确分类,捕捉到更多不同的类别。
在图 6 中,我们比较了使用M-OWODB数据集中所有80个已知类别的文本嵌入的开放词汇模型和我们的模型的性能,我们的模型只使用了一半已知类别的文本嵌入(类似于任务 2 的情况)和一个额外的“未知”通配符来检测未知对象。结果表明,我们的模型不仅能在没有相应文本输入的情况下识别出剩余的 40个未知类别,还能检测出更多的对象。这表明,“未知 ”通配符在学习下游任务特定知识的同时,有效保留了预训练中丰富的语义知识,展示了符合现实世界要求的强大泛化能力。
结论
在这项工作中,我们提出了通用开放世界物体检测(Uni-OWD),这是一种在统一框架内应对动态物体类别和未知目标识别挑战的新范式。为此,我们引入了基于YOLO检测器的高效解决方案YOLO-UniOW。我们的框架采用了多项创新策略:自适应决策学习(AdaDL)策略,可无缝调整Uni-OWD任务的决策边界;通配符学习(Wildcard Learning),使用“未知”通配符嵌入来检测未知对象,支持迭代词汇扩展,无需增量学习。针对开放词汇和开放世界对象检测基准的广泛实验验证了我们方法的有效性。实验结果表明,YOLO-UniOW明显优于最先进的方法,为开放世界物体检测提供了一个多功能的卓越解决方案。这项工作凸显了我们的框架在现实世界应用中的潜力,为这一不断发展的领域的进一步进步铺平了道路。