Open World Object Detection in the Era of Foundation Models

news2024/11/25 6:50:22

Open World Object Detection in the Era of Foundation Models

    • 摘要
    • 介绍
    • 相关工作
      • 开放词汇物体检测
      • 开放世界目标检测
      • 类无关的目标检测
    • 3.真实世界目标检测基准
      • 3.1 数据集细节
      • 3.2 基准架构
      • 3.3 什么是一个未知对象
    • 4. 利用基准模型用于开放世界目标检测
      • 4.1 背景
      • 4.2 属性生成
      • 4.3 属性选择和微调
      • 4.4 未知类的推理
    • 5 实验
      • 5.1 基准模型基于存在的开放世界目标检测
      • 5.2 真实世界的目标检测
      • 5.3 选择属性研究
      • 5.4 消融实验
    • 6.总结

摘要

物体检测对于众多实际应用至关重要,从机器人技术到医学图像分析。为了在这些应用中可靠地使用,模型必须能够处理意外的或新颖的物体。开放世界物体检测(OWD)范式通过使模型能够检测未知物体并逐步学习已发现的物体,来解决这一挑战。然而,由于严格的基准和任务定义,OWD方法的开发受到了阻碍。这些定义有效地禁止了基础模型。在这里,我们的目标是放宽这些定义,并研究在OWD中使用预训练的基础模型。首先,我们发现现有的基准测试对于评估使用基础模型的方法是不足够的,因为即使是最简单的集成方法也几乎可以饱和这些基准测试。这个结果激励我们为这些模型策划一个新的、具有挑战性的基准测试。因此,我们引入了一个新的基准测试,包括五个实际应用驱动的数据集,包括如航空和手术图像等具有挑战性的领域,并建立了基线。我们利用应用驱动数据集中类别之间的内在联系,引入了一种新的方法,即开放世界的基础物体检测模型(FOMO),该模型基于与基础已知物体的共享属性来识别未知物体。FOMO在我们的基准测试中,与基线相比,未知物体的mAP提高了约3倍。然而,我们的结果表明还有很大的改进空间,这表明在将物体检测方法进一步扩展到实际世界领域方面,存在着巨大的研究机会。我们的代码和基准测试可以在以下网址找到:https://orrzohar.github.io/projects/fomo/。

介绍

物体检测是计算机视觉任务的基础,应用于各种领域,如自动驾驶[20],机器人技术[3, 33],和医学[6, 13]。为了确保在面对新环境和未知物体时能够进行可靠的检测,开放世界物体检测(OWD)最近被提出作为一项实用的计算机视觉任务[11]。OWD扩展了检测方法超越封闭集的假设,需要检测已知/预期的物体和未知/新颖的物体。它还挑战它们使用有限的监督逐步学习以前未知的物体。在这个设置中表现优秀的模型应该展示出对未知物体的强大检测能力和对已发现物体的灵活学习能力[10, 11, 19, 36]。人们期望OWD的进步将导致检测方法在应用中的更广泛适应。

确保OWD任务的进步真正转化为更可靠的实际检测方法是至关重要的。然而,现有的OWD基准定义与最先进的基于基础模型的检测方法之间存在差异。一方面,已建立的OWD基准是从COCO数据集中改编的,只包含80个日常类别[16]。现有的OWD基准将这些类别的一部分的类标签隐藏起来,并将它们视为“未知”。然而,我们是否应该期望一个“长凳”对于基础检测模型来说是一个未知的对象(参见图1)?并且,改进检测这样简单的类别作为未知的能力是否确实会使基础检测方法更可靠?另一方面,这些检测方法是在大型数据集上训练的,并在更大规模上使用图像级别的预训练。

利用基础模型进行物体检测已经显示出了巨大的潜力,具有强大的性能和能力。通常,利用基础模型的物体检测模型会在进行检测的微调之前,使用像CLIP [26]这样的预训练视觉-语言模型(VLMs)。因此,很难确定模型接触到特定物体的程度 - 这使得将这些方法整合到原始的OWD任务中变得不可能 - 这激发了对新基准的需求。许多基础模型 - 即开放词汇物体检测模型 - 通过“文本条件”物体检测超越了封闭集的假设。这种方法试图通过对齐的多模态嵌入,使用它们的类名来识别训练数据中不存在的物体。然而,这些方法并未试图检测新颖/意外的物体。

为了在实际应用中可靠地使用基于基础模型的物体检测方法,我们认为必须整合开放世界物体检测的概念。因此,我们开始测试这些模型在现有OWD基准上的表现。我们利用了Maaz等人[21]介绍的最小化方法,如使用通用提示来检测未知物体。在对OWD基准进行评估后,我们发现即使是简单的基础模型基线也几乎可以饱和这些基准。因此,我们策划了一个新的基准,它结合了来自多个实际应用的多个数据集,包括水下、航空和医疗领域(见图1)。

在此,我们引入了开放世界的基础物体检测模型,或称为FOMO,它利用基础物体检测模型来检测未知物体。具体来说,FOMO学习检测物体属性,并使用少量物体示例将这些属性映射到已知物体。为此,FOMO利用少量物体示例来选择和精炼大型语言模型最初提出的属性嵌入。在大多数实际应用中,我们发现未知物体与基类共享视觉/功能属性[27]。与以前的OWD方法不同,我们识别的未知物体在属性上是分布内的,但在已知类别上是分布外的。我们的贡献可以总结如下:

  1. 我们首先展示,当评估利用基础模型的方法时,现有的OWD基准是不足够的 - 通过显示即使是简单的实现也几乎可以饱和性能,达到69.0的U-Recall和55.5的最终已知mAP。
  2. 我们策划了一个新颖且具有挑战性的应用驱动的开放世界物体检测基准,包括来自实际应用和领域的数据集,包括水下、航空和医疗领域。
  3. 我们引入了FOMO,它利用预训练的基础模型来根据已知类属性检测未知物体。
  4. 我们在这个基准上对FOMO进行了实证验证,与基线相比,显示出至少8%的已知mAP和3倍的未知mAP的改进。
    在这里插入图片描述
    图1. “长颈鹿”和“长凳”应该被视为未知物体吗?
    现有的开放世界检测基准主要基于COCO数据集(如左图所示),该数据集包含了日常环境中最常见的物体。这种设置也限制了基于基础模型的最先进检测方法的使用,因为这些模型没有接受过这些物体的广泛监督,这是不合理的。本工作提出了一个新的应用驱动的基准(如右图所示),该基准对这些基础模型来说是分布外的(见第3节)。更重要的是,这使我们能够探索使用现代基础模型的方法。

相关工作

在本节中,我们将讨论与开放世界中基于基础模型的对象检测相关的三个任务:开放词汇表、开放世界和与类无关的对象检测。

开放词汇物体检测

开放词汇物体检测(Open-Vocabulary Object Detection,OVD)是首个在物体检测中利用基础模型的领域。自OVD基准[32]提出后,已经出现了许多方法。ViLD [9]通过对现成的区域提议网络提出的裁剪图像区域的嵌入进行蒸馏,学习物体检测模块。RegionCLIP [34]修改了预训练阶段,以考虑区域信息,同时利用预训练的视觉-语言模型(VLMs)。与上述方法相比,最近的方法如OWL-ViT [23, 24]和FVLM [12]通过利用现有的公开物体检测数据集来学习检测模块,性能可以得到大幅提升。然而,上述研究并未解决这些模型检测相关未知物体的能力问题,就像在开放世界物体检测中所讨论的那样。据我们所知,我们的工作是首个将OVD方法扩展到开放世界的工作。

开放世界目标检测

Joseph等人最近引入的开放世界对象检测(OWD)任务已经引起了广泛的关注,这是由于其可能的实际影响。他们的工作引入了ORE,它采用了更快的RCNN与特征空间对比聚类,一个基于RPN的未知检测器,以及一个基于能量的未知标识符(EBUI)来实现OWD目标。[31]试图通过将特征聚类的数量设置为类别的数量,从而减少已知和未知类别在嵌入特征空间中的重叠分布,来扩展ORE,从而减少已知和未知对象之间的混淆。同时,[36]试图通过引入概率性的对象性和修改的推理方案,来扩展可变形的DETR模型。尽管这些模型具有潜力,但在OWD中,基础模型大都被忽视,这与OVD范式不同。随着研究的进展,预计使用预训练的基础模型进行对象检测的倾向将超过从头开始的传统训练模型。我们的工作调查了在OWD任务中使用基础模型的情况,强调检测相关的未知对象。

类无关的目标检测

在开放世界对象检测任务中,一个关键的方面是学习检测“未知”对象,这要求模型获取通用对象性的概念。类别不可知的对象检测任务明确地调查了对象检测模型的这种能力。在类别不可知的对象检测范式中,模型的目标是准确地检测和定位对象,而不给它们分配类别标签。最近针对类别不可知的对象检测任务的一种方法,MAVL [21],基于已经显示出优秀的对象检测能力的多模态视觉变换器(MViTs)。在对一组对齐的图像-文本对进行训练后,结果模型通过使用直观的提示,如"所有对象",实现了令人印象深刻的类别不可知的对象检测性能。受此启发,我们提出的基线方法通过使用MAVL风格的提示来扩展OWL-ViT,以进行“未知”检测。有趣的是,[21]观察到他们的模型在推广到真实世界领域,如医学图像(他们的App. B)时,遇到了困难。

3.真实世界目标检测基准

开放世界对象检测的目标是开发在真实世界中表现稳健的方法 - 特别是,检测未知对象,并在分类后逐步学习它们。现有的OWD基准试图通过重新利用流行的数据集(如COCO),隐藏一部分类别的类别标签,从而引入未知对象(例如,如图1所示的’长凳’)来模拟这样的环境。虽然最初这被视为是开发真实世界检测方法的实用基准,但这些基准偏离了它们的原始目的。首先,它们是不现实的,因为所说的’未知’是大多数现代检测方法可以很好地检测的常见日常对象。其次,已知和未知之间的任意划分并不能模仿真实的应用。在一个真实的检测任务中,如检测动物,未知的类别应该与已知的类别有上下文的关联。无需地检测许多其他无关的对象,使得’未知’对象的检测变得无关紧要。最后,由于有一个不现实的基准,导致必须遵守什么被认为是未知的,这有效地限制了基础模型的结合。

当我们在现有的OWD基准上评估基础模型时(参见第5.1节),它们的性能实际上已经饱和。然而,正如我们稍后将展示的(参见第5.2节),当这些模型在真实世界的应用数据集中受到挑战时,它们会失败。这启发我们策划了真实世界对象检测(RWD)基准,该基准通过选择具有多样化领域和内容转换的应用驱动数据集,挑战利用基础模型的OWD方法。在第3.1节中,我们介绍了构成基准的不同数据集和应用。在第3.2节中,我们详细介绍了基准本身的构建。我们提出的评估重点关注少镜头/低数据设置,承认大多数应用无法收集到传统基准的规模的数据集。最后,在第3.3节中,我们解释了我们的OWD基准和以前的OWD基准之间在“未知对象”的定义上的根本区别。与基于像COCO这样的广泛使用的数据集的基准不同,RWD基准是应用驱动的,并通过结合开放世界概念,更好地反映了真实世界的场景。更多信息,请参见补充部分A。
在这里插入图片描述
表1。数据集的详细信息。类和图像的数量。详情见A节。

3.1 数据集细节

我们从Roboflow 100 (RF100) [4]中的多样化数据集中,选择性地使用了三个不同的数据集:Aquarium、Team Fight Tactics和X-ray Rheumatology。这些数据集在CVPR 2023的CVinW研讨会上展示,因其在真实世界中的适用性而受到关注。

Aquatic(Aquarium)数据集包含了不同海洋生物的水下图像,可能用于水下应用。Game(Team Fight Tactics)数据集包含了包含不同头像的游戏快照,用于评估在合成数据上的性能。Medical(X-ray Rheumatology)数据集包含了需要检测不同骨头的手部X光图像,应用于检测关节炎、骨折和手部的结构异常。

Aerial数据集是从DIOR数据集[14]中策划的,包含了体育场/存储容器的航空图像,可以用于卫星成像/智能的应用。Surgery数据集取自NeuroSurgicalTools数据集[2],由神经外科显微镜捕获,包括各种外科工具。
表1有每个数据集的类别数量和数据集大小的细分。更多信息,请参见补充部分A。

3.2 基准架构

RWD基准包含五个现有的应用驱动的对象检测数据集。每个数据集的类别被划分为两个子集:50%最常见和最不常见的类别。方法在两个阶段进行评估:任务1(T1)和任务2(T2)。在T1中,只有50%最常见的类别被认为是已知的,而50%最不常见的类别对模型来说仍然是未知的。这种设计选择得到了与开放世界工作相关的充分动机,它将其作为长尾范式的扩展[17, 18]。在这个阶段,模型预计会检测已知和未知的对象。这个评估阶段测试了对象检测器检测新颖/未知对象的能力。在T2中,剩下的50%最不常见的类别被揭示,模型根据它们在已知类别集合上的性能进行评估。这种评估关注的是少镜头/低数据设置,承认大多数应用无法收集到传统基准的规模的数据集。最后,在第3.3节中,我们解释了我们的OWD基准和以前的OWD基准之间在“未知对象”的定义上的根本区别。与基于像COCO这样的广泛使用的数据集的基准不同,RWD基准是应用驱动的,并通过结合开放世界概念,更好地反映了真实世界的场景。更多信息,请参见补充部分A。

3.3 什么是一个未知对象

以前的OWD方法只报告了未知召回率(U-Recall),因为对象的概念定义得很模糊。U-Recall本质上是有缺陷的,因为它没有权衡未知对象预测的准确性。与以前的工作不同,我们明确定义了需要检测的对象 - 那些为任务保留的对象。由于RWD只包含真实世界的应用数据集,所以类别本质上是相关的,未知对象与已知的基类共享一些视觉或功能属性。这使得只预测保留的对象更加可行,因此,我们采用使用mAP。

4. 利用基准模型用于开放世界目标检测

开放世界对象检测模型,或者称为FOMO,直接在开放世界对象检测(OWD)设置中使用基础模型(参见图2)。第4.1节提供了必要的背景信息。以前的OWD方法从未明确定义过“未知对象”,这导致了“所有”对象都是候选未知对象的广泛声明。这引出了本文的一个核心问题:“我们能否从给定的已知类别推断出未知对象是什么?”受到Rosch和Mervis [27]的开创性心理学研究的启发,他们将对象描述为“形成自然间断的信息丰富的属性束”,我们通过推理已知类别的属性来重新定义检测未知对象。

FOMO试图通过识别与基类共享视觉和/或功能属性的对象来检测未知对象。在第4.2节中,我们介绍了FOMO如何首先利用大型语言模型来识别目标应用的可能属性。由于这些属性是类别不可知的,所以属性和已知对象分类之间不存在明确的映射。因此&#x

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1531427.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SD3刚发布不久,最新的SD3-Turbo就来了:只需要4步就能超过MidjourneyV6!

StabilityAI刚刚发布了SD3-Turbo的论文:Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation。 SD3-Turbo采用了一种新的蒸馏方法:Latent Adversarial Diffusion Distillation (LADD),与基于像素的ADD&am…

elment-ui el-tabs组件 每次点击后 created方法都会执行2次

先看错误的 日志打印: 错误的代码如下: 正确的日志打印: 正确的代码如下: 前言: 在element-ui的tabs组件中,我们发现每次切换页面,所有的子组件都会重新渲染一次。当子页面需要发送数据请求并且子页面过多时,这样会过多的占用网络资源。这里我们可以使用 v-if 来进行…

HarmonyOS NEXT应用开发之左右拖动切换图片效果案例

介绍 本示例使用滑动手势监听,实时调整左右两侧内容显示区域大小和效果。通过绑定gesture事件中的PanGesture平移手势,实时获取拖动距离。当拖动时,实时地调节左右两个Image组件的宽度,从而成功实现左右拖动切换图片效果的功能。…

python接口自动化测试数据和代码分离解析

common中存放的是整个项目中公共使用的封装方法 从工程目录上可以看到区分 datas中专门存放测试数据(yml文件) cases中专门集中存放测试用例 ... 数据分离的第一步先找到工程项目路径 1 2 3 4 5 6 7 8 9 10 11 12 # -*- encoding: utf-8 -*- """ __Software…

通过docker容器安装zabbix6.4.12图文详解(监控服务器docker容器)

目录 一、相关环境及镜像二、zabbix-server服务端部署1.使用docker创建zabbix-server服务端(1). 创建专用于Zabbix组件容器的网络(2). 启动空的MySQL服务器实例(3). 启动Zabbix Java网关实例(4). 启动Zabbix服务器实例并将实例与创建的MySQL服务器实例链接(5). 启动Zabbix Web界…

深入理解Ubuntu22:探索Linux操作系统的功能与应用

一、linux (一)、安装 1、电脑可以安装双系统,即在一套硬件上只能同时运行一个操作系统,例:C盘安装win,D盘安装linux。 2、虚拟机 虚拟机需要硬件支持,并需开启VT-x. 如:Virtual…

华为OD机试真题-推荐多样性-2024年OD统一考试(C卷)

题目描述: 推荐多样性需要从多个列表中选择元素,一次性要返回N屏数据(窗口数量),每屏展示K个元素(窗口大小),选择策略: 1. 各个列表元素需要做穿插处理,即先从第一个列表中为每屏选择一个元素,再从第二个列表中为每屏选择一个元素,依次类推 2. 每个列表的元素尽量均…

②免费AI软件开发工具测评:通义灵码 VS 码上飞

前言 我又双叒叕来测评了!上次给大家带来的是iFlyCode和CodeFlying两款产品的测评,受到了大家的一致好评~ 今天咱就继续来聊聊,这次我们选的的对象是通义灵码和码上飞,从名字上也能看到出来这两款产品一定是跟软件开发有关系的&…

【c++】c++背景(c++的前世今生)

主页:醋溜马桶圈-CSDN博客 专栏:c_醋溜马桶圈的博客-CSDN博客 gitee:mnxcc (mnxcc) - Gitee.com 目录 1. 什么是C 2. C发展史 3. C的重要性 3.1 语言的使用广泛度 3.2在工作邻域 1. 操作系统以及大型系统软件开发 2. 服务器端开发 3. …

模型部署——RKNN模型量化精度分析及混合量化提高精度

模型部署——RKNN模型量化精度分析及混合量化提高精度(附代码)-CSDN博客 3.1 量化精度分析流程 计算不同情况下,同一层网络输入值的余弦距离,来近似的查看每一层精度损失的情况。具体量化精度分析的流程如下: 3.2 量…

【好用】Star超36.8k,一个的免费通用数据库管理工具

关于数据库管理工具,大家可能都在用SQLyog、Navicat、MySQL-Front、SQL Studio、MySQL Workbench等等,这些管理工具不是不好用,就是要变魔术才可以用,今天 V 哥给大家推荐一个即好用,又免费的可视化通用数据库管理工具…

对JS文件进行压缩未通过,对WXML文件进行压缩未通过 问题解决

问题描述 在使用uniapp 开发微信小程序,进行上架发布时 代码质量栏 出现对JS文件进行压缩未通过,对WXML文件进行压缩未通过 问题。 虽然现实代码上传成功,但是作为一个合格的猿人,肯定是要解决的。那么如何解决呢? …

java-ssm-jsp基于javaweb的宠物猫狗商业系统

java-ssm-jsp基于javaweb的宠物猫狗商业系统 获取源码——》公主号:计算机专业毕设大全 获取源码——》公主号:计算机专业毕设大全

PMP备考心得 | 策略与技巧大揭秘

1.理解考试大纲:首先,你需要熟悉PMP考试的内容和结构。PMI官网提供了详细的考试大纲,包括项目管理的五个过程组(启动、规划、执行、监控、收尾)和十个知识领域; 2.制定学习计划:根据个人的时间…

【Leetcode-73.矩阵置零】

题目: 给定一个 m x n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1: 输入:matrix [[1,1,1],[1,0,1],[1,1,1]] 输出:[[1,0,1],[0,0,0],[1,0,1]]示例 2&…

白嫖阿里云程序员日历

https://developer.aliyun.com/topic/lingma/activities/202403?taskCode14508&recordId44f3187f7950776f494eec668a62c65f#/?utm_contentm_fission_1 「通义灵码 体验 AI 编码,开 AI 盲盒」 打开链接直接领就行了

基于springboot的社区服务系统的设计与实现

一、系统架构 前端:vuex3 | element-ui 后端:springboot | mybatis-plus 环境:jdk1.8 | mysql | maven | node 二、代码及数据库 三、功能介绍 01. 管理后台-登录 02. 管理后台-首页 03. 管理后台-用户管理 04. 管理后台-业主缴费管理…

编程语言那么多,为什么偏偏是C语言成了大学的必修课?

编程语言那么多,为什么偏偏是C语言成了大学的必修课? 必修JAVA? c#不服 必修Python? JAVA不服 甚至你必修到一半,Python落伍了都有可能。 当年我们还以必修JAVA,JSP为主要论点,然而刚过两年,JSP就成古…

遗传算法 - 函数最优解计算

遗传算法 遗传算法概念 遗传算法的概念是在 1975 年由密切根大学的 J.Holland 提出的,这是一种通过模拟自然进化过程寻找最优解的方法。它遵循达尔文的物竞天择,适者生存的进化准则。基本思想: 初始一个种群,选择种群中适应度高…

Transformer位置编码(Position Embedding)理解

本文主要介绍4种位置编码,分别是NLP发源的transformer、ViT、Sw-Transformer、MAE的Position Embedding 一、NLP transformer 使用的是1d的绝对位置编码,使用sincos将每个token编码为一个向量【硬编码】 Attention Is All You Need 在语言中&#xff0…