OW-DETR: Open-world Detection Transformer（论文翻译）

文章目录

- OW-DETR: Open-world Detection Transformer
- - 摘要
  - 1.介绍
  - 2.开放世界检测的transformer
  - - 2.1整体架构
    - 2.2.多尺度上下文编码
    - 2.3.注意力驱动的伪标签
    - 2.4 新类分类
    - 2.5.前景物体
    - 2.6.训练与推理
  - 3.实验
  - - 3.1.最新技术水平比较
    - 3.2.增量目标检测
    - 3.3 消融实验
  - 4.与现有技术的关系
  - 5.结论

OW-DETR: Open-world Detection Transformer

摘要

开放世界对象检测（OWOD）是一个具有挑战性的计算机视觉问题，其中的任务是检测一组已知的对象类别，同时识别未知对象。此外，模型必须逐步学习在下一个训练片段中变得已知的新类。与标准目标检测不同，OWOD设置对在潜在未知对象上生成高质量候选框、将未知对象与背景分离以及检测各种未知对象提出了重大挑战。在这里，我们介绍了一种新的端到端的基于transformer的框架，OW-DETR，为于开放世界的目标检测。OW-DETR包括三个专用组件，即，注意力驱动的伪标签，新类分类和对象评分，以明确地解决上述OWOD的挑战。我们的OW-DETR明确编码多尺度上下文信息，具有较少的归纳偏差，使知识转移从已知类到未知类，可以更好地区分未知类和背景。在两个基准上进行综合实验：MS-COCO和PASCAL VOC。广泛的消融实验揭示了我们提出方法的优点。此外，我们的模型优于最近推出的OWOD方法ORE，在MS-COCO上的未知类召回率方面的绝对增益范围从1.8%到3.3%。在增量目标检测的情况下，OW-DETR优于PASCAL VOC上所有设置的最新技术。我们的代码可在https://github.com/akshitac8/OW-DETR获得。

1.介绍

开放世界对象检测（OWOD）放宽了已知类出现在推理中的封闭世界的假设。在OWOD范例[15]中，在每个训练片段中，模型学习检测给定的已知对象集合，同时能够识别未知对象。这些标记的未知类可以被转发到oracle检测器，其可以标记几个感兴趣类别。给定这些新的已知类，模型将继续增量地更新其知识，而无需从头开始对先前已知的类进行重新训练。这个迭代学习过程在模型的生命周期内继续循环。

在OWOD设置中未知对象类别的识别对传统的检测器提出了重大挑战。首先，除了针对所见对象的准确候选框集之外，检测器还必须为潜在未知对象生成高质量候选框。其次，模型应该能够利用其关于已经看到的对象的知识将未知对象从背景中分离出来，从而学习什么构成有效对象。最后，必须检测不同大小的对象，同时灵活地对它们丰富的上下文和与共同出现的对象的关系进行建模。

最近，OWOD的工作引入了基于两级Faster RCNN [32]的开放世界对象检测器ORE。由于未知对象注释在开放世界中的训练期间不可用，ORE提出利用自动标记步骤来获得用于训练的伪未知数的集合。自动标记是在由区域提议网络（RPN）输出的类别不可知的提议上执行的。不与GT已知对象重叠但具有高“对象性”分数的建议被自动标记为未知并用于训练。然后，这些自动标记的未知数与GT已知数沿着使用以执行潜在空间聚类。这样的聚类尝试分离潜在空间中的多个已知类和未知类，并且帮助学习未知类的原型。此外，ORE学习基于能量的二元分类器，以将未知类与类不可知的已知类区分开。

虽然是第一个引入和探索具有挑战性的OWOD问题，ORE遭受几个问题。(1) ORE依赖于一个具有弱监督的未知目标的保留验证集来估计其基于能量分类器中新类别的分布；(2) 为了进行对比聚类，只使用单个原型特征来表征未知类别，本文认为这种表征是不充分的，这不足以对未知目标中普遍存在的各种类内变化进行建模。因此，这可能导致已知和未知之间的次优分离；(3) 此外，由于ORE基于Faster-RCNN进行二次设计，没有明确建模长程依赖关系，这对于捕获包含不同对象的图像中的上下文信息至关重要。作者着手设计方法缓解以上问题，以应对 OWOD 任务。

基于上述观察，引入了一个基于视觉 transformer 的多尺度上下文感知检测框架，该框架具有专门的组件来处理开放世界任务，包括注意力驱动的伪标签、新类别分类和客观性评分，以有效地检测图像中的未知目标，如图1所示：
在这里插入图片描述
图1.OW-DETR的可视化说明用于开放世界对象检测（OWOD），这里，利用从中间特征获得的注意力图来对对象查询进行评分。查询的对象性得分然后被用来识别伪未知类。在这些伪未知类和真实对象的已知类之间强制分离以检测新的类。此外，还学习背景和前景之间的分离（已知+未知），用于有效的知识转移从已知类前景对象的特征。我们的OW-DETR显式编码多尺度上下文，具有较少的归纳偏差，并假设没有监督未知对象，因此非常适合OWOD问题。

具体来说，与 ORE 相比 (two-stage CNN pipeline)，这里的方法是基于 transformer 的 single-stage 框架，只需要较少的归纳偏置，可以在多尺度上对长期依赖进行编码以丰富上下文信息。与 ORE 不同的是，ORE 依赖于一个保留验证集来估计新类别的分布，本文的方法假设对未知的情况不进行监督，这样更加接近于真正的开放世界场景。总的来说，作者的新设计提供了更大的灵活性，使用更加宽的上下文建模和更加少的假设来解决开放世界目标检测问题。论文的主要贡献是：
(1) 提出了一种基于 transformer 的开放世界检测器 (OW-DETR)，该检测器可以更加好地模拟具有多尺度自注意力和可变接收域的场景，此外还可以减少对开放世界设置的假设以减少归纳偏置；

(2) 提出了一种注意力驱动伪标签方案，用于选择注意值较高但又不属于任何已知类的目标 query boxes 作为未知类；利用伪未知项和已知项来学习新类别分类器，以区分未知目标和已知目标；

(3) 引入了一个目标性分支，通过使知识从已知类转移到未知类 (构成前景目标的特征) 来有效地学习前景目标(已知的、伪未知的) 和背景之间的分离；

(4) 在两个流行的基准上进行了大量的实验，证明了所提的 OW-DETR 方法的有效性，对于 OWOD 和增量目标检测任务，OW-DETR 优于最近提出的 ORE，在MS-COCO上，OW-DETR在未知类召回率方面比ORE实现了1.8%至3.3%的绝对增益。

2.开放世界检测的transformer

问题表述Kt 表示时间 t 处的一组已知对象类别，而 Dt 表示一个包含 N 张带有相应标签 Yt 的图像的数据集。每个 Yi 代表图像中注释的一组 K 个对象实例的标签，其中 yk 代表一个带有类标签 lk 的边界框，坐标 xk、yk、wk、hk。此外，该公式包括一组未知类别，表示为 U，在测试时可能会遇到这些类别。该集合包括除已知对象类别集以外的所有类。

如在第一部分中所讨论的，在开放世界对象检测（OWOD）设置中，除了检测先前遇到的已知类C之外，Mt模型还在训练时间t处将未看见的类实例识别为属于未知类（由标记0表示）。然后，由Mt标识的一组未知实例U被转发到oracle检测器，该oracle检测器标记n个感兴趣的新类，并提供相应的一组新的训练示例。然后，oracle学习器将这组新类递增地添加到已知类，使得Kt+1 =Kt + {C + 1，…，C+n}。对于先前的类Kt，只有少数示例可以存储在有界存储器中，从而模仿真实世界设置中的隐私问题、有限的计算和存储器资源。然后，Mt被递增地训练，而不需要在整个数据集上从头开始重新训练，以获得更新的模型Mt+1，其可以检测Kt+1中的所有对象类。这个循环在检测器的生命周期中持续，检测器在每次训练中都用新知识更新自己，而不会忘记以前学习的课程。
在这里插入图片描述
图2.OW-DETR框架。我们的方法使用标准的deformable DETR解决OWOD问题：通过引入（i）一个注意力驱动的伪标记方案来选择候选未知类查询框，（ii）一个新分类分支Fcls区分伪未知类从每个已知类，和（iii）一个对象分支Fobj，学习从背景中分离前景对象（已知+未知类）。在我们的OW-DETR中，图像从主干中提取I的D维多尺度特征，并与一组M个可学习对象查询q ∈ RD沿着输入到可变形编码器-解码器。在解码器输出处，嵌入qe ∈ RD的每个对象查询被输入到三个不同的分支：边界框回归、新类分类和客观性评分。边界框坐标由回归分支Freg输出。对象性评分分支输出作为前景对象的查询的置信度，而新奇分类分支将查询分类为已知和未知类中的一个。我们的OW-DETR与新分类损失Ln、对象性评分损失Lo和边界框回归损失Lr端到端联合学习。

2.1整体架构

图2 显示出所提出的开放世界检测OW-DETR的整体架构。所提出的OW-DETR通过引入（i）注意力驱动的伪标记机制，用于选择可能的未知类查询候选框;新类分类分支用于学习将所述对象查询分类到多个已知类中的一个或所述未知类中;（iii）“对象性评分”分支用于学习从背景中分离前景对象（已知和未知实例）。在所提出的OW-DETR中，具有一组对象实例Y的空间大小为H × W的图像I被输入到特征提取主干。D维多尺度特征以不同的分辨率获得，并输入到包含多尺度可变形注意力模块的变换器编码器-解码器。解码器将一组M个可学习的对象查询，在交叉注意和自注意模块的帮助下，转换为一组M个对象查询嵌入qe ∈RD，其编码图像中的潜在对象实例。

然后，qe被输入到三个分支：边界框回归、新类分类和对象性。新类分类（Fcls）和对象（Fobj）分支是单层前馈网络（FFN），而回归分支Freg是3层FFN。一个二分匹配损失，基于类和边框坐标预测，被用来选择唯一的查询，最匹配的已知类的实例。剩余的对象查询，然后被用来选择候选的未知类实例，这是至关重要的学习在OWOD设置。为此，利用从主干的潜在特征图获得的注意力图A来计算查询qe的对象性分数so。分数so基于A中查询的兴趣区域内的激活幅度。具有高分数的查询被选择为候选实例并且伪标记为“未知”。这些伪标记的未知查询沿着已知类查询被用作前景对象来训练对象分支。此外，当回归分支预测边界框时，新类分类分支将查询分类为许多已知类中的一个和未知类。OW-DETR框架是训练端到端使用专用损失项新类分类（Ln），对象评分（Lo），边界框回归（Lr）在一个联合制定。接下来，我们将详细介绍我们的OW-DETR方法。

2.2.多尺度上下文编码

如前所述。给定可能出现在图像中的未知类的多样性，检测不同大小的对象，同时对其丰富的上下文进行编码是开放世界对象检测（OWOD）的主要挑战之一。编码这种丰富的上下文需要在图像的多个尺度上从大的感受野捕获长期依赖性。此外，在框架中具有较少的归纳偏差，其对测试期间出现的未知类对象做出较少的假设，可能有利于改善检测效果。
受到上述关于OWOD任务要求的观察的启发，我们采用了最近引入的单阶段Deformable DETR [38]（DDETR），它是端到端可训练的，并且由于其能够以较少的归纳偏差编码长期多尺度上下文，因此在标准对象检测中表现出有更好的性能。DDETR在DETR [3]的变换器编码器和解码器层中引入了多尺度可变形注意力模块，用于以更好的收敛性和更低的复杂度对多尺度上下文进行编码。基于可变形卷积[5，37]的多尺度可变形注意力模块仅关注参考点周围的少量固定数量的关键采样点。这种采样是跨多尺度特征图执行的，并且能够在更大的感受野上编码更丰富的上下文。更多详情，请参阅[3，38]。尽管实现了有更好的性能在目标检测任务，标准的DDETR是不适合检测未知类实例在OWOD中的设置。为了能够检测新对象，我们引入了注意力驱动的伪标记方案，并且加入新类分类和对象性分支，如下所述。

2.3.注意力驱动的伪标签

为了学习检测训练集中没有任何标注的未知类对象，OWOD框架必须依赖于选择训练图像中出现的潜在未知实例，并在训练期间将它们用作伪未知类。ORE 的OWOD方法选择具有高目标分数并且不与真实的已知实例重叠的建议框作为伪未知类。从两阶段检测器RPN获得的这些建议框可能偏向于已知类，因为它是在来自已知类的强监督下训练的。与这样的策略不同，我们引入了一个自下而上的注意力驱动的伪标签，更好地推广和适用于单级对象检测器。令f表示从主干提取的中间D ′维特征图，空间大小为h×w。特征激活的幅度给出对象在该空间位置中的存在的指示，并且由此可以用于计算窗口内的对象的置信度。令b=[xb，yb，wb，hb]表示具有中心（xb，yb）、宽度wb和高度hb的提议框。对象性得分so（b）然后计算为：
在这里插入图片描述
其中A ∈ Rh×w是在通道D’上平均的特征映射f。在我们的框架中的对象建议框被获得为由可变形变换器解码器输出的M个对象查询嵌入的回归分支预测的边界框b。对于具有K个已知对象实例的图像，针对未被DDETR的二分匹配loss 1选择为GT个已知实例的最佳查询匹配的M-K个对象查询计算对象性得分so。M-K中具有高对象性得分的top-ku查询然后被伪标记为未知类，其边界框由其相应的回归分支预测给出（见图3）。
在这里插入图片描述
图3.一个例子说明了我们的注意力驱动的伪标签。针对M-K个对象查询qe中的每一个的对象性得分被计算为关注特征图A中的感兴趣区域中的平均置信度得分，该感兴趣区域对应于其提议框bi。对这些M-K分数执行top-ku选择以获得ku伪未知数。

2.4 新类分类

ORE [15]方法引入了一种基于能量的未知标识符，用于在已知和未知类别之间对候选框进行分类。然而，它依赖于具有弱未知监督的保持验证集来学习已知和未知类的能量分布。相比之下，我们的OW-DETR不需要任何未知对象的监督，并完全依赖于使用注意力驱动的伪标签中描述的伪未知类选择。此外，标准DDETR中的分类分支Fcls将嵌入qe的对象查询分类到已知类别或背景中的一个，即，Fcls：RD-RC。然而，当遇到未知对象时，它无法将其分类到新的类别中。为了克服这些问题，并使我们的OW-DETR框架仅用选定的伪未知对象进行训练，我们在分类分支中为新对象引入了类标签。然后，利用与新类分类分支Fcls中的新颖类相关联的伪标签（为了容易，设置为0）来训练被选择为伪未知的查询嵌入qe：RD → RC+1。在分类分支中的新类分类别标签的这种引入使得qe能够在OW-DETR中被分类为未知对象，否则其将被学习为背景，如在标准对象检测任务中那样。这有助于我们的模型从背景中区分潜在的未知对象。
在这里插入图片描述
图4.OWOD评估协议中的任务组成。显示了每个任务中的MS-COCO类沿着跨拆分的图像和实例（对象）的数量。

2.5.前景物体

如上所述，新类分类分支Fcls是类特定的，并且将查询嵌入qe分类到C + 1个类中的一个：C已知类或1未知类或背景。虽然这使得能够学习已知类和未知类之间的类特定可分性，但它不允许从已知对象到未知对象的知识转移，这在理解OWOD设置中什么构成未知对象方面是至关重要的。此外，注意力驱动的伪标记可能是不太准确的，由于未知的类监督的情况下，导致在大多数的查询嵌入被预测的背景。为了缓解这些问题，我们引入了一个前台对象分支Fobj：RD → [0，1]，其对查询嵌入qe的“对象性”[18，31]进行评分，以便更好地将前景对象（已知和未知）与背景分离。学习对与前景对象相对应的查询评分高于背景使得能够改进对未知对象的检测，否则这些未知对象将被检测为背景。这样的类不可知的评分还有助于模型将知识从已知类转移到未知类。构成前景物体的特征。

2.6.训练与推理

训练：我们的OW-DETR框架使用以下联合损失公式进行端到端训练：
在这里插入图片描述
其中Ln、Lr和Lo分别表示新类分类、边界框回归和对象性评分的损失项。虽然标准焦点损失[19]用于制定Ln和Lo，但Lr项是标准的1回归损失。这里，α表示对象性评分的权重因子。当在OWOD的每个情节中为增量学习阶段引入一组新类别时，受[15，29，35]中的发现的激励，我们采用基于范例重放的微调来减轻先前学习的类别的catas trophic遗忘。具体地，在每个事件中使用为每个已知类存储的样本的平衡集合的增量步骤之后，对模型进行微调。

推断：针对测试图像I计算M个对象查询嵌入qe，并且获得它们对应的边界框和类预测，如[38]中所示。令Ct是在时间t除了未知类之外的已知类的数量，即，Ct=| KT| +1。对M · Ct类分数采用前k选择，并且在OWOD评估期间使用这些具有高分数的所选检测。

3.实验

数据集：我们在MS-COCO上评估OW-DETR以解决OWOD问题。类被分组为非重叠任务集合{T1，· · ·，Tt，· · · } 。直到达到t =λ时才引入任务Tλ中的类。在学习任务Tt时，在{Tλ：λ ≤ t}被认为是已知的。类似地，{Tλ：λ > t}被视为未知。与[15]中一样，MS-COCO的80个类被分成4个任务（见图4）.每个任务的训练集选自MS-COCO和Pascal VOC [9]训练集图像，而Pascal VOC测试分割和MS-COCO val-set用于评估。

评估指标：对于已知类别，使用标准平均精度（mAP）。此外，我们使用召回率作为未知对象检测的主要指标，而不是常用的mAP。这是因为数据集中所有可能的未知对象实例都没有注释。在类似的条件下，在[1，21]中使用了召回。

实施细节：transformer架构类似于[38]中的DDETR。多尺度特征图是从ResNet-50 [14]中提取的，以自监督的方式在ImageNet [6]上进行预训练[4]。这样的预训练减轻了可能的开放世界设置条件，这可能发生在完全监督的预训练（具有类标签）中，因为可能与新类重叠。查询数量M = 100，而D = 256。用于选择伪标签的ku被设置为5。此外，每个图像的前50个高得分检测用于推断期间的评估。OW-DETR框架使用ADAM优化器[17]训练50个epoch，如[38]所示。权重α被设置为0.1。附录中提供了更多详细信息。

3.1.最新技术水平比较

表1显示了我们的OW-DETR与最近在MS-COCO上引入的ORE [15]的OWOD问题的比较。我们还报告了Faster R-CNN [32]和标准Deformable DETR（DDETR）[38]框架的性能。比较显示出，在已知类mAP和未知类召回（U-Recall）方面。U-Recall量化了模型在OWOD设置中检索未知对象实例的能力。请注意，任务4中的所有80个类都是已知的，因此由于不存在未知的测试注释，无法计算U-Recall。由于Faster R-CNN和DDETR都只能将对象分类到已知类中，而不能将对象分类到未知类中，因此它们不适合OWOD设置，并且无法为它们计算U-Recall。为了在OWOD设置中进行公平比较，我们报告了没有其基于能量的未知标识符（EBUI）的ORE，该标识符依赖于具有弱未知对象监督的验证数据。由此产生的ORE-EBUI框架在任务1、2和3上分别实现了4.9、2.9和3.9的U-Recall。我们的OWDETR改进了未知对象的检索，从而提高了性能，显著提高了U-Recall的性能，在相同的任务1，2和3上分别达到7.5，6.2和5.7。此外，OW-DETR优于现有的最好的OWOD方法的ORE在所有四个任务的已知类的mAP，实现显着的绝对收益高达3.6%。虽然为了公平起见，我们在这里使用与[15]相同的分割，但我们的OW-DETR也在通过消除任何可能的信息泄漏获得的更严格的数据分割（包括在附录中）上实现了相同的增益。OW-DETR相对于ORE、vanilla Faster R-CNN和DDETR的持续改进强调了提出的贡献对更准确的OWOD的重要性。
在这里插入图片描述
表1.MS-COCO上OWOD的最新比较。比较显示在已知类mAP和未知类召回（U-召回）。未知召回（U-Recall）度量量化模型检索未知对象实例的能力。表顶部的标准对象检测器（Faster R-CNN和DDETR）实现了已知类别的有希望的mAP，但本质上不适合OWOD设置，因为它们无法检测任何未知对象。为了在OWOD设置中进行公平比较，我们与最近引入的不采用EBUI的ORE [15]进行比较。我们的OW-DETR实现了改进的U-Recall ORE跨任务，表明我们的模型能够更好地检测未知实例。此外，我们的OW-DETR还实现了跨四个任务的已知类的mAP的显着增益。请注意，由于任务4中所有80个类都是已知的，因此不计算U-Recall。

3.2.增量目标检测

作为检测未知实例的直观结果，我们的OW-DETR在增量对象检测（iOD）任务上表现良好。这是由于被分类为已知类的未知对象的混淆减少，这使得检测器能够递增地学习各种较新的类实例作为真实的前景对象。标签2显示了OW-DETR与PASCAL VOC 2007上现有方法的比较。如[28，33]所示，在三个标准设置上执行评估，其中一组类（10，5和最后一个类）被递增地引入到在剩余类（10，15和19）上训练的检测器。我们的OW-DETR对现有的方法在所有三个设置上都表现良好，说明了建模未知对象类的好处。
在这里插入图片描述
表2.PASCAL VOC上增量对象检测（iOD）的最新技术比较。我们在3种不同的设置上进行了实验。比较以每类AP和总体mAP显示。分别将灰色背景中的10、5和1个类引入到在剩余的10、15和19个类上训练的检测器。我们的OW-DETR实现了良好的性能相比，现有的方法在所有三个设置。

3.3 消融实验

表3 显示了逐步将我们的贡献整合到OWOD问题的基线框架中的影响。该比较以已知（当前和先前）类的mAP和未知类的召回（表示为U-Recall）来显示。所示的所有变体（除了基线t）包括微调步骤以减轻增量学习阶段期间的灾难性遗忘。这里，我们的基线是标准的 Deformable DETR。我们还展示了oracle的上限性能，即，用未知类别的GT注释训练的基线。基线在已知类上实现了更高的性能，但不能检测任何未知对象，因为它仅用已知类进行训练，因此不适合OWOD。集成的新类分类分支（表示为基线+NC），并采用我们的注意力驱动伪标记机制训练的新类性能分类器选择的伪未知类，使未知的实例检测。因此，这样的整合实现了任务1、2和3的6.0、4.6和4.6的未知召回率。我们的最终框架，OW-DETR，通过另外集成的对象分支进一步提高了未知对象的检索在OWOD设置，实现了7.5，6.2和5.7相同的任务1，2和3的U-Recall。这些结果表明，我们提出的贡献的有效性，在OWOD设置学习的分离之间的已知和未知的通过新类分类分支和学习转移知识从已知的类到未知类通过对象分支。

开集检测比较：检测器处理开集数据中的未知类实例的能力可以通过与闭集数据上的mAP相比其mAP值的降低程度来测量。我们遵循[23]的相同评价方案，并在表4中报告性能。通过有效地建模的未知类，我们的OW-DETR实现了有前途的性能相比现有的方法。定性分析：图5示出了来自MS-COCO测试集的示例图像的定性结果，沿着它们对应的注意力图A。从我们的OW-DETR获得的已知类（黄色）和未知类（紫色）的检测也被叠加。我们观察到未知对象被合理地检测到，例如，虽然遗漏了一些新的物体（右下图中的桌子），但这些结果表明，我们的OW-DETR在具有挑战性的OWOD设置中检测未知物体时取得了很好的性能。其他结果见附录。
在这里插入图片描述
表3.将我们的贡献逐步纳入基线的影响。在MS-COCO上针对OWOD设置的已知类平均精度（mAP）和未知类召回（U-Recall）方面示出了比较。除了标准基线（用t表示）之外，所示的所有其他模型都包括微调步骤以减轻灾难性遗忘。我们还展示了oracle的性能（使用GT未知类注释进行基线训练）。尽管基线对于已知类别实现了更高的mAP，但是它本质上不适合于OWOD设置，因为它不能检测任何未知对象。将所提出的基于伪标签的新类分类（NC）与基线集成使得能够进行未知类检测。此外，将我们的对象分支集成到框架中进一步提高了未知类的检索。请注意，由于任务4中所有80个类都是已知的，因此不计算U-Recall。
在这里插入图片描述
表4.开集目标检测任务的性能比较。我们的OW-DETR通过有效地对未知类建模并减少其与已知类的混淆来更好地概括。

图5.MS-COCO测试集示例图像的定性结果。对于每个示例图像，从中间特征图计算的其对应的注意力图A在其左侧示出。从我们的OW-DETR获得的检测覆盖在已知（黄色）和未知（紫色）类对象上。我们观察到，注意力地图激活往往是较高的前景对象的区域，说明注意力驱动的伪标签的未知类的优势。像球拍（第1行，右）、伞（第2行，左）、消防栓（第3行，左）这样的未知对象被相当好地检测到。由于具有挑战性的开放世界设置，一些未知对象被错过，例如，水槽（第2行，中间）、桌子（第3行，右侧）。然而，这些结果表明，我们的OW-DETR框架在具有挑战性的OWOD设置中实现了有更好的性能。

4.与现有技术的关系

一些工作已经研究了标准目标检测的问题[2，11，13，19，25，26，30，32]。这些方法在一个强烈的假设下工作，即在模型的生命周期期间遇到的对象类别的标签空间与在其训练期间相同。用于自然语言处理的transformer的出现[34，36]激发了研究，以调查视觉任务的相关想法[8，10，16，24]，包括标准目标检测[3，38]。与标准目标检测不同，增量目标检测方法[28，33]对在训练中增量引入的新对象类进行建模，并解决灾难性遗忘的问题。另一方面，[7，12，22，23]的工作集中在开集检测，其中在测试期间遇到的新的未知对象将被拒绝。相比之下，[15]最近的工作解决了具有挑战性的开放世界目标检测（OWOD）问题，除了增量学习新的对象类之外，还可以检测已知和未知对象。在这里，我们在基于transformer的框架[38]中提出了一种OWOD方法OW-DETR，包括以下新组件：注意力驱动的伪标记、新奇分类和客观性评分。我们的OWDETR明确地编码多尺度的上下文信息，具有较少的归纳偏差，同时使对象知识从已知类转移到新的类，以提高未知的检测。

5.结论

我们提出了一种新的基于transformer的方法，OW-DETR，开放世界的目标检测的问题。所提出的OW-DETR包括用于解决开放世界设置的专用组件，包括注意力驱动的伪标记、新奇分类和对象评分，以便准确地检测图像中的未知对象。我们对两个流行的基准进行了广泛的实验：PASCAL VOC和MS COCO。对于MS COCO数据集上的所有任务设置，我们的OW-DETR始终优于最近推出的ORE。此外，OW-DETR在PASCAL VOC数据集上的增量对象检测中实现了最先进的性能。