【开放域目标检测】一：Open-Vocabulary Object Detection Using Captions论文讲解

news2026/2/10 7:12:52

出发点是制定一种更加通用的目标检测问题，目的是借助于大量的image-caption数据来覆盖更多的object concept，使得object detection不再受限于带标注数据的少数类别，从而实现更加泛化的object detection，识别出更多novel的物体类别。

文章目录

一、背景 & 动机
二、Open-Vocabulary的简单引入
三、Open-Vocabulary / zero-shot /weakly supervised之间的差异
四、论文的核心
五、论文流程
六、模型结果对比

一、背景 & 动机

尽管深度神经网络在目标检测方面具有显著的准确性，但由于监管要求，它们的训练和拓展成本很高。特别是，学习更多的对象类别通常需要按比例增加更多的边界框注释。

例如Faster RCNN及其令人印象深刻的准确性，但训练这样的模型需要昂贵且耗时的人力监督，特别是，需要为每个ROI的对象类别手动标注至少数千个边界框。尽管之前很多机构已经完成了object detection上benchmark的建立，并且公开了这些有价值的数据集，例如Open Images和MSCOCO，这些数据集描述了一些有限的对象类别。但如果我们想将目标检测从600个类别扩展到60000个类别，那么我们需要100倍数据资源的标注，这使得把目标检测拓展到开放世界里变得遥不可及。

然而，人类通过自然监督学会毫不费力地识别和定位物体，即探索视觉世界和倾听他人描述情况。我们人类具有终生学习的能力，我们捕捉到视觉信息后，会将它们与口语联系起来，从而产生了丰富的视觉和语义词汇，这些词汇不仅可以用于检测物体，而且可以用来拓展模型的表达能力。尽管在对象周边绘制边界框不是人类自然学习的任务，但他们可以通过使用少量例子快速学习它，并将其快速泛化到所有类型的对象，而不需要每个对象类的示例，这就是Open Vocabulary Object Detection这一问题的motivation所在。

二、Open-Vocabulary的简单引入

Open-Vocabulary Object Detection (OVD)可以翻译为**“面向开放词汇下的目标检测”，**该任务和zero-shot object detection非常类似，核心思想都是在可见类（base class）的数据上进行训练，然后完成对不可见类（unseen/ target）数据的识别和检测。

弱监督和zero-shot学习技术已经被探索用于在较少监督的情况下将对象检测器扩展到更多类别，但它们还没有像监督模型那样成功和广泛应用。

在本文中，我们提出了一种新的目标检测问题的公式—Open-Vocabulary Object Detection，它比弱监督和zero-shot方法更通用、更实用、更有效。

我们提出了一种新的方法来训练对象检测器，使用限定对象类别的包围框注释，以及以显著较低的成本覆盖更多的图像—标题对。

我们表明，所提出的方法可以检测和定位在训练过程中没有提供边界框注释的对象，其精度明显高于zero-shot方法。

三、Open-Vocabulary / zero-shot /weakly supervised之间的差异

在这里插入图片描述
比较了一下三种setting，OVD和ZSD的区别应该就是在训练时，OVD可能用到target类的embedding信息，当然可能只说这些embedding信息包含在一堆caption中，谁也不知道里面有没有target信息，肯定不能给target类的bbox信息。而zero-shot完全没用到，weakly supervised就更直接了，直接利用子集来训练，从而强化泛化能力。

四、论文的核心

Open-Vocabulary工作的核心是利用image-caption数据来对视觉编码器进行pre-training。

由于caption中存在着丰富的用于图像区域等细粒度特征得描述单词和短语，能够覆盖更多的物体类别，因此经过大规模image-caption的预训练，Vision encoder便能够学习到更加泛化的视觉-语义对应空间。

因此训练好的vision encoder便可以用于替换faster rcnn中的encoder，提高检测模型的zero-shot检测能力。

五、论文流程

在这里插入图片描述
展开讨论预训练流程，整体的预训练流程有些类似于PixelBert，可参考如下：

第一步：学习的视觉与文本的联系。通过训练一个现象变换层来把视觉空间的特征转换到文本空间，来充当一个V2L（vision to language）的模块，负责把视觉特征变换到文本空间去。输入的image-caption对首先各自经过各自模态的encoder，图像则是细分得到每个区域的特征，然后进一步经过V2L变换。之后，两个模态的特征concat起来之后送入多模态的transformer，得到的输出是视觉区域特征以及训练好的BERT，这样的模型具有泛化能力，而图像encoder是常用的resnet50。
第二步：利用常规的目标检测框架：Faster RCNN，进行模型训练。为了保证延续性，backbone采用上一阶段中训练好的renet50，每个proposal的特征经过V2L变换之后又与类别标签的文本特征计算相似度来进行分类。事实上就是把回归问题转换成分类问题。
第三步：把要检测的新类别加入文本的特征向量中做匹配。

一旦预训练结束后，trained vision encoder和trained V2L层，便可以替换至Faster RCNN框架中，通过在base数据集上进行finetune vision encoder,使其适配ROI区域特征，固定V2L层，保持其学习到的泛化的视觉-语义空间，即可进行target类别数据的检测。

总结来看，OVR-CNN通过在image-caption数据集上的预训练，学习到了丰富的文本词汇和图像区域表征，这样泛化的表征空间覆盖的物体类别，是远超过现阶段的带标注的目标检测数据集中物体的类别数。

整个模型框架跟Faster RCNN几乎完全一样，只是将最后的cls head换成了V2L，也就是换成了一个将visual feature投影到text embedding space的投影矩阵。

六、模型结果对比

在这里插入图片描述
可以发现，相较于原有的zero-shot的detection，模型的泛化性能显然是更强的。

根据上表，其实我们可以发现：

ZSD的检测效果差（map不高）

主要原因，我认为就是对于没有任何未知类的例子经过训练，OVD 应该是会有部分未知类通过image-caption dataset 训练可得知，因此从现有基类的特征其实很难推出新类。

WSD 定位效果不好

个人分析认为，他从没有注释的图片很难学习到特征，就很难像OVD那样通过image-caption那样，至少有图像和文本方向的特征，再通过基类的相关有注释框的图片学习，就能很好的定位。

mixed supervision

其实同样存在上面的缺陷，在基类上进行训练，然后使用弱监督学习转移到目标类，这些方法通常会在基类上降低性能相反，Visual grounding和Vision-language transformers 就是来帮助解决作者的设想，通过 Vision-language transformers 可以提取文本和图像的特征，Visual grounding 则就是根据这些特征进行定位。

同时我们也发现，利用这种用image-captioning pair模式训练出来的特征，其中每个类别的特征更加显著，如下图和zero-shot obejct detection的baseline的对比：

在这里插入图片描述