【CLIP系列】4：目标检测（ViLD、GLIP）

news2026/2/11 7:40:43

1 ViLD

OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION

从标题就能看出来，作者是把CLIP模型当成一个Teacher，去蒸馏他自己的网络，从而能Zero Shot去做目标检测。

现在的目标检测数据集标注的类别都很有限，这些有限的类别叫做base categories，如下图中的蓝框标注的东西都是玩具，在这种数据集上去训练一个目标检测器就只能检测出玩具，得不到更细致的检测结果。我们能不能在现有数据集的基础之上，不去额外标注这些黄鸭子或者绿鳄鱼，但模型能直接做到检测这些物体的能力，换句话说，就是模型应该有用能检测这种novel categories新类别的能力。

研究动机

主体的方法如下图所示，

a是Base方法，实际上是一个Mask RCNN，是一个两阶段的分类器，第一阶段会出一些region proposal，也就是图中的输入 N proposals；第二阶段就是把N个proposals经过Detection Head，得到N个region embeddings，然后再经过一些分类头，最后输出这些Bounding Box到底是什么类，这样就完成了目标检测。目标函数一般包括两个：定位和分类。
b是ViLD的text部分，N个proposals经过检测头，经过投射和正则等操作之后，得到N个region embeddings。接下来我们要去算文本的embedding，就是把物体的类别拿过来给一些prompt，生成一个句子，经过文本编码器即可。ViLD-text和Base方法一样，也是在这些数据集上做有监督的训练，而且是在基础类上训练。在这个阶段，ViLD-text只是把图像的特征和文本的特征联系到一起，Zero Shot能力还有待加强。需要注意的是，不在基础类里的其他类别，都归到Background背景类。背景类的学习非常关键，专门有一个背景的embedding，需要在模型训练的时候去把它学好。
c是ViLD的image部分，对于得到的M个bounding box，可以把它们抠出来并resize成特定大小例如224*224，这样就可以输入到CLIP预训练好的图像编码器，得到图像的特征，当做Teacher。Student网络就是常用的目标检测的框架，M个proposals经过一些层得到的图像特征，我们希望它们和CLIP的特征尽可能地接近，所以直接用一个简单的L1-Loss去做蒸馏就可以了。这里的监督信号不再是人工标注，而是CLIP的图像编码，所以不在受到基础类的限制了。ViLD-image通过利用CLIP模型，大大地加强了Open Vocabulary的能力。这里取M个而不是N个proposals，主要是CLIP抽取特征太慢了，因此需要减少proposal的数量来加速训练。
d是ViLD-text和ViLD-image合体，右边蒸馏部分只有在训练的时候用到，测试的时候没有用到。

模型总览图如下图所示：

模型总览图

2 GLIP

2.1 前言

目标检测和分割一样，标注数据集都很贵，对于边边角角的类和层出不穷的新类，我们没有办法训练一个模型把这些都检测的很好。我们只能依赖于Open-vocabulary的目标检测模型，来把这些corner case都处理的很好。

而如果想训练一个很强的Open-vocabulary的目标检测模型，就只能像CLIP一样，可以利用上亿规模的的数据集，而且还要把图片-文本对应关系和定位都学的很好。那么重点就是使用图片-文本对数据集的高效使用，因为很好收集。

Vision Language任务（图片-文本多模态任务）里有一类定位任务Vision grounding，主要就是根据文本定位出图片中对应的物体（短语定位phrase grounding），这与目标检测任务非常类似，都是去图中找目标物体的位置。

GLIP 的文章的出发点，就是将检测问题转换为短语定位（phrase grounding）问题，这样GLIP 模型就统一了目标检测和定位两个任务，可以使用更多的数据集。再配合伪标签的技术来扩增数据，使得训练的数据量达到了前所未有的规模（3M人工标注数据和24M图文对数据）。最后训练出来的模型GLIP-L，直接以 zero-shot 的方式在COCO 和LVIS 上进行推理，mAP分别达到了 49.8 和26.9，可见其性能非常的强。

GLIP = Detection + Phrase Grounding：给定一张图片和一个文本，根据这个文本把物体找出来。

效果展示：

效果图

2.2 损失计算

目标检测的损失函数由分类损失和定位损失组成。对于目标检测和Vision grounding而言，定位部分都差不多，二者的区别主要在于如何计算分类loss。因为 detection的标签是one-hot的类别单词，而Vision grounding的标签是一个句子。所以需要把二者的分类loss统一到一个框架下面，也就是：L = L_cls + L_loc.

detection 分类损失计算公式：

detection

vision grounding分类损失计算：

grounding

2.3 模型框架

模型总览图如下图所示，由于所有数据集都是有标注的，所以模型是以有监督的方式进行训练。计算得到文本特征与图像特征的相似度之后，直接与 GT box计算对齐损失alignment loss即可（和ViLD-text分支一样）。这样就完成了文本和图像的特征融合，就可以进行zero-shot检测了。而定位损失也是直接与GT box计算L1 损失。

模型中间的融合层（Deep Fusion）和LSeg的做法一样，都是为了使图像特征和文本特征进一步交互，使最终的图像-文本联合特征空间（joined embedding space）训练得更好（相似的embedding拉近，不相似的拉远），图像特征和文本特征被训练的更强更有关联性，这样后面计算相似度矩阵的效果肯定就更好。

Deep Fusion层实际上是Cross Attention，也可以用其他的网络结构替代。

总览图