YOLO-World——S（cvpr2024）

news2025/7/7 2:51:34

文章目录

Abstract
- 成果
Method
- Pre-training Formulation: Region-Text Pairs
- Model Architecture
- - YOLO Detector
  - Text Encoder
  - Text Contrastive Head
  - Training with Online Vocabulary
  - Inference with Offline Vocabulary
- Re-parameterizable Vision-Language PAN
- - Text-guided CSPLayer
  - Image-Pooling Attention
- Pre-training Schemes
- - Learning from Region-Text Contrastive Loss
  - Pseudo Labeling with Image-Text Data
Experiment

原文
代码

Abstract

YOLO系列检测器对预定义和训练对象类别的依赖限制了它们在开放场景中的适用性。（简单来说就是一旦对象类别被定义和标记，经过训练的检测器只能检测到那些特定的类别）为了解决这个限制，作者提出了YOLO-World——通过视觉语言建模和大规模数据集的预训练，增强了YOLO的开放词汇检测能力。
具体来说，作者提出了一种新的可重参数化视觉-语言路径聚合网络(RepVL-PAN)和区域-文本对比损失，以促进视觉和语言信息之间的交互。

成果

在具有挑战性的LVIS数据集上，YOLO-World在V100上实现了35.4 AP和52.0 FPS，在精度和速度方面都优于许多最先进的方法。此外，微调YOLO-World在目标检测和开放词汇实例分割等几个下游任务上取得了显著的性能

Method

Pre-training Formulation: Region-Text Pairs

以往的目标检测方法实例注释是Ω={Bi,ci}，由边界框{Bi}和类别标签{ci}组成。本文中，作者将实例注释重新表述为区域-文本对Ω= {Bi,ti}，ti是区域Bi的对应文本，可以是类别名称、名词短语或对象描述。此外，YOLO-World同时采用图像I和文本T作为输入，输出预测框{bk}和对应的目标嵌入{ek} (ek∈RD)。

Model Architecture

它由一个YOLO检测器、一个文本编码器和一个可重新参数化的视觉语言路径聚合网络(RepVL-PAN)组成。
文本编码器将输入文本转换为文本嵌入，图像编码器（也就是YOLO Backbone）从输入图像中提取多尺度特征，然后利用RepVL-PAN通过利用图像特征和文本嵌入之间的跨模态融合来增强文本和图像的表示，最后YOLO-World预测回归的边界框和目标嵌入，以匹配输入文本中出现的类别或名词。

YOLO Detector

主要是基于YOLOv8开发的，它包含了一个Darknet骨架作为图像编码器，一个用于多尺度特征金字塔的路径聚合网络(PAN)，以及一个用于边界盒回归和对象嵌入的头部

Text Encoder

给定文本T，采用CLIP预训练的Trans- former文本编码器提取相应的文本嵌入W = TextEncoder(T)∈RC×D，其中C是名词的数量，D是嵌入维度。
当输入文本为标题或引用表达式时，采用简单的n-gram算法提取名词短语，然后将其输入文本编码器。

Text Contrastive Head

作者采用解耦头部和两个3×3卷积来回归边界框{bk}Kk=1和对象嵌入{ek}K k =1，其中K表示对象的数量，提出了一个文本对比头来获得对象-文本相似度sk,j
将文本嵌入ek与分类器权重wj之间的相似度定义为它们的L2范数的乘积，并加入了具有可学习缩放因子α和移位因子β的仿射变换
（L2范数和仿射变换对于稳定区域文本训练都很重要）

Training with Online Vocabulary

在训练过程中，作者为每个包含4张图像的Mosaic样本构建一个在线词汇T。具体来说，对拼接图像中涉及的所有正面名词进行抽样，并从相应的数据集中随机抽样一些负面名词，每个Mosaic样本的词汇表最多包含M个名词，M被默认设置为80

Inference with Offline Vocabulary

在推理阶段，作者提出了一种基于离线词汇的“提示-然后检测”策略，以提高推理效率。如图3所示，用户可以定义一系列自定义提示，其中可能包括标题或类别。然后，利用文本编码器对这些提示进行编码，并获得离线词汇嵌入。离线词汇表允许避免对每个输入进行计算，并提供根据需要调整词汇表的灵活性。

Re-parameterizable Vision-Language PAN

提出的RepVL-PAN采用文本引导CSPLayer(T-CSPLayer)将语言信息注入图像特征，并采用图像池化注意力(I-Pooling Attention)增强图像感知文本嵌入

本文提出的RepVL-PAN遵循文献自顶向下和自底向上的路径，通过多尺度图像特征{C3,C4,C5}建立特征金字塔{P3,P4,P5}。此外，本文还提出了文本引导的CSP层(T-CSPLayer)和图像池化注意力(I-Pooling Attention)，以进一步增强图像特征和文本特征之间的交互，从而提高开放词汇表的视觉语义表示能力。在推理过程中，离线词汇嵌入可以重新参数化为卷积层或线性层的权重，以便部署。

Text-guided CSPLayer

扩展了CSPLayer，将文本引导纳入多尺度图像特征，形成文本引导CSPLayer
具体来说，给定文本嵌入W和图像特征Xl∈RH×W×D (l∈{3,4,5})，作者采用最后一个黑瓶颈块后的max-sigmoid关注将文本特征聚合为图像特征:
Xl '与跨阶段特征连接作为输出， δ表示sigmoid函数

Image-Pooling Attention

为了利用图像感知信息增强文本嵌入，作者通过提出图像池关注聚合图像特征来更新文本嵌入。
作者不是直接在图像特征上使用交叉关注，而是利用多尺度特征上的最大池化来获得3 × 3区域，从而得到总共27个tokenX ~ ∈R27×D

Pre-training Schemes

Learning from Region-Text Contrastive Loss

给定马赛克样本I和文本T,YOLO-World输出K个对象预测{ Bk,sk} Kk=1，以及注释Ω= { Bi,ti} Ni=1。遵循YOLOv8，并利用任务对齐标签分配将预测与地面真实性注释匹配，并为每个正预测分配一个文本索引作为分类标签。基于这个词汇表，我们通过对象-文本(区域-文本)相似性和对象-文本分配之间的交叉熵，构建了区域-文本对的区域-文本对比损失Lcon。此外，我们采用IoU损失和分布式焦点损失进行边界盒回归，并将总训练损失定义为

λI为指示因子，当输入图像I来自检测或接地数据时设为1，当输入图像I来自图像-文本数据时设为0

Pseudo Labeling with Image-Text Data

作者提出了一种自动标记方法来生成区域文本对，而不是直接使用图像文本对进行预训练
包含三个步骤：
(1)名词短语提取:首先利用n-gram算法从文本中提取名词短语
(2)伪标注:采用预训练的开放词汇检测器，为每张图像的给定名词短语生成伪框，从而提供粗糙的区域-文本对
(3)过滤:使用预训练的CLIP来评估图像-文本对和区域-文本对的相关性，并过滤低相关性的伪注释和图像