YOLO系列探测器已成为高效实用的工具。然而,它们对预定义和训练的对象类别的依赖限制了它们在开放场景中的适用性。针对这一限制,我们引入了YOLO-World,这是一种创新方法,通过视觉语言建模和大规模数据集的预训练,增强了YOLO的开放词汇检测功能。具体来说,我们提出了一个新的Re-parameterizable视觉语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,以促进视觉和语言信息之间的交互。我们的方法擅长以零拍摄的方式检测各种物体,效率很高。在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4 AP和52.0 FPS,在准确性和速度方面优于许多最先进的方法。此外,经过微调的YOLO-World在多个下游任务上取得了出色的性能,包括对象检测和开放实例词汇分割。
检测模式的比较。(a)传统的对象检测器:这些对象检测器只能检测由训练数据集预定义的固定词汇表内的对象,例如,COCO数据集的80个类别。固定的词汇限制了开放场景的扩展。(b)以往的开放词汇检测器:以往的方法倾向于开发大而重的检测器,用于直观地具有很强的能力的开放词汇检测。此外,这些检测器同时对图像和文本进行编码作为用于预测的输入,这对于实际应用来说是耗时的。(c)YOLO-World:我们展示了轻量级探测器强大的开放式词汇表现,例如:YOLO探测器,这对于实际应用具有重要意义。本文提出了一种基于提示-检测的推理模式,用户根据需要生成一系列的提示信息,并将这些提示信息编码成离线词汇表,而不使用在线词汇表。然后,可以将其重新参数化为模型权重,以便进行部署和进一步加速。