CVPR 2024最新论文分享┆YOLO-World:一种实时开放词汇目标检测方法

news2024/11/15 7:31:13

论文分享简介

本推文主要介绍了CVPR 2024上的一篇论文《YOLO-World: Real-Time Open-Vocabulary Object Detection》,论文的第一作者为Tianheng Cheng和Lin Song,该论文提出了一种开放词汇目标检测的新方法,名为YOLO-World。论文通过引入视觉-语言建模和大规模预训练解决了传统YOLO检测器在固定词汇检测中的局限性。论文提出的YOLO-World模型,通过Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)及区域-文本对比损失,增强了视觉与语言信息的交互,从而在零样本检测中表现出色。该方法在LVIS数据集上实现了35.4 AP,并保持了高效的推理速度,且在多个下游任务中表现优异。推文作者为李杨,审校为朱旺和陆新颖。

论文下载地址:

https://arxiv.org/pdf/2401.17270

开源代码地址:

https://github.com/AILab-CVC/YOLO-World

1. 会议介绍

CVPR(IEEE / CVF Computer Vision and Pattern Recognition Conference)是计算机视觉和模式识别领域最具影响力的国际顶级会议之一。该会议由IEEE计算机学会主办,每年都会吸引全球范围内的研究人员、学者和业界专家参与。自1983年创办以来,CVPR已经发展成为展示和分享计算机视觉、深度学习、图像处理等领域最新研究成果的重要平台。该会议论文具有极高的学术质量和影响力,其接受的论文经过严格的同行评审,并往往代表了该领域的前沿研究。CVPR也是中科院JCR一区TOP会议,CCF-A类会议,发表的论文影响因子极高。CVPR每年吸引大量投稿,其激烈的竞争环境使得入选的论文具有较高的学术影响力。

2. 背景与挑战

目标检测是计算机视觉中一个长期存在且基本的挑战,广泛应用于图像理解、机器人和自动驾驶等领域。尽管深度神经网络的发展已使目标检测取得了显著进展,但现有方法主要处理具有固定词汇的目标检测,即只能检测预定义和标注好的类别,难以应对开放场景中的多样化目标检测。

(1)开放词汇目标检测的挑战:当前的目标检测方法在处理开放场景时面临许多挑战,特别是在计算负担和实际设备部署上的困难。大多数方法在固定类别的检测上表现良好,但在识别新类别时存在局限,尤其是词汇多样性不足且训练数据有限的情况下,模型难以进行泛化。

(2)现有方法的局限性:尽管一些方法尝试通过视觉-语言模型解决开放词汇检测问题,但它们通常依赖于大型且复杂的检测器,难以适应实际应用中的高效部署需求。许多方法在训练小型检测器方面表现欠佳,特别是在大规模数据预训练下,这些方法在实际场景中难以实现实时性。

为解决上述问题,论文提出了YOLO-World,旨在提高YOLO检测器在开放词汇下的检测能力,并通过高效的预训练方案来提升检测器的泛化能力,特别是在大规模数据集下的预训练,使其在零样本检测任务中表现优异。

3. 方法

1 YOLO-World的整体架构

图1展示了YOLO-World的整体架构,其核心是通过视觉-语言跨模态融合实现开放词汇目标检测。YOLO-World基于YOLOv8,使用CLIP预训练的Transformer文本编码器将输入文本转化为文本嵌入,并结合YOLO检测器提取的多尺度图像特征。Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)将YOLO检测器生成的多尺度图像特征与文本编码器生成的文本嵌入结合,生成视觉和语言信息的联合特征表示。RepVL-PAN的设计允许在推理阶段将文本编码器移除,并将预计算的文本嵌入重新参数化为网络权重,以提高推理效率。模型在训练阶段采用区域-文本对比损失优化检测性能,而在推理阶段,YOLO-World使用预编码的离线词汇表,通过“提示-然后-检测”的策略实现高效推理和开词汇目标检测,从而在开放场景下表现出色。

4. 实验结果及可视化

1. 实验结果

表1展示了YOLO-World在LVIS数据集上的零样本检测性能,与其他最新的开词汇目标检测模型相比,YOLO-World表现出卓越的效率和准确性。不同规模的YOLO-World模型(S、M、L)在速度(FPS)和精度(AP)方面均超越了许多大型模型。例如,YOLO-World-L模型在LVIS数据集上达到了35.4的AP,并保持了52.0 FPS的推理速度,明显优于GLIP、Grounding DINO等模型的性能,尤其是在轻量化设计和高效推理上实现了突破。相比于依赖更大模型的DetCLIP,YOLO-World不仅在AP上接近(35.4 vs 34.4),而且推理速度快了约20倍。总的来看,表1的结果表明,YOLO-World在保持较高检测精度的同时,大幅提升了推理速度,尤其适用于实际部署中的实时应用。

1 YOLO-WorldLVIS数据上的零样本评估结果

表2展示了YOLO-World在COCO数据集上与其他YOLO系列模型的比较结果,分别对从头训练和零样本迁移的情况进行了评估。在从头训练的情况下,YOLO-World-L模型的性能达到53.3 AP,优于YOLOv8-L的52.9 AP,展示了其在COCO目标检测上的出色性能。在零样本迁移方面,YOLO-World在不经过额外微调的情况下,表现出了极强的泛化能力,YOLO-World-L模型通过预训练后达到44.4 AP,并通过微调进一步提升至53.3 AP。此外,YOLO-World在保持较高检测性能的同时,也兼顾了推理速度,其推理速度

接近其他高效的YOLO系列模型。表2的结果表明,YOLO-World不仅能够在固定词汇任务中取得良好的结果,还具备强大的零样本迁移能力,适用于广泛的应用场景。

2 YOLO-WorldCOCO数据集上的比较结果

2. 可视化

图2展示了YOLO-World在LVIS数据集上的零样本推理结果,模型能够精准检测出图片中的多种物体,证明了其强大的泛化能力。

2 YOLO-WorldLVIS数据集上的零样本推理结果

图3展示了YOLO-World在自定义词汇下的检测能力,模型能够根据用户定义的词汇进行细粒度的目标检测,显示出其灵活适应不同检测需求的能力。

3 YOLO-World在自定义词汇下的检测结果

图4体现了YOLO-World在指代目标检测中的表现,能够根据用户提供的描述性短语准确定位图片中的相关物体,表明其在跨模态理解方面的卓越性能。

4 YOLO-World在描述性短语下的检测结果

5. 总结

该论文提出了一种面向开放词汇目标检测的高效模型,名为YOLO-World。通过融合视觉和语言模态,提升了YOLO系列检测器在零样本场景中的泛化能力。YOLO-World采用了Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) 和区域-文本对比损失,成功实现了高效的视觉-语义交互,并在大规模数据集上进行了预训练,使其在LVIS和COCO等数据集上的零样本检测和迁移学习任务中表现出色。实验结果表明,YOLO-World不仅在检测精度上超越了许多现有方法,还显著提升了推理速度,具备实际应用中的实时性和部署优势。总体而言,YOLO-World为开放词汇目标检测提供了一种高效且可扩展的解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2111383.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

思科IP访问控制列表4

#网络安全技术实现# #任务四命名访问控制列表的控制4# #1配置计算机的IP 地址、子网掩码和网关 #2配置Router-A的主机名称及其接口IP地址 Router>enable Router#conf t Router(config)#hostname Router-A Router-A(config)#int g0/1 Router-A(config-if)#ip add 192.1…

如何在算家云搭建Flux.1(AI绘画)

一、Flux.1简介 Flux.1 是黑森林实验室发布的 AI 绘图模型,也可以说是 SD 的原班人马打造。其表现出的效果已经超越了 SD3、DALLE3(HD)和 Midjourney v6.0,具有强大的出图能力,相比 SD3 拥有更优秀的提示词理解能力,更强的文字生…

内网渗透—横向移动非约束委派约束委派

前言 今天依旧是横向移动的内容,委派主要分为三类非约束委派、约束委派、资源委派。今天主要讲前面两个内容,资源委派留到最后再讲。 实验环境 Web:192.168.145.137,192.168.22.28 DC:192.168.22.30 非约束委派 原…

6.科学计算模块Numpy(3)对ndarray数组的常用操作

引言 众所周知,numpy能作为python中最受欢迎的数据处理模块,脱离不了它最核心的部件——ndarray数组。那么,我们今天就来了解一下numpy中对ndarray的常用操作。 通过阅读本篇博客你可以: 1.掌握ndarray数组的切片和copy 2.学会…

wx.chooseMessageFile在pc端微信小程序失效解决方法

项目场景: 在uniapp上驱动微信开发者工具(下图) 在手机上和微信开发者工具中(图1)都可以上传成功, 打开pc端的微信小程序 在pc端打开小程序时点击上传没反应 问题描述 提示:这里描述项目中遇到…

css实现卡片右上角的状态

1、成品展示 2、html部分 <div class"itemBox"><div class"status">{{ statusList[item.status] }}</div> </div> 3、css部分 .itemBox {position: relative;overflow: hidden; } .status {height: 25px;line-height: 25px;bac…

ISO26262 功能安全对设计的要求以及评判安全等级的主要参数

ISO 26262 标准规定了道路车辆功能安全的相关要求&#xff0c;不同 ASIL 等级对控制器在设计、安全机制、验证确认和文档记录等方面有不同要求。高 ASIL 等级的控制器需满足更高的硬件和软件设计标准&#xff0c;具备更强的故障检测、诊断、容错和恢复能力&#xff0c;进行更严…

电脑回收站被清空,怎么恢复丢失数据?

回收站&#xff0c;这个看似不太起眼的电脑功能&#xff0c;实际上在关键时刻能够为我们挽回重大损失&#xff0c;帮助我们重新获得至关重要的文件和数据。对于经常与电脑打交道的朋友们来说&#xff0c;当某个文件被不小心删除时&#xff0c;回收站往往成为我们文件找回和恢复…

Vue 项目hash和history模式打包部署与服务器配置

你好&#xff0c;我是沐爸&#xff0c;欢迎点赞、收藏、评论和关注。 在开发 Vue 项目时&#xff0c;Vue Router 提供了两种模式来创建单页面应用&#xff08;SPA&#xff09;的 URL&#xff1a;hash 模式和 history 模式。 简单说下两者的主要区别&#xff1a; hash 模式下的…

2024 年高教社杯全国大学生数学建模竞赛B题—生产过程中的决策问题(讲解+代码+成品论文助攻)

2024数学建模国赛选题建议团队助攻资料-CSDN博客https://blog.csdn.net/qq_41489047/article/details/141925859本次国赛white学长团队选择的是比较擅长的BC题&#xff0c;选题建议和助攻资料可参见上面这篇博文&#xff0c;本篇博文主要介绍B题—生产过程中的决策问题&#xf…

反转二叉树(递归非递归解决)

给你一棵二叉树的根节点 root &#xff0c;翻转这棵二叉树&#xff0c;并返回其根节点。 示例 1&#xff1a; 输入&#xff1a;root [4,2,7,1,3,6,9] 输出&#xff1a;[4,7,2,9,6,3,1] 方法一&#xff1a;递归解法 递归是处理树结构问题的常用方式&#xff0c;二叉树的问题通…

【RLHF】浅谈ChatGPT 等大模型中的RLHF算法

本文收录于《深入浅出讲解自然语言处理》专栏,此专栏聚焦于自然语言处理领域的各大经典算法,将持续更新,欢迎大家订阅!​个人主页:有梦想的程序星空​个人介绍:小编是人工智能领域硕士,全栈工程师,深耕Flask后端开发、数据挖掘、NLP、Android开发、自动化等领域,有较丰…

生成tekton dashboard

我们在之前的&#xff08;安装和构建ci&#xff09;实践中&#xff0c;用到都是tekton cli&#xff0c;查看ci执行情况都是通过logs&#xff0c;不是很友好。 tekton dashboard提供了很多的ui界面。这里我们来安装并使用。 1. 创建dashboard.yaml apiVersion: v1 kind: Names…

[Deepin] Deepin 安装 MEGA

下载debian包 wget https://mega.nz/linux/repo/Debian_12/amd64/megasync-Debian_12_amd64.deb注意&#xff0c;因文章过时等原因&#xff0c;请去官网下载最新包 https://mega.io/zh-hans/desktop#download 模拟安装 下载后执行命令 udo apt install --simulate ./megasy…

2023 CCPC(秦皇岛)现场(第二届环球杯.第 2 阶段:秦皇岛)部分题解

所有题目链接&#xff1a;Dashboard - The 2023 CCPC (Qinhuangdao) Onsite (The 2nd Universal Cup. Stage 9: Qinhuangdao) - Codeforces 中文题面&#xff1a; contest-37054-zh.pdf (codeforces.com) G. Path 链接&#xff1a; Problem - G - Codeforces 中文题面 测试…

【Hadoop|HDFS篇】NameNode和SecondaryNameNode

1. NN和2NN的工作机制 思考&#xff1a;NameNode中的元数据是存储在哪里的&#xff1f; 首先&#xff0c;我们做个假设&#xff0c;如果存储在NameNode节点的磁盘中&#xff0c;因为经常需要进行随机访 问&#xff0c;还有响应客户请求&#xff0c;必然是效率过低。因此&…

Java面试题——第五篇(Java基础)

1. main方法为什么是静态的&#xff0c;能不能改为非静态的 由于JVM在运行Java应用程序的时候&#xff0c;首先会调用main方法&#xff0c;调用时不实例化这个类的对象&#xff0c;而是通过类名直接调用因此需要限制为public static。 不能改为非静态&#xff0c;main方法必须声…

JavaWeb - Mybatis - 基础操作

删除Delete 接口方法&#xff1a; Mapper public interface EmpMapper { //Delete("delete from emp where id 17") //public void delete(); //以上delete操作的SQL语句中的id值写成固定的17&#xff0c;就表示只能删除id17的用户数据 //SQL语句中的id值不能写成…

美妆行业的画册电子版如何制作?

美妆行业的画册电子版制作&#xff0c;首先要确立画册的主题和内容。针对美妆行业特点&#xff0c;可以展示产品系列、护肤理念、品牌故事、用户评价等内容。同时&#xff0c;为了吸引目标受众&#xff0c;需要注重画面美观和时尚感&#xff0c;突出产品特点和品牌形象。 在选择…

如何快速理解网络编程

目录 前言 一、网络编程的概念 二、TCP/IP架构体系的各层作用 三、网络通信中常用的专业术语 四、IP地址的分类和划分 前言 在一个主机中&#xff0c;我们能进行进程间通信&#xff0c;但是随这时代发展&#xff0c;我们不可能只是在单独的一个主机中传输数据&#xff0c;&…