【arxiv】论文找 idea : 关于 OVD 的论文扫读(四)

news2025/1/11 6:49:56

文章目录

  • 一、DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment
  • 二、Prompt-Guided Transformers for End-to-End Open-Vocabulary Object Detection
  • 三、Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection
  • 四、P3OVD: Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detectio
  • 五、Open Vocabulary Object Detection with Proposal Mining and Prediction Equalization
  • 六、Open Vocabulary Object Detection with Pseudo Bounding-Box Labels

一、DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment

论文地址:

https://arxiv.org/pdf/2304.04514.pdf

在这里插入图片描述

本文介绍了DetCLIPv2,这是一个高效且可扩展的训练框架,结合大规模的图像-文本对来实现开放词汇的目标检测(OVD)。

与先前通常依赖于预训练的视觉-语言模型(例如CLIP)或通过伪标签过程利用图像-文本对的OVD框架不同,DetCLIPv2以端到端的方式直接学习来自大规模图像-文本对的细粒度词-区域对齐。

为了实现这一目标,我们采用区域建议和文本词之间的最大词-区域相似度来引导对比目标。为了在学习广泛概念的同时使模型具备定位能力,DetCLIPv2使用检测、定位和图像-文本对数据的混合监督,在统一的数据形式下进行训练。通过联合训练和采用低分辨率输入的图像-文本对,DetCLIPv2能够高效有效地利用图像-文本对数据:与DetCLIP相比,DetCLIPv2利用了13倍的图像-文本对,但训练时间相似,并且改善了性能。在预训练过程中使用了1300万个图像-文本对,DetCLIPv2展示了卓越的开放词汇检测性能,例如,DetCLIPv2在LVIS基准测试中使用Swin-T骨干网络实现了40.4%的零样本平均精度(AP),超过了之前的工作GLIP/GLIPv2/DetCLIP分别达到的14.4/11.4/4.5% AP,甚至大幅度超过了其全监督对应物。

在这里插入图片描述
在这里插入图片描述

我们在训练中使用了来自不同来源的多个数据集(表1)。具体而言,对于检测数据,我们使用了来自Objects365v2 数据集的一个采样子集(表示为O365),其中包含了66万张图像;对于grounding数据,我们使用了GoldG 数据集,其中移除了COCO 图像,这样可以在LVIS 上进行更公平的零样本评估。对于图像-文本配对数据,我们使用了两个版本的Conceptual Captions (CC)数据集,即CC3M 和CC12M(合称为CC15M)。

二、Prompt-Guided Transformers for End-to-End Open-Vocabulary Object Detection

论文地址:

https://arxiv.org/pdf/2303.14386.pdf

在这里插入图片描述

Prompt-OVD是一种高效且有效的开放词汇目标检测框架,它利用了来自CLIP的类别嵌入作为提示,引导Transformer解码器在基本类别和新颖类别中进行目标检测。此外,我们提出了新颖的基于RoI的掩蔽注意力和RoI剪枝技术,帮助充分利用基于Vision Transformer的CLIP的零样本分类能力,从而在最小的计算成本下提高检测性能。我们在OV-COCO和OV-LVIS数据集上的实验证明,Prompt-OVD的推理速度比第一个端到端的开放词汇检测方法(OV-DETR)快了21.2倍,同时在类似推理时间范围内的四个基于两阶段的方法中,也获得了更高的平均精度(AP)。代码将很快发布。

三、Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection

论文地址:

https://arxiv.org/pdf/2207.03482.pdf

在这里插入图片描述

现有的开放词汇目标检测器通常通过利用不同形式的弱监督来扩大其词汇大小,以帮助推广到推理阶段的新颖对象。在开放词汇检测(OVD)中使用的两种流行的弱监督形式包括预训练的CLIP模型和图像级别监督。我们注意到,这两种监督模式在目标检测任务中并没有得到最优对齐:CLIP是通过图像-文本对进行训练,缺乏对象的精确定位,而图像级别监督是使用启发式方法进行的,不能准确地指定局部对象区域。在这项工作中,我们提出通过执行基于对象的语言嵌入的对齐来解决这个问题。此外,我们使用伪标记过程仅使用图像级别监督进行视觉对齐,该过程提供高质量的对象候选提案,并帮助在训练过程中扩展词汇。我们通过一种新颖的权重传递函数将上述两种对象对齐策略建立起联系,以聚合它们的互补优势。本质上,所提出的模型旨在在OVD环境中减小对象和以图像为中心的表示之间的差距。在COCO基准测试中,我们提出的方法在新颖类别上达到了36.6 AP50,绝对优于之前最佳性能的8.2。对于LVIS,我们在罕见类别的遮罩AP上超过了最先进的ViLD模型5.0,整体上超过了3.4。

这项工作的主要贡献包括:

  1. 提出了基于区域的知识蒸馏方法,用于调整面向图像的CLIP嵌入,以适应局部区域,从而改善区域与语言嵌入之间的对齐。研究表明,通过获得良好对齐的表示,有助于改善文本驱动的OVD(对象-视觉描述)流程的整体性能。
  2. 为弱图像标签提供视觉基础:该方法利用预训练的多模态视觉转换器(ViTs)生成高质量的目标提案,以视觉方式对弱图像标签进行基础。该方法通过使用伪标签,即根据模型的预测为无标签数据分配标签,扩大了类别词汇表,并因此在新的目标类别上具有更好的泛化能力。
  3. 集成面向对象的对齐:尽管上述贡献主要集中在视觉领域,但作者提出了一种新的权重传递函数,通过在区域级别的视觉-语言映射上显式条件化(伪标记的)图像级别VL(视觉-语言)映射。这种集成方式使得该方法是首个在单一架构中同时整合对象中心的视觉和语言对齐的方法,用于OVD。
  4. 性能改进:研究人员进行了大量实验证明了所提方法的改进。在COCO和LVIS基准测试上,该方法相对于当前最先进的方法,在新颖类和罕见类上的平均精度(AP)分别提升了8.2和5.0个百分点。此外,对COCO、OpenImages和Objects365进行的跨数据集评估也表明,与现有方法相比,该方法具有一致的改进效果,展示了其泛化能力。

总结起来,这项工作的主要贡献包括基于区域的知识蒸馏、对弱图像标签的伪标记、对象中心对齐的集成以及在各种基准测试中相较于现有方法取得的OVD能力的改进。

四、P3OVD: Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detectio

论文地址:

https://arxiv.org/pdf/2211.00849.pdf

在这里插入图片描述
近期的一些研究工作受到视觉-语言方法(VLMs)在零样本分类中的成功启发,尝试将这一方法延伸到目标检测领域,利用预训练的VLMs的定位能力,在自我训练的方式下为未知类别生成伪标签。

然而,由于当前的VLMs通常是通过将句子嵌入与全局图像嵌入进行对齐的方式进行预训练的,它们的直接使用缺乏对目标实例的细粒度对齐,而这是目标检测的核心。

在本文中,我们提出了一种简单而有效的针对开放词汇检测(Open-Vocabulary Detection)的预训练-自适应伪标签范式(Pretrain-adaPt-Pseudo labeling paradigm,简称P3OVD),通过引入一个细粒度的视觉-文本提示自适应阶段,增强了当前自我训练范式的能力,实现了更强大的细粒度对齐。在自适应阶段中,我们通过使用可学习的文本提示解决一个辅助的密集像素级预测任务,使VLM能够获得细粒度的对齐。

此外,我们还提出了一个视觉提示模块,为视觉分支提供任务信息(即需要预测的类别),以更好地使预训练的VLM适应下游任务。实验证明,我们的方法在开放词汇目标检测方面实现了最先进的性能,例如在COCO数据集上未见类别上达到31.5%的mAP(平均精度均值)。

在这里插入图片描述
在这里插入图片描述

五、Open Vocabulary Object Detection with Proposal Mining and Prediction Equalization

论文地址:

https://arxiv.org/pdf/2206.11134.pdf

在这里插入图片描述
尽管从预训练的视觉-语言模型中学习对于开放词汇目标检测(OVD)来说是有效的,可以识别训练词汇之外的物体,但仍存在两个问题,即提案级别的视觉-语言对齐和基础-新颖类别预测平衡。在本文中,我们引入了一种新颖的开放词汇目标检测(MEDet)框架,以解决这些问题。具体而言,我们通过以粗到细和在线方式对继承的视觉-语义知识进行提案挖掘,从而实现了面向检测的提案级别特征对齐。同时,我们通过对离线类别进行调整,强化新颖类别预测的置信度,从而提高整体OVD性能。广泛的实验证明了MEDet方法相对于最先进方法的优越性。特别是,我们将MS COCO数据集上新颖类别的mAP从29.1%提升到32.6%,在LVIS数据集上获得了22.4%的掩膜AP,提高了1.4%。为了可复现性,我们匿名发布了代码。

在这里插入图片描述

六、Open Vocabulary Object Detection with Pseudo Bounding-Box Labels

论文地址:

https://arxiv.org/pdf/2111.09452.pdf

在这里插入图片描述

尽管目标检测取得了巨大的进展,但大多数现有方法仅适用于有限的目标类别集,这是因为在训练数据中需要进行边界框标注的人力工作量巨大。为了缓解这个问题,最近的开放词汇和零样本检测方法尝试在训练期间检测超出已见目标类别的新颖目标类别。它们通过在预定义的基础类别上进行训练来实现这一目标,以引导对新颖对象的泛化能力。然而,它们的潜力仍然受到可用于训练的基础类别集的限制。为了扩大基础类别集,我们提出了一种方法,可以从大规模图像-标题对中自动生成各种对象的伪边界框标注。我们的方法利用预训练的视觉-语言模型的定位能力生成伪边界框标签,然后直接将其用于训练目标检测器。实验证明,我们的方法在COCO新颖类别上的AP值比最先进的开放词汇检测器提高了8%,在PASCAL VOC上提高了6.3%,在Objects365上提高了2.3%,在LVIS上提高了2.8%。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/559493.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年京东618预售数据免费开放(往年618热门品类数据回顾)

2023年618京东平台整体的活动节奏分为五个时期: 第一时期为预售期:2023年5月23日晚8点-5月31日 第二时期为开门红:5月31日20点-6月3日 第三时期为场景期:6月4日-6月15日 第四时期为高潮期:6月15日20点-6月18日 第五…

前端HTML之基础扫盲

博主简介:想进大厂的打工人博主主页:xyk:所属专栏: JavaEE初阶 本篇文章将讲解HTML的基础,认识HTML的基本结构,学会使用常用的HTML标签,愿诸位喜欢 目录 文章目录 一、创建第一个HTML程序 二、HTML基本标签介绍 2.1 HT…

AAAI2024 The Thirty-Eighth Conference on Artificial Intelligence

Past Conferences For information about past AAAI Conferences, please consult the following pages. https://aaai.org/conference/aaai/ Future Conferences https://aaai.org/aaai-conference/ 2024 年 2 月在加拿大温哥华举行的第 38 届 AAAI 人工智能年度会议 The…

Linkage Mapper 中 Climate Linkage Mapper功能解析(含实例分析)

✅创作者:陈书予 🎉个人主页:陈书予的个人主页 🍁陈书予的个人社区,欢迎你的加入: 陈书予的社区 🌟专栏地址: Linkage Mapper解密数字世界链接 Climate Linkage Mapper的输出结果,应用于华盛顿州和英属哥伦比亚省之间跨境地区的白松树效果图 图片来源地址 文

解决weekofyear跨年问题

目录 前言跨年问题计算当年第几周前言 前段时间,做了一个日期维度表的需求,发现 计算当年第几周 有误,发现 Hive 中 weekofyear 函数存在跨年问题! 跨年问题 这一周算上一年还是下一年,取决于这一周的大多数日期(4天及以上)在哪一年。算在前一年,就是前一年的最后一…

K8s in Action 阅读笔记——【1】Introducing Kubernetes

K8s in Action 阅读笔记——【1】Introducing Kubernetes 多年前,大多数软件应用程序都是庞大的单体应用,运行在单个进程或少量进程分布在几台服务器上。这些传统系统今天仍然广泛存在。它们具有缓慢的发布周期,更新相对不频繁。在每个发布周…

【软考数据库案例分析】(全)

目录 1.1 案例分析概述 1.2 数据流图设计 1.3 概念结构设计 1.4 关系模式设计 1.5 SQL语言设计 1.5.1 创建表(create table) 1.5.2 修改表 (alter table) 1.5.3 删除表 (drop table) 1.5.4 索引 1.5.5 视图 1.5.6 查询语句格式 1.6.7 分组查询 1.5.8 其他操作 1.5…

图书系统小练习

1.对于任何系统,我们最先想到的就是普通用户和管理员,所以我们第一件事情就是创建一个包,里面包含 管理员 Admin(继承User) 普通用户 NormalUser(继承User) abstract类的 User 2.然后就是我们的菜单了 我们将管…

“云端”医学馆 | 平行云助力拜科打造医疗虚仿新模式

“云端”医学馆——拜科医疗虚仿新体验 当前,各个行业都正经历着一场深刻的数字化变革,医疗领域也没有例外,很多医疗厂商都在积极拥抱数字化技术的融入与应用。拜科数字生物科技(中国)有限公司正是医疗虚仿潮流中的领…

数字图像处理 使用C#进行图像处理八 Unsharp Masking

一、Unsharp Masking简述 Unsharp Masking是一种线性图像处理技术,用于锐化图像。清晰的细节被识别为两者之间的差异原始图像及其模糊版本。然后缩放这些细节, 并添加回原始图像: 增强图像 = 原始图像 + 数量 *(原始图像 - 模糊) 模糊步骤可以使用任何图像滤波方法,例如…

AI绘画设计师专用单词表;游戏业AI正在疯抢工作;使用AI工具翻译整本英文书;用GPT-4搞定调研报告 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『如果是皮克斯制作了哈利波特系列』又萌又暖还可爱,想 rua!! 皮克斯是美国顶级的电脑动画制作公司…

IMX6ULL裸机篇之DDR3实验总结

一. DDR实验 之前关于 IMX6ULL开发板,有关DDR实验。做了DDR内存芯片的初始化,校验与超频测试。 博文链接如下: IMX6ULL裸机篇之DDR3初始化_凌雪舞的博客-CSDN博客 IMX6ULL裸机篇之DDR3校验与超频测试_凌雪舞的博客-CSDN博客 经过了初始化…

修改linux中的grub和grub2.cfg文件重启服务器失败报错

文章目录 前言一、确认下root路径二、在引导界面进入grub 前言 修改了grub在服务器重启过程中发现系统起不来,且进入了紧急模式,相关报错如下: /dev/centos/root does not exist 总体原因就是找不到启动系统的文件位置导致的,解…

实时频谱-2.1实时频谱分析仪的工作方式

现代实时频谱分析仪 现代实时频谱分析仪可以采集分析仪输入频率范围内任何地方的传输频带或频宽。这一功能的核心是RF 下变频器,后面跟有一个宽带中间频率(IF)段。ADC数字化IF信号,系统以数字方式执行所有进一步的步骤。DSP算法执行所有信号调节和分析功…

如何提炼出优质的Prompt

基于大模型实现优质Prompt开发 1. 引言1.1 大规模预训练模型 2. Prompt开发2.1 Prompt基本定义:2.2 为什么优质Prompt才能生成优质的内容2.3 如何定义优质的Prompt 3. Prompt优化技巧3.1 迭代法3.1.1 创作评估3.1.2 基础创作3.1.3 多轮次交互 3.2 Trick法3.2.1 戴高…

如何使用SolVES 模型与多技术融合实现生态系统服务功能社会价值评估?

生态系统服务是人类从自然界中获得的直接或间接惠益,可分为供给服务、文化服务、调节服务和支持服务4类,对提升人类福祉具有重大意义,且被视为连接社会与生态系统的桥梁。自从启动千年生态系统评估项目(Millennium Ecosystem Asse…

明朝第一才子杨慎十首诗词

杨慎(1488~1559),公认为明朝三大才子之首。“相如赋,太白诗,东坡文,升庵科第。”前面的几个大家可能都猜得出来,司马相如的赋,李白的诗,苏东坡的文,而所谓的“升庵科第”…

ELK相关软件下载安装

一、Windows安装elasticsearch 1、安装JDK,至少1.8.0_73以上版本,验证:java -version 2、下载和解压缩Elasticsearch安装包,查看目录结构 下载地址:https://www.elastic.co/cn/downloads/elasticsearch 目录结构&am…

centos虚拟机中装openssl解决报错问题

第一个报错提示从这个命令开始: ./config --prefix/usr/local 详细信息如下: Can’t locate IPC/Cmd.pm in INC (INC contains: /home/smile/openssl-openssl-3.0.2/util/perl /usr/local/lib64/perl5 /usr/local/share/perl5 /usr/lib64/perl5/vendor_…

Unity + HybridCLR,近乎完美的新热更方案,从零开始(一)——Hello World

Unity HybridCLR,近乎完美的新热更方案,从零开始(一)——Hello World 前言一、HybridCLR是什么?二、使用步骤环境配置创建项目创建 HotUpdate 热更新模块安装和配置HybridCLR配置HybridCLR创建热更脚本加载热更新程序…