【开放域目标检测】一:Open-Vocabulary Object Detection Using Captions论文讲解

news2025/1/12 18:21:21

出发点是制定一种更加通用的目标检测问题,目的是借助于大量的image-caption数据来覆盖更多的object concept,使得object detection不再受限于带标注数据的少数类别,从而实现更加泛化的object detection,识别出更多novel的物体类别。

文章目录

  • 一、背景 & 动机
  • 二、Open-Vocabulary的简单引入
  • 三、Open-Vocabulary / zero-shot /weakly supervised之间的差异
  • 四、论文的核心
  • 五、论文流程
  • 六、模型结果对比

一、背景 & 动机

尽管深度神经网络在目标检测方面具有显著的准确性,但由于监管要求,它们的训练和拓展成本很高。特别是,学习更多的对象类别通常需要按比例增加更多的边界框注释。

例如Faster RCNN及其令人印象深刻的准确性,但训练这样的模型需要昂贵且耗时的人力监督,特别是,需要为每个ROI的对象类别手动标注至少数千个边界框。尽管之前很多机构已经完成了object detection上benchmark的建立,并且公开了这些有价值的数据集,例如Open Images和MSCOCO,这些数据集描述了一些有限的对象类别。但如果我们想将目标检测从600个类别扩展到60000个类别,那么我们需要100倍数据资源的标注,这使得把目标检测拓展到开放世界里变得遥不可及。

然而,人类通过自然监督学会毫不费力地识别和定位物体,即探索视觉世界和倾听他人描述情况。我们人类具有终生学习的能力,我们捕捉到视觉信息后,会将它们与口语联系起来,从而产生了丰富的视觉和语义词汇,这些词汇不仅可以用于检测物体,而且可以用来拓展模型的表达能力。尽管在对象周边绘制边界框不是人类自然学习的任务,但他们可以通过使用少量例子快速学习它,并将其快速泛化到所有类型的对象,而不需要每个对象类的示例,这就是Open Vocabulary Object Detection这一问题的motivation所在。

二、Open-Vocabulary的简单引入

Open-Vocabulary Object Detection (OVD)可以翻译为**“面向开放词汇下的目标检测”,**该任务和zero-shot object detection非常类似,核心思想都是在可见类(base class)的数据上进行训练,然后完成对不可见类(unseen/ target)数据的识别和检测。

弱监督和zero-shot学习技术已经被探索用于在较少监督的情况下将对象检测器扩展到更多类别,但它们还没有像监督模型那样成功和广泛应用。

在本文中,我们提出了一种新的目标检测问题的公式—Open-Vocabulary Object Detection,它比弱监督和zero-shot方法更通用、更实用、更有效。

我们提出了一种新的方法来训练对象检测器,使用限定对象类别的包围框注释,以及以显著较低的成本覆盖更多的图像—标题对。

我们表明,所提出的方法可以检测和定位在训练过程中没有提供边界框注释的对象,其精度明显高于zero-shot方法。

三、Open-Vocabulary / zero-shot /weakly supervised之间的差异

在这里插入图片描述
比较了一下三种setting,OVD和ZSD的区别应该就是在训练时,OVD可能用到target类的embedding信息,当然可能只说这些embedding信息包含在一堆caption中,谁也不知道里面有没有target信息,肯定不能给target类的bbox信息。而zero-shot完全没用到,weakly supervised就更直接了,直接利用子集来训练,从而强化泛化能力。

四、论文的核心

Open-Vocabulary工作的核心是利用image-caption数据来对视觉编码器进行pre-training。

由于caption中存在着丰富的用于图像区域等细粒度特征得描述单词和短语,能够覆盖更多的物体类别,因此经过大规模image-caption的预训练,Vision encoder便能够学习到更加泛化的视觉-语义对应空间。

因此训练好的vision encoder便可以用于替换faster rcnn中的encoder,提高检测模型的zero-shot检测能力。

五、论文流程

在这里插入图片描述
展开讨论预训练流程,整体的预训练流程有些类似于PixelBert,可参考如下:

  • 第一步:学习的视觉与文本的联系。通过训练一个现象变换层来把视觉空间的特征转换到文本空间,来充当一个V2L(vision to language)的模块,负责把视觉特征变换到文本空间去。输入的image-caption对首先各自经过各自模态的encoder,图像则是细分得到每个区域的特征,然后进一步经过V2L变换。之后,两个模态的特征concat起来之后送入多模态的transformer,得到的输出是视觉区域特征以及训练好的BERT,这样的模型具有泛化能力,而图像encoder是常用的resnet50。
  • 第二步:利用常规的目标检测框架:Faster RCNN,进行模型训练。为了保证延续性,backbone采用上一阶段中训练好的renet50,每个proposal的特征经过V2L变换之后又与类别标签的文本特征计算相似度来进行分类。事实上就是把回归问题转换成分类问题。
  • 第三步:把要检测的新类别加入文本的特征向量中做匹配。

一旦预训练结束后,trained vision encoder和trained V2L层,便可以替换至Faster RCNN框架中,通过在base数据集上进行finetune vision encoder,使其适配ROI区域特征,固定V2L层,保持其学习到的泛化的视觉-语义空间,即可进行target类别数据的检测。

总结来看,OVR-CNN通过在image-caption数据集上的预训练,学习到了丰富的文本词汇和图像区域表征,这样泛化的表征空间覆盖的物体类别,是远超过现阶段的带标注的目标检测数据集中物体的类别数。

整个模型框架跟Faster RCNN几乎完全一样,只是将最后的cls head换成了V2L,也就是换成了一个将visual feature投影到text embedding space的投影矩阵。

六、模型结果对比

在这里插入图片描述
可以发现,相较于原有的zero-shot的detection,模型的泛化性能显然是更强的。

根据上表,其实我们可以发现:

  • ZSD的检测效果差(map不高)

主要原因,我认为就是对于没有任何未知类的例子经过训练,OVD 应该是会有部分未知类通过image-caption dataset 训练可得知,因此从现有基类的特征其实很难推出新类。

  • WSD 定位效果不好

个人分析认为,他从没有注释的图片很难学习到特征,就很难像OVD那样通过image-caption那样,至少有图像和文本方向的特征,再通过基类的相关有注释框的图片学习,就能很好的定位。

  • mixed supervision

其实同样存在上面的缺陷,在基类上进行训练,然后使用弱监督学习转移到目标类,这些方法通常会在基类上降低性能相反,Visual grounding和Vision-language transformers 就是来帮助解决作者的设想,通过 Vision-language transformers 可以提取文本和图像的特征,Visual grounding 则就是根据这些特征进行定位。

同时我们也发现,利用这种用image-captioning pair模式训练出来的特征,其中每个类别的特征更加显著,如下图和zero-shot obejct detection的baseline的对比:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/390942.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据结构】顺序表:尾部操作我很行,随机访问我超快!!!

顺序表的模拟实现 文章目录顺序表的模拟实现1.线性表2.顺序表2.1概念结构2.2顺序表的模拟实现2.2.1顺序表的初始化2.2.2顺序表的销毁2.2.3尾插数据2.2.4尾删数据2.2.5头插数据2.2.6头删数据2.2.7中间插入数据2.2.8中间删除数据2.2.9打印顺序表2.2.10查找数据2.2.11复用Insert和…

Linux学习第二十一节-sudo提权

1.概念 管理员提前为用户设置执行权限许可; 被授权用户有权执行授权命令; 配置文件:/etc/sudoers; 命令格式:sudo 特权命令。 2.提权操作 ①方式一vim编辑配置文件后wq!:#vim /etc/sudo…

pnpm 基本详细使用(安装、卸载、使用)

一、简介 官网地址、GitHub地址、官方安装文档、官方卸载文档。 pnpm 全称 performant npm,意思为 高性能的 npm。pnpm 由 npm/yarn 衍生而来,解决了 npm/yarn 内部潜在的 bug,极大的优化了性能,扩展了使用场景。被誉为 最先进的…

【Docker】之docker-compose的介绍与命令的使用

🍁博主简介 🏅云计算领域优质创作者   🏅华为云开发者社区专家博主   🏅阿里云开发者社区专家博主 💊交流社区:运维交流社区 欢迎大家的加入! 文章目录docker-compose简介docker-compose基础…

Word文档的密码忘记了怎么办?

Word文档可以设置两种密码,文件的“限制密码”和“打开密码”,今天来分享一下忘记这两种密码可以如何处理。 如果忘记的是Word文档的“限制密码”,文档就无法编辑及更改了,菜单目录中的相关选项也都是灰色状态,无法点…

LeetCode-343. 整数拆分

目录递归动态规划题目来源 343. 整数拆分 递归 对于给定的一个整数 n,穷举它的每一种分解情况,然后对所有情况,求最大值。 并且我们知道,n 可以拆成如下情况: 通过上图,我们很容易得到一个递归表达式&am…

Verilog使用always块实现时序逻辑

这篇文章将讨论 verilog 中一个重要的结构---- always 块(always block)。verilog 中可以实现的数字电路主要分为两类----组合逻辑电路和时序逻辑电路。与组合逻辑电路相反,时序电路电路使用时钟并一定需要触发器等存储元件。因此&#xff0c…

用Chrome浏览器加入新必应候补名单,微软最终还是无法赢得一切(~ ̄▽ ̄)~

前言 ChatGPT最近太火了,国内厂商刚开始宣布跟进时,微软必应搜索直接接入了ChatGPT的能力,推出了新必应。此举给Google当头一棒,相比于传统搜索引擎,新必应的这种搜索方式,让用户更快速的获取到自己问题的…

02 C语言计算

02 C语言计算 0、编程练习题 #include<stdio.h>int main(int argc,char const *argv[]){int a,b;scanf("%d %d",&a,&b);printf("%d %d %d\n",a,b,a b);printf("%d - %d %d\n",a,b,a - b);printf("%d * %d %d\n",a…

C/C++每日一练(20230305)

目录 1. 整数分解 ☆ 2. 二叉树的最小深度 ★★ 3. 找x ★★ 1. 整数分解 输入一个正整数&#xff0c;将其按7进制位分解为各乘式的累加和。 示例 1&#xff1a; 输入&#xff1a;49 输出&#xff1a;497^2示例 2&#xff1a; 输入&#xff1a;720 输出&#xff1a;720…

Java分布式事务(三)

文章目录&#x1f525;MySQL事务-MySQL中锁的分类&#x1f525;MySQL事务-MySQL中的死锁问题&#x1f525;MySQL事务-MySQL中锁的分类 MySQL中锁的分类 从本质上讲&#xff0c;锁是一种协调多个进程或多个线程对某一资源的访问的机制&#xff0c;MySQL使用锁和MVCC机制实现了…

TIA博途中将硬件目录更改为中文的具体方法演示

TIA博途中将硬件目录更改为中文的具体方法演示 基本步骤可参考如下: 第一步: 第二步: 具体的操作演示: 如下图所示,在所示的目录中找到zh-chs文件夹,删除或修改文件夹的名称均可,这里建议大家修改文件夹的名称,防止以后需要恢复成英文目录, 如下

3DEXPERIENCE Works 成为了中科赛凌实现科技克隆环境的催化剂

您的企业是否想过实现设计数据的统筹管理&#xff0c;在设计上实现标准化&#xff0c;并把每位设计工程师串联起来协同办公?中科赛凌通过使用3DEXPERIENCE Works 实现了上述内容&#xff0c;一起来看本期案例分享吧!中科赛凌 通过其自主研发的单压缩机制冷技术实现零下190℃制…

Hbase 的复制

HBase默认采用异步复制的方式同步数据&#xff0c;即客户端执行完put之后&#xff0c;RegionServer的后台线程不断地推送HLog的Entry到Peer集群。这种方式一般能满足大多数场景的需求&#xff0c;例如跨集群数据备份、HBase集群间数据迁移等。但是HBase 1.x版本的复制功能&…

【群晖Drive私有云】利用cpolar内网穿透实现公网远程群晖Drive

文章目录前言1.群晖Synology Drive套件的安装1.1安装Synology Drive套件1.2 设置Synology Drive套件1.3 局域网内电脑测试和使用2.使用cpolar远程访问内网Synology Drive2.1 Cpolar云端设置2.2 Cpolar本地设置2.3 测试和使用3. 结语前言 群晖作为专业的数据存储中心&#xff0…

路径规划 | 图解动态A*(D*)算法(附ROS C++/Python/Matlab仿真)

目录0 专栏介绍1 什么是D*算法&#xff1f;2 D*算法核心概念一览3 D*算法流程图4 步步图解&#xff1a;算法实例5 算法仿真与实现5.1 ROS C实现5.2 Python实现0 专栏介绍 &#x1f525;附C/Python/Matlab全套代码&#x1f525;课程设计、毕业设计、创新竞赛必备&#xff01;详…

【工具】logseq 使用分享

Github: https://github.com/logseq/logseq 三月八日国际劳动妇女节&#xff0c;当然要分享一款好用的记事本软件。 这次介绍的笔记本软件叫 logseq。 logseq 与传统的笔记软件不同&#xff0c;传统的笔记软件有各种数据单元&#xff08;post、title、refs、category、tags、…

智慧灌区信息化解决方案

系统概述智慧灌区信息化解决方案主要对对灌区的水情、雨情、土壤墒情、气象等信息进行监测&#xff0c;对重点区域进行视频监控&#xff0c;同时对泵站、闸门进行远程控制&#xff0c;实现了信息的测量、统计、分析、控制、调度等功能。为灌区管理部门科学决策提供了依据&#…

VITA/PYTHON/LUPA families

Image Sensor Group Top to Bottom Portfolio in Industrial Imaging Machine Vision • Factory automation and inspection • Robotic vision • Biometrics High-End Surveillance • Aerial Surveillance • Intelligent Traffic Systems (ITS) • Mapping Medical and Sc…

【UML】软件需求说明书

目录&#x1f981; 故事的开端一. &#x1f981; 引言1.1编写目的1.2背景1.3定义1.4参考资料二. &#x1f981; 任务概述2.1目标2.2用户的特点2.3假定和约束三. &#x1f981; 需求规定3.1 功能性需求3.1.1系统用例图3.1.2用户登录用例3.1.3学员注册用例3.1.4 学员修改个人信息…