【计算机视觉 | 目标检测】Objects365 :最新大规模高质量目标检测数据集

news2024/9/21 14:37:43

文章目录

  • 一、前言
  • 二、数据集的规模
  • 三、数据集的质量
  • 四、泛化能力
  • 五、结语

一、前言

2019 年 4 月,在北京举行的智源学者计划启动暨联合实验室发布会上,北京旷视科技有限公司与北京智源人工智能研究院共同发布了全球最大的目标检测数据集 : Objects365。

该数据集总共包含63万张图像,覆盖365个类别,高达1000万框数,具有规模大、质量高、泛化能力强的特点,远超Pascal VOC、COCO等传统数据集。

关于Objects365的论文在两年一度的计算机视觉顶会 ICCV 2019 中发表,同时在不久前结束的谷歌目标检测赛 Open Images Challenge 2019 – Object Detection Track 中排名前三的队伍都使用了 Objects365 作为额外数据集并取得 mAP 平均提升 2 至 3 个百分点。

Objects365是一个广泛用于目标检测和场景理解的大规模图像数据集。该数据集旨在提供丰富的视觉场景和多样的目标类别,以促进计算机视觉研究和算法的发展。

以下是Objects365数据集的主要特点和介绍:

  1. 视觉场景多样性:Objects365数据集包含了丰富多样的视觉场景,涵盖了室内和室外、城市和乡村、自然和人工等多种不同环境。这使得研究者可以在更广泛的场景下进行目标检测和场景理解的研究。
  2. 目标类别丰富性:数据集中包含了超过365个不同的目标类别,涵盖了人类、动物、交通工具、家具、食物等广泛的物体类别。这使得研究者可以探索更多种类的目标检测问题,并进行更全面的场景理解研究。
  3. 大规模数据集:Objects365数据集包含了超过200万个标注的图像样本,以及每个样本中目标的位置和类别标签。这样的大规模数据集可以支持大规模训练和深度学习算法的发展。
  4. 多标签和多实例标注:每个图像样本在标注时可以包含多个目标实例,并且每个目标实例可以具有多个类别标签。这种多标签和多实例标注的方式更贴近真实世界的情况,并提供了更复杂的目标检测和场景理解任务。
  5. 挑战性和变化性:Objects365数据集中的图像具有不同的拍摄条件、视角、光照和遮挡等变化因素。这使得数据集更具挑战性,可以用于评估和比较不同算法在复杂场景下的性能表现。

Objects365数据集可以用于目标检测、目标跟踪、场景理解、图像分割等计算机视觉任务的研究和评估。它为研究者提供了一个全面且多样化的数据集,促进了计算机视觉算法在实际场景中的应用和发展。

二、数据集的规模

数据集包括人、衣物、居室、浴室、厨房、办公、电器、交通、食物、水果、蔬菜、动物、运动、乐器14个大类,平均每一类有大约26个小类。

在这里插入图片描述

Objects365与其他数据集的比较:

如上图所示,比起COCO数据集,Objects365 具有 5 倍的图像数量、4 倍的类别数量、以及 10 倍以上标注框数量。

在数量上,唯一规模超过 Objects365 的 OpenImages 数据集具有标注精度不高及覆盖不全等明显缺点 (partially annotated),这对模型训练会带来严重影响。

比起 OpenImages,Objects365 具有每张图中所有物体都被标注的优势,这在 Boxes / img这列 (15.8 vs. 9.8) 得到体现:在类别数少 (365 vs. 500) 的情况下达到平均每张图包含 1.6 倍的标注框。

三、数据集的质量

在这里插入图片描述

如图所示,即便只考虑 Objects365 在 COCO 和 VOC 数据集中的 80 类和 20 类,在每张图像平均框数和类别数这两项指标上,Objects365 依然优于 COCO 和 VOC。

标注过程中减少了漏标,平均标注区域占比也超过 COCO 和 VOC。

在这里插入图片描述
在这里插入图片描述
物都有精准的标注框。

四、泛化能力

比起上述两项,鉴定一个数据集质量很重要的一项指标便是其泛化能力。

在这里插入图片描述
预训练数据集与 ImageNet 的比较

如图所示,比起传统预训练数据集 ImageNet,使用 Objects365 预训练可达到在训练时间缩短至六分之一 (90K 次迭代 vs. 540K 次迭代) 的情况下 mMAP 提升 2.7 个百分点(检测模型使用ResNet50 + FPN 作为 Backbone 的 Faster RCNN)。

另外,在其他计算机视觉任务,如行人检测、语义/场景分割等,中使用 Objects365 作为预训练数据集都可达到速度与精度的明显提升,详情可参照论文。

五、结语

随着近年来计算机视觉技术的飞速发展,算法对数据的要求也越来越高。不论是目标检测或语义分割等传统任务,又或是目标关系等新推出或还未推出的新任务,现有的数据集显然不能满足需求。

相对于算法,优质数据集往往能对模型效果带来更大的提升,无论是数据规模又或是标注质量,Objects365 都为计算机视觉技术树立了新的里程碑。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/547735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ChatGPT国内免费访问

背景 ChatGPT作为一种基于人工智能技术的自然语言处理工具,近期的热度直接沸腾🌋。 作为一个程序员,我也忍不住做了一个基于ChatGPT的网站,免费!免梯子!!国内可直接对话ChatGPT,也…

使用Python和Scrapy实现抓取网站数据

Scrapy是一个功能强大的网络爬虫框架,允许开发者轻松地抓取和解析网站内容,这篇文章主要为大家介绍了如何使用Python的Scrapy库进行网站数据抓取,需要的可以参考一下 在本文中,我们将介绍如何使用Python的Scrapy库进行网站数据抓…

00后才是内卷界的扛把子,被卷的头皮发麻....

人们都说00后躺平了,但是有一说一,该卷的还是卷。这不,前一周时间我们公司来了个00年的,工作没两年,跳槽到我们公司起薪20K,都快接近我了。后来听同事说才知道人家是个卷王,从早干到晚就差搬张床…

哈希表应用——布隆过滤器

注:布隆过滤是用来处理海量数据且允许存在误判 目录 布隆过滤器提出 布隆过滤器概念 布隆过滤器的理论知识 布隆过滤器的实现 布隆过滤器的删除 布隆过滤器优点 布隆过滤器缺陷 布隆过滤器的应用场景 哈希切分 布隆过滤器/哈希切分面试题 布隆过滤器提出 …

免交互Here Document

文章目录 免交互Here Document1 定义2 语法格式2.1 免交互方式实现对行数的统计2.2 通过 read 命令接收输入并打印2.3 通过 passwd 给用户设置密码2.4 支持变量替换2.5 多行注释 3 expect4 实例4.1 su切换用户4.2 嵌入执行模式4.3 实现ssh自动登录 免交互Here Document 1 定义…

Linux CentOS7中yum的使用更新yum源

我们在windows中我们是经常需要下载一些我们需要的软件,那么我们在Linux中理所当然也是需要的,那么我们如何安装软件呢?? Linux中软件安装的方法 1.源代码安装:源代码安装就是直接自己安装源代码,并且是自…

MyBatis动态推理参数类型

前言 思考一个问题,前面的#{}和${}的区别中,我们知道了#{},MyBatis底层调用的是preparestatement这种预编译的方式,这种方式sql语句会预先编程 select * from t_user where id ?这种形式,随后调用setInt(),setString…

【Java数据结构】——第十节(上).直接插入排序、希尔排序

作者简介:大家好,我是未央; 博客首页:未央.303 系列专栏:Java初阶数据结构 每日一句:人的一生,可以有所作为的时机只有一次,那就是现在!!! 文章目…

iptables 防火墙(一)

目录 一:iptables概述 二:netfilter/iptables关系 三:四表五链 1.规则表和规则链的作用 2. 四表 3.五链 ​4.规则链之间的匹配顺序 (1)主机型防火墙 (2)网络型防火墙 5.规则链内的匹配…

考研复试刷题第十四天: 表达式树 【二叉树,表达式运算】

1.概念解释: 表达式树其实就是叶节点装树,其他节点装符号的二叉树。 2.题目部分 这道题一开始没理解它的意思,以后写题一定要理解题意之后再动手。尤其是看清楚注意事项。 我一开始拿到题目,以为会有这种情况就是说一个节点之下会有一遍没…

面了一个测试工程师要求月薪26K,总感觉他背了很多面试题...

最近有朋友去华为面试,面试前后进行了20天左右,包含4轮电话面试、1轮笔试、1轮主管视频面试、1轮hr视频面试。 据他所说,80%的人都会栽在第一轮面试,要不是他面试前做足准备,估计都坚持不完后面几轮面试。 其实&…

OpenLayers多图层切换显示隐藏,支持多个Layer同时显示和隐藏,以百度地图和高德地图为例实现vue的Layer图层管理组件

前言 OpenLayers默认并没有提供图层管理组件,实现起来也很简单,评论区里有同学提到了这个,必须立刻满足,这就着手区实现一个简单又强大的地图图层管理组件。 那么本章就专门讲一下在vue中如何使用ElementUI的下拉框做一个简单的图层管理组件。 话不多说,让我们直接开始吧…

CentOS中vim的使用

vim是我们linux中很经典的一款编译器,所以使用vim是我们在学习过程中必不可少的,我们下面说一下vim的使用和安装 在某些服务器上刚开始不一定时有vim的,或者是vim的版本比较老一点,所以这时我们就可以安装一下vim sudo yum -y i…

最简单的 Java 项目——Hello world(小白快速入门指南)

文章目录 最简单的 Java 项目——Hello world步骤1:新建 Java 项目步骤2:编写最简单的 Hello World 程序步骤3:测试 附录1、.iml文件(iml是 intellij idea的工程配置文件,里面是当前project的一些配置信息。&#xff0…

免费开源PCB设计工具--KiCad安装,FreeCAD下载方法

中小企业在使用AD等工具时,会被律师函关照,下面介绍一款跨平台开源PCB设计工具KiCad 。本文仅介绍安装方法。 1. KiCad 简介 KiCad 一个跨平台的开源电子设计自动化套件。 KiCad EDA 是一款用于印刷电路板设计的开源自由软件,最初由法国人…

Shell编程——iptables防火墙

Shell编程——iptables防火墙 一、Linux包过滤防火墙1、Linux防火墙概述2、netfilter3、iptables4、netfilter/iptables关系 二、四表五链1、表链作用2、四表3、五链4、数据包到达防火墙时,规则表之间的优先顺序5、规则链之间的匹配顺序 三、iptables的安装四、ipta…

Swing简述

一、Swing概述 GUI(图形用户界面)为程序提供图形界面,它最初的设计目的是为程序员构建一个通用的GUI,使其能够在所有的平台上运行,但Java 1.0中基础类AWT(抽象窗口工具箱)并没有达到这个要求&a…

chatgpt赋能Python-python3_kafka

简介 Kafka是一个分布式的消息队列系统,由LinkedIn开源。它被设计成高性能、高吞吐量的消息传输系统,适用于分布式系统中的实时数据流处理。 Kafka的优势 在使用Kafka之前,我们需要考虑以下问题: 1.数据处理速度是否快速&…

黑客如何从零学起?

一、MYSQL5.7 MySQL是如今使用最多的数据库,是众多企业的首选,在未来几年都将被持续推动发展。 学习MySQL需注重实战操作,循序渐进地了解MySQL中的各项技术,这样才能在实际工作中的关键应用。 想进入网络安全行业, …

机器学习-2 线性回归

线性回归及最大熵模型 算法概述最小二乘法一元线性回归求解方程系数代价函数最小二乘法求解系数 多元线性回归举例 算法应用数据集介绍实现线性回归算法实现线性回归的算法流程最小二乘法的局限性 梯度下降法场景梯度下降算法(Gradient Descent)算法实例…