MS COCO数据集介绍

news2025/1/19 10:22:33

MS COCO数据集介绍

MS COCO全称是Microsoft Common Objects in Context,是由微软开发维护的大型图像数据集,包括不同检测任务:

  • Object Detection([主要处理人、车、大象等])

在这里插入图片描述

  • DensePose(姿态密度检测)

在这里插入图片描述

  • Keypoints(关键点检测)

在这里插入图片描述

  • Stuff([主要处理草、墙、天等])

在这里插入图片描述

  • Panoptic(场景分割)

在这里插入图片描述

  • Captions(字幕标注)

在这里插入图片描述

MS COCO数据格式

MS COCO使用JSON存储标注数据
所有MS COCO的标注数据第一层都至少包含以下四个对象,不同检测任务的annotations不同且部分检测任务还包含一个categories(JSON第一层即包含五个对象)

{
	"info": info, 
	"images": [image], 
	"annotations": [annotation], 
	"licenses": [license],
}

这里以关键点检测的验证集为例,查看它的json内容

import json
json_path = r"D:\Python\Jupyter\pytorch\yolov8\MS COCO\annotations\person_keypoints_val2017.json"
json_labels = json.load(open(json_path, "r"))

第一层结构如下,包含infolicensesimagesannotationscategories,共五个对象

在这里插入图片描述

info保存数据集的信息

在这里插入图片描述

licenses保存数据集的许可协议

在这里插入图片描述

images保存每张图片的信息,如图片文件名、宽、高等信息

在这里插入图片描述

annotations保存标注信息:

参数参数含义
segmentation保存polygon数据
num_keypoints表示给定对象的标记关键点数量(对象集合或小对象的num_keypoints值为0)
area保存目标面积
iscrowd值为0表示单个对象,值为1表示对象集合
keypoints是一个长度为3k的数组,其中k是定义的关键点类别总数(在MS COCO中k=17)。每个关键点按顺序依次存储横坐标x,纵坐标y和关键点可见性v。v=0:未标记(此情况下,x=y=0),v=1:标记但不可见,v=2:标记且可见。如果关键点位于上面segmentation的框内,则该关键点被视为可见
image_id表示MS COCO数据集的图片id
bbox保存边界框(bounding box)左上角点的横纵坐标、宽度和高度
category_id表示类别id
id表示label的id,也就是每一个label(人、等车实例对应的bbox)都有一个和它一一对应的id。一个image_id可以对应多个id(一张图片上有多个label),而一个id只能对应一个image_id

在这里插入图片描述

categories保存类别信息:

在这里插入图片描述

关键点检测的JSON结构如下:

{
	"info" : {
		"year" : int, 
		"version" : str, 
		"description" : str, 
		"contributor" : str, 
		"url" : str, 
		"date_created" : datetime,
	},
	"licenses" : {
        "id" : int, 
        "name" : str, 
        "url" : str,
    },
	"images" : {
        "id" : int, 
        "width" : int, 
        "height" : int, 
        "file_name" : str, 
        "license" : int, 
        "flickr_url" : str, 
        "coco_url" : str, 
        "date_captured" : datetime,
    }, 
	"annotations" : {
		"segmentation" : RLE or [polygon],
		"num_keypoints" : int,
		"area" : float,
		"iscrowd" : 0 or 1,
		"keypoints" : [x1,y1,v1,...],
		"image_id" : int,
		"bbox" : [x,y,width,height],
		"category_id" : int,
		"id" : int,
	}, 
	"categories" : {
		"supercategory" : str,
		"id" : int,
		"name" : str,
        "keypoints" : [str], 
        "skeleton" : [edge], 
	},
}

参考资料

  1. https://cocodataset.org/#format-data
  2. MS COCO数据集介绍以及pycocotools简单使用
  3. MSCOCO api详解 —— Keypoints
  4. 目标检测数据集MSCOCO详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/540008.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

12个超好用的免费在线工具,大大提高生产力,建议收藏!

好的工具,能够帮助我们更高效地完成工作,节省时间和精力; 节省出更多的摸鱼时间! 本文将介绍12款绝佳的免费效率工具,这些工具可以让你事半功倍,提高工作效率。无论你是一名程序员、设计师、学生还是白领,…

超级秘密文件夹忘记密码的解决办法

超级秘密文件夹是一款非常特殊的文件夹加密软件,它来无影去无踪,在安装后不会留下任何痕迹,只能通过软件热键才能打开。那么如果在使用过程中忘记了密码,这时我们该怎么办呢?下面我们就来了解一下。 首先,我…

【历史上的今天】5 月 18 日:微软反垄断诉讼;携程旅行网上线;谷歌首次公布 TPU

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 5 月 18 日,在 1939 年的今天,彼得格伦伯格(Peter Grunberg)出生。格伦伯格是一名德国物理学家,是诺…

【jvm系列-12】jvm性能调优篇---GUI工具的基本使用

JVM系列整体栏目 内容链接地址【一】初识虚拟机与java虚拟机https://blog.csdn.net/zhenghuishengq/article/details/129544460【二】jvm的类加载子系统以及jclasslib的基本使用https://blog.csdn.net/zhenghuishengq/article/details/129610963【三】运行时私有区域之虚拟机栈…

五分钟学会Playwright录制脚本的方法以及语法难点

这篇文章系统地介绍了上手Playwright的方法,但是录制脚本部分讲解不够详尽,今天我在这里重点的介绍一下Playwright 录制脚本的方法来丰满我的Playwright系列技术文章。 Playwright可以使用codegen来录制脚本,使用方式非常简单,只…

Windows 安全基础

Windows 隐藏账号 命令行输入以下命令,可以进行简单的隐藏(命令行下不可见) net user test$ 123456 /add net localgroup administrators test$ /add 通过注册表隐藏用户(实现步骤如下): 要实现很好的…

文生图关键问题探索:个性化定制和效果评价

文生图(Text-to-Image Generation)是AIGC(AI Generated Content,人工智能生成内容)的一个主要方向。近年来,文生图模型的效果和质量得到飞速提升,投资界和研究界都在密切关注文生图模型的进展。…

二苯基环辛炔-生物素,DBCO-Biotin点击化学DBCO生物素;CAS:1418217-95-4

中文名称:二苯并环辛炔-生物素 英文名称:DBCO-Biotin CAS:1418217-95-4 分子式:C28H30N4O3S 分子量:502.63 性状:固体粉末 保存方法:-20℃避光避湿保存 点击化学DBCO发生在水中&#xff…

了解这3大特性,再也不担心传输线问题了!

电阻是一个实实在在的物理元器件,通过欧姆定律我们可以知道,电压、电流和电阻三者之间的关系,UI*R。 我们通过一个具体的电路来分析这三者之间的具体关系,请看下面的一张最简单的电路图。这个电路图只有一个电源一个电阻和一些导…

JVM如何安装IBM产品虚拟机openJ9和idea更换jvm

安装前提是卸载掉其他产品或版本的虚拟机防止冲突的发生 1.openJ9是IBM产品的虚拟机 1.1官网下载 1.2openJ9官网介绍 2.下载后的产品 3.点击安装–选择默认安装路径 默认路径–C:\Program Files\Semeru\ 3.1安装完成 4.配置jdk环境变量JAVA_HOME 5.配置Path–作用是在操作…

【游戏逆向】某某游戏邮件遍历分析

邮件常常用来远程交易,这样可以节省交易时间,并且降低数据的需求。邮件遍历的分析,一般是以邮件名字,邮件数量等为突破口。不过有些游戏的邮件名字并不存放在邮件对象中,或者在对象中也不会改变邮件的本地显示&#xf…

Canal搭建 idea设置及采集数据到kafka

Canal GitHub:https://github.com/alibaba/canal#readme 实时采集工具canal:利用mysql主从复制的原理,slave定期读取master的binarylog对binarylog进行解析。 canal工作原理 canal模拟MySQL slave的交互协议,伪装自己为MySQL slav…

tb-gateway配置modbus

1、在tb_gateway.yaml开启modbus连接器 2、配置modbus.json 2.1、配置文件示例 {"master": {"slaves": [{"host": "127.0.0.1","port": 5021,"type": "tcp","method": "socket",…

DBCO-Cy3,荧光染料标记点击化学二苯基环辛炔CAS 1782950-79-1;DBCO-Cyanine3分子量983.18

中文名称:二苯基环辛炔-CY3 中文别称:花菁染料CY3标记DBCO 英文名称:DBCO-CY3 英文别称:DBCO-Cyanine3 性状:红色固体或粉末 分子量:983.18 分子式:C50H54N4O11S3 CSA:1782950-79-1 激发…

ESP32-S3 N8R2 烧录调试记录

ESP32 型号:ESP32-S3-WROOM-1(M0N8R2) ESP32 烧录器型号:ESP Prog v1.0 IOTMCU 烧录器的开关按键是复位按键。 接线图如下: 注意:RX连 RX TX连TX EN连RST Arudion IDE 配置如下: 注意 Arudino 中使用串口为 Serial…

【计算机网络】| Http.*协议该知道的那些事儿 | 面经

本文章参考了很多文档文献整理成狮子自己喜欢的风格类型文字,主要有: 《图解网络-小林coding》、Github上面的《前端语音社群》,ChatGpt 3.5 大家有兴趣可以去找来看看,一起上岸!!! 目录 面试官…

leecode654——最大二叉树

leecode最大二叉树 🌻题目要求: 给定一个不重复的整数数组 nums 。 最大二叉树 可以用下面的算法从 nums 递归地构建: 创建一个根节点,其值为 nums 中的最大值。 递归地在最大值 左边 的 子数组前缀上 构建左子树。 递归地在最大值 右边 的…

数据信托:可信的数据流通模式

数据信托:可信的数据流通模式 黄京磊, 李金璞, 汤珂 清华大学社会科学学院经济学研究所,北京 100084 摘要:数据信托可被视作一种新型的、可信的数据流通模式。数据信托不仅是一种保障信息安全的组织结构,还是一种增进数据要素市场…

DreamGPT - 基于生成式AI的灵感激发器

dreamGPT是第一个利用LLM大模型的幻觉(hallucinations)进行发散思维的灵感激发系统,目的是帮助你产生新的创新想法。 推荐:用 NSDT设计器 快速搭建可编程3D场景。 LLM的幻觉通常被视为大模型的缺陷,但如果这一特性可以…

什么是KD树?

一、什么是KD树? KD树(K-Dimensional Tree)是一种用于高效处理多维数据的数据结构。它是二叉搜索树的一种变体,在每个节点上对数据进行分割,从而构建一个多维空间的层次结构。 因为KD树是基于二叉搜索树的特性构建的&…