研究YOLO系列
目录
- COCO数据集
- YOLO-v3
- 下载coco数据集
COCO数据集
coco数据集是一个大型的物体检测、分割和字幕数据集
COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。这就是YOLOV3采用的数据集。
该数据集主要解决3个问题:目标检测,目标之间的上下文关系,目标的2维上的精确定位。COCO数据集有91类,虽然比ImageNet和SUN类别少,但是每一类的图像多,这有利于获得更多的每类中位于某种特定场景的能力,对比PASCAL VOC,其有更多类和图像。
目标检测任务(object Detection Task)框和实例分割(人、球拍)
Stuff Segmentation Task 草地、沙分割
Panoptic Segmentation Task 实景分割
Captioning Challenge 看图说话
Keypoint Detection Task 人体关键点检测
DensePose Task 人体姿态
COCO数据集特点:
person(人)bicycle(自行车) car(汽车) motorbike(摩托车) aeroplane(飞机) bus(公共汽车) train(火车) truck(卡车) boat(船)traffic light(信号灯) fire hydrant(消防栓) stop sign(停车标志) parking meter(停车计费器) bench(长凳)bird(鸟) cat(猫) dog(狗) horse(马) sheep(羊) cow(牛) elephant(大使用和下载象) bear(熊) zebra(斑马) giraffe(长颈鹿)backpack(背包) umbrella(雨伞) handbag(手提包) tie(领带) suitcase(手提箱)frisbee(飞盘) skis(滑雪板双脚) snowboard(滑雪板) sports ball(运动球) kite(风筝) baseball bat(棒球棒) baseball glove(棒球手套) skateboard(滑板) surfboard(冲浪板) tennis racket(网球拍)bottle(瓶子) wine glass(高脚杯) cup(茶杯) fork(叉子) knife(刀)spoon(勺子) bowl(碗)banana(香蕉) apple(苹果) sandwich(三明治) orange(橘子) broccoli(西兰花) carrot(胡萝卜) hot dog(热狗) pizza(披萨) donut(甜甜圈) cake(蛋糕)chair(椅子) sofa(沙发) pottedplant(盆栽植物) bed(床) diningtable(餐桌) toilet(厕所) tvmonitor(电视机)laptop(笔记本) mouse(鼠标) remote(遥控器) keyboard(键盘) cell phone(电话)microwave(微波炉) oven(烤箱) toaster(烤面包器) sink(水槽) refrigerator(冰箱)book(书) clock(闹钟) vase(花瓶) scissors(剪刀) teddy bear(泰迪熊) hair drier(吹风机) toothbrush(牙刷)
COCO2017:
annotations 标注文件 .json
{info,数据集中的描述信息;images,对应5000张图各自的信息;annotation,标注信息;categories,检测任务中的80类;licenses,许可}
test2017 测试集
train2017 训练集
val2017 验证集
COCO API是官方提供的一些处理标注文件的函数,
python中对应pycocotools,pip install pycocotools
YOLO-v3
下载coco数据集
get_coco_dataset.sh中更新下载地址,
wget -c http://images.cocodataset.org/zips/train2014.zip
wget -c http://images.cocodataset.org/zips/val2014.zip
若嫌下载慢,可使用下述连接下载:
MS COCO官网数据集(百度云)下载,COCO API、MASK API和Annotation format介绍(来自官网)