1 MINIST
MINIST 数据集应该算是CV里面最早流行的数据了,相当于CV领域的Hello World。该数据包含70000张手写数字图像,其中60000张用于train, 10000张用于test, 并且都有相应的label。图像的尺寸比较小, 为28x28。
数据说明及下载地址:
http://yann.lecun.com/exdb/mnist/
这个数据是由 Yann LeCun 创建的。
2 CIFAR10 /CIFAR100
CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。
CIFAR-100数据集由100个类的60000个32x32彩色图像组成,每个类有600个图像。有50000个训练图像和10000个测试图像。
数据说明及下载地址:
http://www.cs.toronto.edu/~kriz/cifar.html
这个数据是由 Geoffrey Hinton 创建的。
3 Pascal VOC
PASCAL VOC挑战赛的数据集。
该挑战赛从2005年开始, 2012年结束,每年都会给出不同的数据集, 因此共有8个年份的数据。 现在用的比较多的是VOC 2007和VOC 2012的数据, 这两个数据集是不重合的, 其中VOC 2007数据是有test数据的label的, 而VOC 2012数据是没有test数据的label的。
论文中针对 VOC2007和VOC2012 的具体用法有以下几种:
- 1只用VOC2007的trainval 训练,使用VOC2007的test测试。
- 2只用VOC2012的trainval 训练,使用VOC2012的test测试,这种用法很少使用,因为大家都会结合VOC2007使用。
- 3使用 VOC2007 的 train+val 和 VOC2012的 train+val 训练,然后使用 VOC2007的test测试,这个用法是论文中经常看到的 07+12 ,研究者可以自己测试在VOC2007上的结果,因为VOC2007的test是公开的。
- 4使用 VOC2007 的 train+val+test 和 VOC2012的 train+val训练,然后使用 VOC2012的test测试,这个用法是论文中经常看到的 07++12 ,这种方法需提交到VOC官方服务器上评估结果,因为VOC2012 test没有公布label。
- 5先在 MS COCO 的 trainval 上预训练,再使用 VOC2007 的 train+val、 VOC2012的 train+val 微调训练,然后使用 VOC2007的test测试,这个用法是论文中经常看到的 07+12+COCO 。
- 6先在 MS COCO 的 trainval 上预训练,再使用 VOC2007 的 train+val+test 、 VOC2012的 train+val 微调训练,然后使用 VOC2012的test测试 ,这个用法是论文中经常看到的 07++12+COCO,这种方法需提交到VOC官方服务器上评估结果,因为VOC2012 test没有公布label。
数据说明及下载地址:
http://host.robots.ox.ac.uk/pascal/VOC/
4 Imagenet
Imagenet本身是一个非常大的数据集, 当前使用非常广泛的其实是它的一个子集, ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛数据集。
ILSVRC竞赛从2010年开始,到2017年结束,没一年竞赛都有不同的数据集, 因此共有8个年份的数据集。 与VOC数据不同的是发,
数据集包含1281167张训练图像, 50000张验证图像, 100000张测试图像, 1000个类别。
数据说明及下载地址:
https://image-net.org/challenges/LSVRC/index.php
Imagenet数据集只能用于研究使用, 不能用于商用目的, 下载需要用教育网邮箱.edu申请下载。 并且数据集非常大, 有140多G, 下载下来不是很容易。
没有教育网邮箱的情况下, 可以在下面这个链接处下载:
https://hyper.ai/datasets/4889
另外这个网站上还有很多其他数据集可以下载。
5 MS COCO
coco数据集是目标检测任务中使用最为广泛的数据集。当然coco数据集本身的用途比较多, 如检测, 姿势估计, 关键点检测, 分割等。 以检测为例, 数据包含图像 train:118287张, val:5000张, test:40670张。
数据说明及下载地址:
https://cocodataset.org/#home
汇总
参考:
CIFAR-10和CIFAR-100数据集说明
目标检测数据集PASCAL VOC详解