【数据集】mini-imagenet
- 介绍
- 结构
- 下载
介绍
mini-imagenet数据集是imagenet数据集的一个子集,最早于《Matching Networks for One Shot Learning》中被提出:
Section 4.1.2
ImageNet is a notoriously large data set which can be quite a feat of
engineering and infrastructure to run experiments upon it, requiring many resources. Thus, as well as using the full ImageNet data set, we devised a new data set – miniImageNet – consisting of 60, 000 colour images of size 84 × 84 with 100 classes, each having 600 examples. This dataset is more complex than CIFAR10, but fits in memory on modern machines, making it very convenient for rapid prototyping and experimentation.
mini-imagenet有100个类别,每个类别有600张三通道彩色图像样本,每张图像样本的大小为84 × 84(论文中是这么描述的,但实际数据集中的图像样本不是84 ×84,可能原文的意思是需要将图像样本都resize成84 × 84再使用,大多数基于mini-imagenet数据集的实验都是这么实施的)。
结构
mini-imagenet中80个类别用于训练,20个类别用于测试,由于原文针对的是One Shot Learning1,因此训练类别和测试类别没有交集,其原始数据集文件的结构为:
├── images: 存放所有图像样本的文件夹(包含100个类别对应的图像,共60000张)
├── train.csv: 训练集内容,数据格式为[图像样本文件名|类别](包含64个类别,共38400条数据)
├── val.csv: 验证集内容,数据格式为[图像样本文件名|类别](包含16个类别,共9600条数据)
└── test.csv: 测试集内容,数据格式为[图像样本文件名|类别](包含20个类别,共12000条数据)
自mini-imagenet数据集被提出后,很多分类任务也采用其进行实验,不过与One Shot Learning不同,这些分类任务将其作为普通的监督学习数据集,将其分为train、val(可选)和test部分,每部分包含全部的类别,此时mini-imagenet数据集文件的结构为:
├── images: 存放所有图像样本的文件夹(包含100个类别对应的图像,共60000张)
├── train.csv: 训练集内容,数据格式为[图像样本文件名|类别](包含100个类别,共60000 * train rate条数据)
├── val.csv: 验证集内容,数据格式为[图像样本文件名|类别](包含100个类别,共60000 * val rate条数据)
└── test.csv: 测试集内容,数据格式为[图像样本文件名|类别](包含100个类别,共60000 * test rate条数据)
可学习文章《使用Mini-ImageNet训练分类网络》中提供的代码,按照需求制作数据集。
下载
原始格式的数据集文件可从mini-imagenet(format: csv)处下载。
由于图像样本在传输过程中传输较慢而且容易损坏,因此也可选择将图像样本的数据保存为其他格式,一种选择是pkl文件格式,此时原始格式的数据集保存后的pkl文件可从mini-imagenet(format: pkl)处下载。
基于上述pkl文件的普通的监督学习mini-imagenet数据集制作方法可参考mini-imagenet(format: pkl) convertion。
【机器学习300问】113、什么是One-Shot学习?它和传统机器学习有什么不同? ↩︎