CIFAR10数据集
-
CIFAR-10数据集是一个广泛使用的机器学习数据集,它包含10个类别的 60000 张32x32的彩色图像。每个类别有6000张图像,其中50000张用于训练,1000 张用于测试。这些类别包括:
- 飞机(airplane)
- 汽车(automobile)
- 鸟类(bird)
- 猫(cat)
- 鹿(deer)
- 狗(dog)
- 蛙类(frog)
- 马(horse)
- 船(ship)
- 卡车(truck)
-
CIFAR-10数据集被广泛用于图像识别和计算机视觉任务,尤其是在卷积神经网络(CNN)的研究中。它是一个相对较小的数据集,适合用来测试算法的可行性,但由于其图像尺寸较小和类别数量有限,它通常不用于大规模的商业应用。
-
官网:https://www.cs.toronto.edu/~kriz/cifar.html
-
资源版本:Python版本、MATLAB版本、二进制版本
-
示例:
-
CIFAR-100 数据集:作为CIFAR-10的扩展版,CIFAR-100数据集是一个用于机器学习和计算机视觉任务的图像分类数据集,它包含100个类别的60,000张32x32像素的彩色图像。每个类别有600张图像,其中500张用于训练,100张用于测试。这100个类别被进一步分为20个超类别(superclasses),每个超类别包含5个类别。CIFAR-100数据集中的每个图像都有一个“细”标签(fine label)和一个“粗”标签(coarse label),分别对应于图像的具体类别和所属的超类别。
数据集转化为图片
- CIFAR-10数据集下载后不是图片格式,而是以二进制文件的形式存储的。这些二进制文件包含了图像数据和对应的标签信息。每个二进制文件中,第一个字节是标签,后面的数据是图像的像素值,图像数据按照红色、绿色、蓝色通道的顺序排列,每个通道有32x32个像素值。
- 官网提供了将二进制转换为图片的方法:Python3实现
def unpickle(file):
import pickle
with open(file, 'rb') as fo:
dict = pickle.load(fo, encoding='bytes')
return dict
- 完整Python 代码:
import os
import numpy as np
from imageio import imsave
import pickle
# 定义一个函数来读取并解析cifar-10的pickle文件
def unpickle(file):
with open(file, 'rb') as fo:
dict = pickle.load(fo, encoding='bytes')
return dict
# 定义CIFAR-10数据集的路径
cifar10_path = 'E://datasets//cifar-10-batches-py' # 替换为你的CIFAR-10数据集的实际路径
# 确保路径存在
if not os.path.exists(cifar10_path):
print("CIFAR-10数据集路径不存在,请检查路径。")
else:
# 读取meta信息
meta = unpickle(os.path.join(cifar10_path, 'batches.meta'))
label_name = meta[b'label_names']
# 为每个类别创建一个文件夹
for i in range(len(label_name)):
path = os.path.join('your_path_to_save_images', label_name[i].decode()) # 替换为你想要保存图片的路径
if not os.path.exists(path):
os.makedirs(path)
# 遍历每个数据批次文件
for i in range(1, 6):
content = unpickle(os.path.join(cifar10_path, 'data_batch_' + str(i)))
for j in range(10000): # 每个批次包含10000张图片
img = content[b'data'][j]
img = img.reshape(3, 32, 32) # 转换为3x32x32
img = img.transpose(1, 2, 0) # 转置为32x32x3
img_name = os.path.join('your_path_to_save_images', label_name[content[b'labels'][j]].decode(), 'batch_' + str(i) + '_num_' + str(j) + '.jpg')
imsave(img_name, img) # 保存图片
-
下载下来的数据集:
-
转化后图片集: