图像分类卷积神经网络模型综述

遇到问题

图像分类：核心任务是从给定的分类集合中给图像分配一个标签任务。
本地路径
输入：图片
输出：类别。

数据集

MNIST数据集

MNIST数据集是用来识别手写数字，由0~9共10类别组成。
从MNIST数据集的SD-1和SD-3构建的，其中包含手写数字的二进制图像：
本地路径
MNIST数据集将SD-3作为训练集，将SD-1作为测试集，但SD-3比SD-1更容易识别，原因在于SD-3来源于人工调查局雇员，
SD-1来源于高中生，以上表明分类结果要独立于完整样本集中训练集和测试集的选择，因此，通过混合MNIST数据集来建立新
的数据集很有必要，SD-1有58537幅图像，由500位作者书写，排列混乱，SSD-3的图像是顺序的，新的训练集共有60000幅图像，
一部分来源于SD-1的前250位作家书写，剩余部分来源于SD-3.新的测试集有60000幅图像，部分来源于SD-1剩余250位作家所书写，一部分来源于SD-3。

新数据集成为MNIST数据集，共10个类别：

在LeNEt5实验中，训练集共60000幅图像，测试集共10000幅图像。
数据集包含4个文件

train-images-idx3-ubyte：训练集图像 train-labels-idx1-ubyte：训练集标签 t10k-images-idx3-ubyte：测试集图像 t10k-labels-idx1-ubyte：测试集标签

图像像素28*28.
本地路径

IMagenET训练数据集

ImageNet数据集是具有超过1500万幅带标签的高分辨率图像数据库，这些图像大约属于22000个类别，这些图像由互联网收集，并由人工使用亚马逊的机械土耳其众包工具贴上标签。
本地路径

从2010年开始，每年举行一次名为ImnageNet的大规模视觉识别挑战赛，ILSVRC使用ImageNet的子集

类别，共1000个类别
数量：总共大约有120万幅训练图像，其中，每个类别大约包含1000幅图像。
验证集合：50000幅验证图像
测试集：50000幅测试图像。

深度卷积网络模型在ImageNet数据集上进行训练和测试，衡量模型优劣的指标为 $t o p - 1 和 t o p - 5$ 错误率。

top-5错误率

对每幅图像同时预测5个标签类别，若预测的五个类别任意之一为该图像的正确标签，则视为预测正确，那么预测错误的概率为top-5错误率。

top-1错误率

若对图像预测一次，预测错误的概率为top-1错误率。

CIFAR-10/100数据集

CIFAR-10数据集

本地路径

分辨率为32 $\times$ 32
类别：共10个类别
数量：共有60 000幅彩色图像。其中，每个类别包含6 000幅图像。
训练集：包含50000幅彩色图像。
测试集：包含10 000幅彩色图像。图像取自10个类别，每个类别分别取1 000幅。

CIFAR-100数据集

• 类别：共100个类别
• 数量：共60000幅图像。其中，每个类别包含600幅图像
• 训练集：每个类别有500幅
• 测试集：每个类别有100幅

CIFAR-100中的100个类被分成20个大类别。每个图像都带有一个“精细”标签（它所属的类）和一个“粗糙”标签（它所属的超类）

SVHN数据集

该数据集用来检测和识别街景图像中的门牌号，从大量街景图像的剪裁门牌号图像中收集，包含600000幅小图像。

这些图像以两种格式呈现

一种是完整的数字，即原始的，分辨率可变的，彩色门牌号图像，每个图像包括检测到数字转录以及字符级的边界框。
一种是剪裁数字，图像的尺寸被调整为固定的 $32 \times 32$ 像素。
SVHN数据集分为3个子集，73 257幅图像用于训练，26 032幅图像用于测试，531 131幅难度稍小的图像作为额外的训练数据。
类别**：10个类别，数字1～9对应标签1～9，而“0”的标签则为10**
•训练集：73257张图像
•测试集：26032张图像
•数据集格式**：带有字符级边界框的原始图像**。