第五章 深度学习
六、PaddlePaddle 图像分类
1. 概述
1.1 什么是图像分类
图像分类就是将不同的图像划分到不同类别,实现最小分类误差、最高精度。手写体识别就是一个经典的图像分类问题,它将输入图像分为 0~9 某个数字中,实际就是将输入图像分为 10 类。
1.2 图像分类粒度
(一)跨物种级图像分类:在不同物种层次上识别不同对象,如猫狗分类
(二)子类细粒度图像分类:同一大类下,不同子类的分类。如不同的鸟分类,不同的狗分类
(三)实例级图像分类:区分不同的个体。如人脸识别
1.3 图像分类发展历程
图像分类任务从传统的方法到基于深度学习的方法,经历了几十年的发展
1.4 图像分类问题的挑战
虽然图像分类大赛正确率已经接近极限,但在实际工程应用中,面临诸多挑战与难题:
- 类别不均衡
- 数据集小
- 巨大的类内差异
- 实际应用复杂情况:光照、遮挡、模糊、角度变化、干扰
2. 常用数据集介绍
2.1 MNIST 数据集
手写数字的数据集,来自美国国家标准与技术研究所(National Institute of Standards and Technology,NIST),发布与 1998 年
样本来自 250 个不同人的手写数字,50%高中学生,50%是人口普查局的工作人员
数字从 0 ~ 9,图片大小是 28×28 像素,训练数据集包含 60000 个样本,测试数据集包含 10000 个样本
下载地址:
- http://yann.lecun.com/exdb/mnist/
2.2 CIFAR10 数据集
CIFAR10 数据集由 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 等人收集
包含 6 万张彩色图像,图像大小是 32×32,共有 10 个类,每类有 6000 张图。其中,5 万张图组成训练集合,训练集合中的每一类均等,都有 5000 张图;
剩余 1 万张图作为测试集合,测试集合中的每一类也均等,各有 1000 张图
10 个类别是:airplane、automobile、bird、cat、deer、dog、frog、horse、ship 和 truck
下载地址:
- http://www.cs.toronto.edu/~kriz/cifar.html
2.3 ImageNet 数据集
ImageNet 数据集由李飞飞实验室发布于 2009 年
1400 多万幅图片,涵盖 2 万多个类别的标注与超过百万的边界框标注,每一个类别大约有 500 ~ 1000 张图片
ImageNet 竞赛使用的是 ImageNet 完整数据集的一个子类,包括 1000 类,其中大部分是动物。在深度学习任务中,我们经常会使用 ImageNet 预训练的模型
下载地址:
- http://www.image-net.org/
2.4 FDDB 人脸数据集
发布于 2010 年,是被广泛用于人脸检测方法评测的一个数据集
共 2845 张图像,包含有 5171 张人脸图像,大部是自然条件下拍摄的名人
下载地址:
- http://vis-www.cs.umass.edu/fddb/index.html#download
2.5 WIDER Face 数据集
2015 年由香港中文大学发布
32203 张图像,共有 393703 张人脸图像,比 FDDB 数据集大 10 倍,而且在面部的尺寸、姿势、遮挡、表情、妆容和光照上都有很大的变化,自发布后广泛应用于评估性能比传统方法更强大的卷积神经网络
下载地址:
- http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/
3. 图像分类的应用
交通违章识别
安检系统
人脸识别
生物种群数量统计
工业质检
工地安全监测
病虫害识别
医疗诊断