图像分类概述
图像分类,也称图像识别,是计算机根据已有的固定分类标签集合和图像所反馈的信息特征从标签集合中找出一个分类标签,并分配给该图像的视觉处理方法。
譬如规定一个分类标签为猫和狗的集合,给计算机输入一张猫或狗的图片,通过判断其特征比如胡子,眼睛,嘴巴,耳朵等,从集合中找出一个分类标签,区分(识别)该图是猫还是狗。
图像分类意义
图像分类是计算机视觉的核心任务,也是最为基础的任务,有着各种各样的实际应用。比如安防领域的人脸识别,交通领域的交通场景物体识别,互联网领域的相册自动归类等。
计算机视觉理论的奠基者,英国神经生理学家马尔认为,视觉要解决的问题可归结为“What is Where”,即什么东西在什么地方,这里的“什么东西”就是图像分类要做的。
图像分类的发展从最开始的10分类的灰度图像手写字体识别,到后来的10分类标签任务cifar-10及100分类标签任务cifar-100,再到后来的22000分类标签任务的ImageNet,图像分类模型伴随着数据集的增长,分类水准甚至已经超过了人类。图像分类在某些领域一定程度上为人类减轻了负担,改变了人的生活方式。
图像分类的方法
图像分类方法大致分为两类,基于传统的分类方法和基于深度学习的分类方法。
基于传统的分类方法思路比较简单,将图片转换为一维向量,再基于距离度量以判断向量间的相似性。显而易见,这种不带特征提取的朴素办法,丢掉了二维向量中最重要的四周相邻像素的信息。该种方法在比较干净的数据集上表现还行,一旦数据集噪声强度高,准确率会下降。常见传统方法的有KNN,SVM等。
基于深度学习的分类方法常用的就是卷积神经网络,通过训练和更新卷积神经网络的参数使得网络能够分辨出未知图片的类别。卷积神经网络是有人工神经网络演变而来。