基于决策树模型和支持向量机模型的手写数字识别

1、导入库和手写数字数据集

2、把数据可视化

3、把数据分成训练数据集和测试数据集

4、训练SVM模型

5、训练决策树模型

6、对所使用的模型进行评估

7、对手写数字图像进行预测

本项目实现了

第一个功能：可以通过导入库和数据集、通过对数据集的预处理、读取、可视化，将数据集划分为训练集和测试级，更换不同的模型，并对模型进行评估，多方面对比不同的机器学习方法，对数据模型的影响。

第二个功能：将训练出来的数据进行预测，通过图片预测直观的方式将模型进行可视化，方便对比不同的机器学习算法。

机器学习算法优缺点：

SVM:

优点

1、非线性间隔映射是SVM方法的理论基础，SVM利用内积核函数代替向高维空间的非线性映射。

2、SVM的目标是找到对特征空间划分的最优超平面，SVM方法的核心是最大化分类边际的思想。

3、SVM的训练结果是支持向量，在分类决策中起到决定性作用。

4、SVM是一种小样本的学习方法，从本质上看，它避开了从归纳到演绎的传统过程，实现了高效的从训练样本到预测样本的“转导推理”，简化了通常的分类和回归问题。

5、SVM最终的决策函数只由少数的支持向量决定，计算的复杂性取决于支持向量的数目，而不是样本空间的维数，在某种意义上避免了“维数灾难”。

6、有较好的鲁棒性：增删非支持向量样本对模型没有影响，SVM方法对核的选取不敏感。

不足

1、SVM算法对大规模训练样本难以实施。

2、SVM对解决多分类问题存在困难。

决策树：

优点

1、决策树易于理解和实现，通过解释人们都有能力去理解决策树表达的意义。

2、数据处理前应当去掉多余的或者空白的属性。

3、能够同时处理数据型和常规型的属性，可以接受数据属性的多样性。

4、对缺失值不敏感。

5、可以处理不相关的特征数据。

6、只需构建一次，便可以反复使用，每一次预测的最大计算次数不超过决策树的深度。

缺点

1、容易造成过拟合，即将训练集自身的一些特点作为所有数据的一般性质，导致过拟合，需要进行剪枝处理。

2、对于有时间顺序的数据，需要很多的预处理的工作。

3、当类别太多时，错误可能就会增加的比较快。

4、只能根据一个字段进行分类。

5、在处理特征关联性比较强的数据时，表现不好。

1、导入库和手写数字数据集

import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier, export_graphviz
digits = datasets.load_digits()
X = digits.data
y = digits.target

2、把数据可视化

# 把数据所代表的图片显示出来

images_and_labels = list(zip(digits.images, digits.target))

plt.figure(figsize=(8, 8), dpi=200)        #设置figsize为8*8，分辨率dpi为200

for index, (image, label) in enumerate(images_and_labels[:10]):

    plt.subplot(2, 5, index + 1)

    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')

    plt.title('Digit: %i' % label, fontsize=20)

plt.show()   #操作环境在pycharm，所以放在循环外，绘制在同一张图片上
#打印图片的数量和尺寸，方便查看以及后续操作

print("图片的数量和尺寸为: {0}".format(digits.images.shape))

print("图片数据的尺寸为: {0}".format(digits.data.shape))

3、把数据分成训练数据集和测试数据集

# 把数据分成训练数据集和测试数据集

X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.2, random_state=42)

这一步是把数据分为百分之80的训练数据集和百分之20的测试数据集

4、训练SVM模型

clf = svm.SVC(gamma=0.001, C=100., probability=True)

clf.fit(X_train, Y_train)

 使用支持向量机来训练模型，这里调整了gamma值为0.001，参数C的值为100,probability设置为True

5、训练决策树模型

model = DecisionTreeClassifier(criterion="entropy")

model.fit(X_train, Y_train)

决策树学习的目的是为了产生一棵泛化能力强，即处理未见实例能力强的决策树，其基本流程遵循简单且直观的“分而治之”的策略。决策树学习最关键的在于如何选择最优划分属性。

6、对所使用的模型进行评估

# 评估模型的准确度

Y_pre = clf.predict(X_test)

accuracy_score(Y_test, Y_pre)

# 打印模型的精确度

print(clf.score(X_test, Y_test))

SVM模型的正确率为   0.9888888888888889

决策树模型的正确率为  0.8972222222222223

7、对手写数字图像进行预测

for i, ax in enumerate(axes.flat):

    ax.imshow(X_test[i].reshape(8, 8), cmap=plt.cm.gray_r, interpolation='nearest')

    #图像预测正确则数字为绿色，不正确的预测则为红色

    ax.text(0.05, 0.05, str(Y_pre[i]), fontsize=32,

            transform=ax.transAxes,

            color='green' if Y_pre[i] == Y_test[i] else 'red')

    #标签数据设置为黑色放在图像右下角

    ax.text(0.8, 0.05, str(Y_test[i]), fontsize=32,

            transform=ax.transAxes,

            color='black')

    ax.set_xticks([])

    ax.set_yticks([])

plt.show()

SVM模型的预测

决策树模型的预测

完整代码如下：

1、决策树模型


import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier, export_graphviz
digits = datasets.load_digits()
X = digits.data
y = digits.target

# 把数据所代表的图片显示出来
images_and_labels = list(zip(digits.images, digits.target))
plt.figure(figsize=(8, 8), dpi=200)        #设置figsize为8*8，分辨率dpi为200
for index, (image, label) in enumerate(images_and_labels[:10]):
    plt.subplot(2, 5, index + 1)
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Digit: %i' % label, fontsize=20)
plt.show()   #操作环境在pycharm，所以放在循环外，绘制在同一张图片上


#打印图片的数量和尺寸，方便查看以及后续操作
print("图片的数量和尺寸为: {0}".format(digits.images.shape))
print("图片数据的尺寸为: {0}".format(digits.data.shape))
# 把数据分成训练数据集和测试数据集
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# 使用决策树模型
model = DecisionTreeClassifier(criterion="entropy")
model.fit(X_train, Y_train)

# 评估模型的准确度
Y_pre = model.predict(X_test)
accuracy_score(Y_test, Y_pre)
# 打印模型的精确度
print(model.score(X_test, Y_test))

# 查看预测的情况,采用4*4张数据图片来预测和label对比
fig, axes = plt.subplots(4, 4, figsize=(8, 8))
fig.subplots_adjust(hspace=0.1, wspace=0.1)

for i, ax in enumerate(axes.flat):
    ax.imshow(X_test[i].reshape(8, 8), cmap=plt.cm.gray_r, interpolation='nearest')
    #图像预测正确则数字为绿色，不正确的预测则为红色
    ax.text(0.05, 0.05, str(Y_pre[i]), fontsize=32,
            transform=ax.transAxes,
            color='green' if Y_pre[i] == Y_test[i] else 'red')
    #标签数据设置为黑色放在图像右下角
    ax.text(0.8, 0.05, str(Y_test[i]), fontsize=32,
            transform=ax.transAxes,
            color='black')
    ax.set_xticks([])
    ax.set_yticks([])
plt.show()

2、SVM支持向量机模型


import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score

digits = datasets.load_digits()
X = digits.data
y = digits.target

# 把数据所代表的图片显示出来
images_and_labels = list(zip(digits.images, digits.target))
plt.figure(figsize=(8, 8), dpi=200)        #设置figsize为8*8，分辨率dpi为200
for index, (image, label) in enumerate(images_and_labels[:10]):
    plt.subplot(2, 5, index + 1)
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Digit: %i' % label, fontsize=20)
plt.show()   #操作环境在pycharm，所以放在循环外，绘制在同一张图片上


#打印图片的数量和尺寸，方便查看以及后续操作
print("图片的数量和尺寸为: {0}".format(digits.images.shape))
print("图片数据的尺寸为: {0}".format(digits.data.shape))
# 把数据分成训练数据集和测试数据集
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# 使用支持向量机来训练模型，这里调整了gamma值为0.001，参数C的值为100,probability设置为True
clf = svm.SVC(gamma=0.001, C=100., probability=True)
clf.fit(X_train, Y_train)

# 评估模型的准确度
Y_pre = clf.predict(X_test)
accuracy_score(Y_test, Y_pre)
# 打印模型的精确度
print(clf.score(X_test, Y_test))

# 查看预测的情况,采用4*4张数据图片来预测和label对比
fig, axes = plt.subplots(4, 4, figsize=(8, 8))
fig.subplots_adjust(hspace=0.1, wspace=0.1)

for i, ax in enumerate(axes.flat):
    ax.imshow(X_test[i].reshape(8, 8), cmap=plt.cm.gray_r, interpolation='nearest')
    #图像预测正确则数字为绿色，不正确的预测则为红色
    ax.text(0.05, 0.05, str(Y_pre[i]), fontsize=32,
            transform=ax.transAxes,
            color='green' if Y_pre[i] == Y_test[i] else 'red')
    #标签数据设置为黑色放在图像右下角
    ax.text(0.8, 0.05, str(Y_test[i]), fontsize=32,
            transform=ax.transAxes,
            color='black')
    ax.set_xticks([])
    ax.set_yticks([])
plt.show()