【机器学习】基于SVM、逻辑回归和CNN的手写数字识别:性能对比与应用分析

news2025/1/18 6:12:46

基于SVM、逻辑回归和CNN的手写数字识别:性能对比与应用分析

  • 1 基于SVM对手写数字识别
  • 2 基于逻辑回归对手写数字进行识别
  • 3 基于CNN对手写数字进行识别
  • 总结对比分析

1 基于SVM对手写数字识别

在使用SVM方法对手写数字进行识别的时候,我采用了一对多(One-vs-Rest)的策略,即针对每个数字都建立一个模型,用来识别数字是不是目标数字。具体实现流程是:

首先采用与KNN相同的数据集(有关内容可以参考我的上一篇文章链接: 基于KNN对手写数字进行识别),并且进行对数据进行标准化、扁平化处理;然后按照8:2的比例对数据集进行划分;接着,为每个数字(0-9)训练一个二分类的SVM模型,每个模型将目标数字作为正类,其他所有数字作为负类,并且使用RBF核函数以处理非线性分类问题;然后对每个数字分别训练SVM分类器,记录每个模型的训练时间和性能指标,并且使用交叉验证来评估模型的稳定性;最后,对输入图像,使用所有10个SVM模型进行预测,综合各个模型的预测概率,选择置信度最高的类别作为最终预测结果。

各数字SVM模型训练时间

图1 各数字SVM模型训练时间

如图1所示,展示的是SVM模型训练识别每个数字的训练时间。可以发现,模型在识别数字0上耗时最短,在识别数字8上耗时最长。这与数据集的质量、数字特征、数据分布的离散程度等各方面都有关系。

表1 SVM模型判别每个数字的性能指标
数字准确率精确率召回率F1分数训练时间(秒)
0.00.99721.00000.97220.98590.0798
1.00.98890.94440.94440.94440.1669
2.01.00001.00001.00001.00000.1695
3.01.00001.00001.00001.00000.1866
4.00.98891.00000.88890.94120.1559
5.01.00001.00001.00001.00000.1699
6.00.99721.00000.97220.98590.1247
7.00.99440.97220.97220.97220.1504
8.00.98331.00000.82860.90620.1980
9.00.99441.00000.94440.97140.1918
平均值0.99440.99170.95230.97070.1593
标准差±0.0057±0.0187±0.0552±0.0312±0.0352

从表1可以看出,SVM模型在手写数字识别任务中表现优异,尤其在数字2、3和5的分类上,各项指标均达到1,表明模型能够完全正确地识别这些类别的数字。这可能与这些数字在MNIST数据集中的特征显著性和类别区分度较高有关。尽管整体性能较高,但在某些类别上仍存在一定的不足。例如,数字8的召回率为0.8286,低于其他类别。这表明模型在该类别上存在一定的漏检现象,可能是由于数字8的形状与其他数字(如0或9)容易混淆,导致分类器在区分时出现困难。

此外,从训练时间来看,SVM在各类别的训练时间相对均衡,平均耗时为0.16秒,标准差较小。这说明模型具有较高的训练效率,适合中小规模的数据集应用。

2 基于逻辑回归对手写数字进行识别

在使用逻辑回归训练时,我也采用一对多的策略,为每个数字训练一个二分类器。首先对MNIST数据集的8×8手写数字图像进行预处理,将图像数据展平为64维特征向量,并使用StandardScaler进行特征标准化,保持与其他方法相同的训练集(1437样本)和测试集(360样本)划分。

在模型设计上,为每个数字(0-9)构建一个二分类逻辑回归模型,使用L2正则化防止过拟合,并采用LBFGS优化器进行模型训练。训练过程中,对每个数字分别训练二分类器,使用交叉验证评估模型性能,同时记录训练时间和各项性能指标。在预测阶段,使用所有训练好的二分类器对输入图像进行预测,获取每个分类器的预测概率,并选择概率最高的类别作为最终预测结果。

各数字逻辑回归模型训练时间

图2 各数字逻辑回归模型训练时间
通过图2可以看出,使用逻辑回归识别各个数字的训练耗时整体较低,且大部分数字的训练耗时保持在0.01秒左右,表现出较高的训练效率。然而,在识别数字0时,训练耗时达到0.03秒,是其他数字的三倍。这可能与数字0的特征分布较广或与其他数字(如6或8)存在更大的相似性有关,导致模型在训练时需要更多计算资源。

总体而言,逻辑回归的训练时间较短,适合快速部署和资源受限的场景。

表1 SVM模型判别每个数字的性能指标
数字准确率精确率召回率F1分数训练时间(秒)模型参数数量
0.00.99441.00000.94440.97140.028065.0
1.00.97500.90910.83330.86960.007065.0
2.01.00001.00001.00001.00000.007065.0
3.00.98060.91670.89190.90410.007065.0
4.00.99440.94741.00000.97300.007065.0
5.00.99721.00000.97300.98630.006765.0
6.00.99721.00000.97220.98590.007265.0
7.00.98890.92110.97220.94590.008065.0
8.00.95560.85190.65710.74190.008365.0
9.00.99441.00000.94440.97140.006865.0
平均值0.98780.95460.91890.93500.009365
标准差±0.0138±0.0533±0.1052±0.0790±0.0066±0

从表2可以看出,逻辑回归在手写数字识别任务中的总体性能较好,平均准确率为98.78%,精确率为95.46%,召回率为91.89%,F1分数为93.50%。模型参数数量始终为65,训练耗时平均为0.0093秒,展现了逻辑回归模型在计算效率上的优势。然而,模型在数字8的识别上表现较弱,召回率仅为65.71%,F1分数为74.19%,远低于其他数字。这可能是因为数字8的形状更容易与其他数字混淆,例如数字0或9。

此外,训练耗时总体较为均匀,除了数字0的训练时间较高(0.028秒),其他数字的训练时间基本在0.007秒左右,说明逻辑回归在小规模参数优化上具有较高的效率和稳定性。

3 基于CNN对手写数字进行识别

接着,我设计了一个适用于MNIST手写数字识别的CNN网络模型。网络结构包含两个卷积层和全连接层,其中第一个卷积层使用16个3×3的卷积核,第二个卷积层使用32个3×3的卷积核,每个卷积层后都跟随ReLU激活函数、批标准化和最大池化操作。在全连接层中,我们使用了128个神经元,并添加了Dropout层(比例为0.5)来防止过拟合。对于输入数据,我们首先将8×8的手写数字图像标准化,并重塑为适合CNN输入的四维张量格式(N, 1, 8, 8)。在训练过程中,使用Adam优化器和交叉熵损失函数,设置批量大小为32,训练50个epochs,同时保存验证集性能最好的模型参数[9]。
CNN模型训练损失函数及准确率随轮数的变化

图3 CNN模型训练损失函数及准确率随轮数的变化

根据图3发现,随着轮数的增加,模型训练损失值逐渐下降并趋于稳定,准确率在98%左右浮动。表3显示,CNN模型在测试集上达到了97.85%的准确率,虽然训练时间相对较长,但模型表现出了良好的特征提取能力和分类性能。这种基于CNN的方法能够自动学习图像的层次特征,无需手动设计特征提取器,展现出深度学习方法在图像识别任务上的优势。

表3 CNN模型判别数字的性能指标
准确率精确率召回率F1分数训练时间(秒)
0.9777777780.9783222380.9776941230.9777596198.581076622

总结对比分析

通过前面1-3小结,我们使用三种方法对手写数字数据集进行了训练,接下来将从训练耗时、模型最终的准确率、精确率、召回率、F1分数,多维度分析与使用KNN的方法差异性,综合评判KNN在手写数字识别上的表现。

四种方法模型训练时间对比

图4 四种方法模型训练时间对比

如图4所示,展示了四种方法模型训练的耗时。可以直观的看出,在面对同样的数据时,CNN的训练耗时最长,KNN训练耗时次之,逻辑回归的训练耗时最短。根据这个图片说明KNN可能并不是最好的选择。

表4 四种方法模型性能指标对比
方法准确率精确率召回率F1分数
KNN0.9756 (±0.0114)0.9758 (±0.0122)0.9757 (±0.0101)0.9751 (±0.0114)
SVM0.9944 (±0.0057)0.9917 (±0.0187)0.9523 (±0.0552)0.9707 (±0.0312)
逻辑回归0.9878 (±0.0138)0.9546 (±0.0533)0.9189 (±0.1052)0.9350 (±0.0790)
CNN0.9778 (±0.0000)0.9783 (±0.0000)0.9777 (±0.0000)0.9778 (±0.0000)

表4的内容是使用5折交叉验证之后,四个模型的准确率、精确率、召回率、F1分数的性能表现。除了CNN之外,其他三种方法的模型性能都有小幅度的变化。

从表中可以看出,SVM在准确率和精确率上表现最优,分别达到0.9944和0.9917。这表明SVM在区分正确类别的能力上具有优势,尤其是在对分类边界的处理上更为精细。然而,SVM的召回率和F1分数(0.9523和0.9707)相比CNN有所下降,这说明在某些类别的样本中,SVM可能存在一定的漏检情况。此外,SVM的性能指标波动较小,但依然不及CNN的稳定性;逻辑回归的总体表现不如其他方法,特别是在召回率(0.9189)和F1分数(0.9350)上表现较低。这表明逻辑回归在处理多类别任务时可能存在一定的不足,尤其是对于较复杂的手写数字图像。尽管逻辑回归的准确率(0.9878)仍然较高,但其精确率和召回率的波动(分别为0.0533和0.1052)较大,说明该模型的稳定性较弱。

KNN方法在准确率(0.9756)、精确率(0.9758)、召回率(0.9757)和F1分数(0.9751)上表现较为均衡,且波动较小(±约0.01)。这表明KNN在手写数字识别任务中表现稳健,尤其适用于较小的数据集。然而,由于KNN方法需要计算所有训练样本的距离,模型的计算成本较高,不适合实时性要求较高的任务;CNN在召回率和F1分数上表现最佳,分别达到0.9777和0.9778,且在所有指标上的波动均为0。这表明CNN具有较强的稳定性和鲁棒性,能够较好地捕捉手写数字的局部特征,适用于复杂数据的分类任务。尽管CNN的准确率和精确率略低于SVM,但在实际场景中,CNN的稳定性和对数据分布的适应能力使其成为首选。

SVM和CNN虽然性能优异,但其计算成本较高,尤其是在大规模数据集上的训练时间较长。相较而言,逻辑回归和KNN的实现相对简单,更适合资源有限或对响应速度要求较高的场景。

如果应用场景对分类准确率和精确率要求较高,例如银行支票识别,SVM是一个较优选择;如果关注召回率,例如需要尽可能减少漏检的安全检查任务,CNN的表现更为适合;如果数据规模较小且需要快速部署,KNN方法的简便性和稳健性使其成为可行选择。

综合分析表4的结果,不同模型在手写数字识别任务中展现了各自的优势。SVM和CNN在性能上更为突出,但需要平衡计算成本和实际需求。在具体的应用场景中,模型的选择应以实际需求为导向,既要关注模型的分类性能,也要考虑其实现复杂度和运行效率。通过对不同模型的优势和不足的综合评估,为手写数字识别任务提供更加高效和可靠的解决方案。

本文内容主要基于我的学习和实验过程整理而成。如果文中存在任何错误、不足或模糊的地方,欢迎您批评指正。同时,如果您有任何疑问或感兴趣的内容,随时与我交流探讨,一起进步!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2256293.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Elasticsearch ILM 故障排除:常见问题及修复

作者:来自 Elastic Stef Nestor 大家好!我们的 Elasticsearch 团队正在不断改进我们的索引生命周期管理 (index Lifecycle Management - ILM) 功能。当我第一次加入 Elastic Support 时,我通过我们的使用 ILM 实现自动滚动教程快速上手。在帮…

【html网页页面009】html+css制作学校官网主题网页制作含登录(5页面附效果及源码)

校园网站主题网页制作 🥤1、写在前面🍧2、涉及知识🌳3、网页效果🌈4、网页源码4.1 html4.2 CSS4.3 源码获取w034学校网页源码及介绍链接 🐋5、作者寄语 🥤1、写在前面 学校网站主题的网页 一共5个页面 网…

JavaScript柯里化和组合函数以及严格模式介绍

柯里化介绍 柯里化的结构 简化版本 让函数的职责单一 柯里化的复用 对某些逻辑进行复用 打印日志的柯里化 自动化柯里化函数 实现柯理化函数 1.柯里化函数是对函数进行处理的方法,所以参数就为一个函数,这里取名w为fn 2.定义一个函数curried&#xff0…

查看 tomcat信息 jconsole.exe

Where is the jconsole.exe? location: JDK/bin/jconsole.exe

【SpringBoot】Day11-09 参数配置化

为什么需要参数配置化 对于这些配置信息是直接硬编码,写死在java程序中的,存在几个问题: 如果这些参数发生变化了,就必须在源程序代码中改动这些参数,然后需要重新进行代码的编译,将Java代码编译成class字节…

企业迎接现场网络安全检查准备

企业安全负责人一听到主管单位单位要来现场进行网络安全就紧张可是对于不少重点企业来说,现场检查又是不可避免的,今天就谈谈企业如何准备网络安全检查。 网络安全现场检查类型: 常规检查:年度例行重要信息系统网络安全检查&…

UE5.5 Geometry库平面切割原理分析

平面切割--FMeshPlaneCut 平面定义: 面上一个点 法线 算法流程如下 求几何体所有顶点和面的有向距离(Signs) Sign计算: float Sign (VertexPos - PlaneOrigin).Dot(PlaneNormal); 遍历所有几何体所有交叉边, 进行SplitEdge 对于位于切割面两侧的交叉边(Sign…

VideoConvertor.java ffmpeg.exe

VideoConvertor.java ffmpeg.exe 视频剪切原理 入点 和 出点 选中时间点,导出

react hooks讲解--通俗易懂版

面试必备&#xff01; useState:状态管理 useState有两个状态&#xff0c;一个是status&#xff0c;一个是setStatus setStatus修改数据后&#xff0c;会触发<App/>的re-render 什么是re-render? re-render:重新渲染&#xff0c;re-render并不意味着dom会更新&#x…

MongoDB集群的介绍与搭建

MongoDB集群的介绍与搭建 一.MongoDB集群的介绍 注意&#xff1a;Mongodb是一个比较流行的NoSQL数据库&#xff0c;它的存储方式是文档式存储&#xff0c;并不是Key-Value形式&#xff1b; 1.1集群的优势和特性 MongoDB集群的优势主要体现在以下几个方面&#xff1a; (1)高…

基于 Python、OpenCV 和 PyQt5 的人脸识别上课打卡系统

大家好&#xff0c;我是Java徐师兄&#xff0c;今天为大家带来的是基于 Python、OpenCV 和 PyQt5 的人脸识别上课签到系统。该系统采用 Python 语言开发&#xff0c;开发过程中采用了OpenCV框架&#xff0c;Sqlite db 作为数据库&#xff0c;系统功能完善 &#xff0c;实用性强…

element Plus中 el-table表头宽度自适应,不换行

在工作中&#xff0c;使用el-table表格进行开发后&#xff0c;遇到了小屏幕显示器上显示表头文字会出现换行展示&#xff0c;比较影响美观&#xff0c;因此需要让表头的宽度变为不换行&#xff0c;且由内容自动撑开。 以下是作为工作记录&#xff0c;用于demo演示教程 先贴个…

GitLab基础环境部署:Ubuntu 22.04.5系统在线安装GitLab 17.5.2实操手册

文章目录 GitLab基础环境部署&#xff1a;Ubuntu 22.04.5系统在线安装GitLab 17.5.2实操手册一、环境准备1.1 机器规划1.2 环境配置1.2.1 设置主机名1.2.2 停止和禁用防火墙1.2.3 更新系统 二、GitLab安装配置2.1 安装GitLab所需的依赖包2.2 添加GitLab存储库2.2.1 将GitLab存储…

1.3.3 存储系统

目录 存储器分类存储器的层次结构主存储器高速缓存的特点及组成外存储器的种类和特点 存储器分类 存储器按照所处位置、制作材料、访问方式、寻址方式、工作方式可以分成多种类型。 位置&#xff1a;在主机或主板上的是内存&#xff0c;否则是外存。材料&#xff1a;磁存储器&…

【PyQt5教程 一】Qt Designer 安装及其使用方法说明,附程序源码

目录 一、PyQt5介绍&#xff1a; &#xff08;1&#xff09;PyQt简介&#xff1a; &#xff08;2&#xff09;PyQt API&#xff1a; &#xff08;3&#xff09;支持的环境&#xff1a; &#xff08;4&#xff09;安装&#xff1a; &#xff08;5&#xff09;配置环境变量…

SPT: Revisiting the Power of Prompt for Visual Tuning

方法简介 方法很简单&#xff0c;作者通过实验发现prompt拥有一个良好的初始化是VPT的关键&#xff0c;于是作者就通过在MAE/MoCo进行预训练来得到一个良好的prompt的初始化来提供微调阶段的prompt。 这么简单的方法是怎么催成一篇顶会的呢&#xff1f;值得我们去学习&#xf…

基于事件驱动的websocket简单实现

websocket的实现 什么是websocket&#xff1f; WebSocket 是一种网络通信协议&#xff0c;旨在为客户端和服务器之间提供全双工、实时的通信通道。它是在 HTML5 规范中引入的&#xff0c;可以让浏览器与服务器进行持久化连接&#xff0c;以便实现低延迟的数据交换。 WebSock…

基于协同过滤算法的宠物用品商城的设计与实现(计算机毕业设计)Java Spring 衍生为任何商城系统 毕业论文

系统合集跳转 源码获取链接 一、系统环境 运行环境: 最好是java jdk 1.8&#xff0c;我们在这个平台上运行的。其他版本理论上也可以。 IDE环境&#xff1a; Eclipse,Myeclipse,IDEA或者Spring Tool Suite都可以 tomcat环境&#xff1a; Tomcat 7.x,8.x,9.x版本均可 操作系统…

文本预处理介绍

文本预处理 文本预处理1.认识文本预处理2.文本处理的基本方法2.1.什么是分词2.2 什么是命名实体化2.3词性标注 3.文本张量的表示方法3.1文本张量表示3.2 one-hot词向量表示 4.Word2vec模型4.1模型介绍4.2word2vec的训练和使用 5.词嵌入word embedding 介绍6.文本数据分析1.文本…

力扣3381.长度可被K整除的子数组的最大元素和

力扣3381.长度可被K整除的子数组的最大元素和 题目 题目解析及思路 题目要求返回一段长度为K的倍数的最大子数组和 同余前缀和 代码 class Solution { public:long long maxSubarraySum(vector<int>& nums, int k) {int n nums.size();vector<long long>…