机器学习(2)-- KNN算法之手写数字识别

news2024/9/22 15:34:42

KNN算法

KNN(K-Nearest Neighbor,K最近邻)算法是一种用于分类和回归的非参数统计方法,尤其在分类问题中表现出色。在手写数字识别领域,KNN算法通过比较测试样本与训练样本之间的距离,找到最近的K个邻居,并根据这些邻居的类别来预测测试样本的类别。

接下来,让我们详细了解了解,knn怎么进行手写数字识别:

数字识别

对于数字识别我们进行三个方面来完成它:

  1. 训练模型:得到模型
  2. 测试模型:测试模型识别的准确率
  3. 测试新的数据:查看实用效果

训练模型

  1. 收集数据

在这里插入图片描述

  1. 读取图片数据

使用opencv处理图片,将图片的像素数值读取进来,并返回的是一个三维(高,宽,颜色)numpy数组

 pip install opencv-python==3.4.11.45
import cv2
img = cv2.imread("digits.png")
  1. 转化灰度图

将图片转化为灰度图,从而让三维数组变成二位的数组:

gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
  1. 处理图像

对图片进行处理:将其先垂直切分(横向)成50份,再将每一份水平切分(竖向)成100份,这样我们的每份图片的像素值都为20*20(训练的图片比较规范)共500个,比如:

在这里插入图片描述

cells = [np.hsplit(row,100) for row in np.vsplit(gray,50)] #列表生成式
  1. 装进array数组

将切分的每一份图片像素数据都装进array数组中:

x = np.array(cells)
  1. 分隔数据

将数据竖着分隔一半,一半作为训练集,一般作为测试集:

train = x[:,:50]
test = x[:,50:100]
  1. 调整数据结构

由于我们最后要将数据放在KNN算法中训练,我们得将数据结构调整为适合KNN算法训练的结构,KNN要求输入的数据为二维数组,那么我们就来改变每份图片数组的维度:reshape:

train_new = train.reshape(-1,400).astype(np.float32)
  1. 分配标签

我们训练着那么多的数据,却没有给他们具体的类别标签(图像的实际值),因为我们之前的图像处理都是在寻找图像特征,但是并没有给他们一个具体对应的类别,只有空荡荡的特征,无法分类,所以我们得给切分的每份图片打上它们对应的标签:

#repeat用于重复数组中数值,此处重复250次,因为训练集中表示每个类别的图片只有250个,要将它们一一对应打上标签
#np.newaxis用于在数组中创建一个新的维度,即将每个标签单独放
#原本[00000……1111……] ----> [[0][0]……[1][1]……]
k = np.arange(10)
train_mark = np.repeat(k,250)[:,np.newaxis]
  1. 训练模型

在训练时,将训练集与标签一一对应训练:

#通过cv2创建一个knn模型
knn = cv2.ml.KNearest_create()
#cv2.ml.ROW_SAMPLE:告诉opencv将训练的数据与类别按行一一对应训练
knn.train(train_new,cv2.ml.ROW_SAMPLE,train_mark)

这样我们就训练好的这份简单的数据内容,训练了一个可以识别数字0~9的模型,模型训练完了,我们总得知道它到底能不能识别数字吧?识别数字成功的准确率能达到多少呢?

测试模型

  1. 评估性能:测试模型帮助评估模型的准确性、效率、鲁棒性和其他性能指标。
  2. 识别问题:通过测试,可以及早发现和定位模型或产品中的缺陷、错误或不足之处。
  3. 优化和改进:测试模型提供的数据和反馈是优化和改进模型或产品的关键依据。基于测试结果,可以调整模型参数、改进算法设计、优化系统架构等,以提升模型或产品的性能和质量。

那么我们来测试我们刚刚训练出的模型:

前面说了,图片中的数据一半作为训练集,一半作为测试集,将测试集数据也进行以上操作:

test_new = test.reshape(-1,400).astype(np.float32) #调整数据结构
test_labels = np.repeat(k,250)[:,np.newaxis] #分配标签

处理好测试集的数据之后,我们来测试模型:

#将测试集放入模型测试
ret,result,neighbours,dist = knn.findNearest(test_new,k=3)
    #ret:表示操作是否成功
    #result:表示测试样本的预测标签(浮点数组)
    #neighbours:表示与测试样本最近的k个邻居的索引(整数数组)
    #dist:表示测试样本与每个最近邻居之间的距离(浮点数组)
#通过测试集校验准确率
matches = result==test_labels #将模型对测试集的预测结果(result)与实际的测试标签(test_labels)进行比较。
correct = np.count_nonzero(matches) #计算 matches 数组中 True(即正确预测)的数量
accuracy = correct*100.0/result.size #result.size 返回 result 数组中的元素总数
print("当前准确率为:",accuracy)

模型测试完成后,我们要尝试它在实际中的使用效果,查看其实用性。

测试新的数据

在画图软件中,画几个像素值20*20的图片,让其进入模型看看测试结果:比如:

在这里插入图片描述

这个测试数据已经进行了一部分的处理:

#处理图片
try_img = cv2.imread("4.png")  #读取图片
try_gray = cv2.cvtColor(try_img,cv2.COLOR_BGR2GRAY) #转为灰度图,二维
z = np.array(try_gray) #装入二维数组
try_new = z.reshape(-1,400).astype(np.float32) #调整结构,适用于KNN
#测试结果
ret,result,neighbours,dist = knn.findNearest(try_new,k=3)
print(result)  #查看测试结果,显示分类类别
------------------
[[4.]]  #测试结果正确

总结

本篇介绍了如何使用KNN算法进行手写数字识别:

  1. 训练模型:收集数据 – 读取图片数据 – 转化灰度图 – 处理图像 – 装进array数组 – 调整数据结构 – 分配标签 – 训练模型

  2. 测试模型:评估性能 – 识别问题 – 优化和改进

  3. 测试数据:查看实用性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2047156.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智能监控,无忧仓储:EasyCVR视频汇聚+AI智能分享技术为药品仓库安全保驾护航

随着科技的飞速发展,药品仓库的安全管理正迎来前所未有的变革。药品作为直接关系到公众健康的重要物资,其安全存储和监管显得尤为重要。在这个背景下,视频汇聚平台EasyCVR视频智能管理系统的应用,为药品仓库的安全监管提供了强有力…

【Bug记录】友元函数不能访问私有成员?

项目场景: 问题源码: class Person { public:friend void Display(const Person& p, const Student& s);protected:string _name "1"; // 姓名 };class Student : public Person { protected:string _s "2"; };void Disp…

HTML静态网页成品作业(HTML+CSS)——自行车介绍网页设计制作(1个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码CSS部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有1个页面。 &#x1…

在业务增长、风险管理和网络安全之间取得平衡

疫情过后,商业环境和文化发生了重大变化,值得我们仔细考虑。我们都变得更加依赖技术,我们的工作方法也发生了变化,网络风险变得更加突出和持久。 监管领域变得更加积极和严格,特别是在安全和数据隐私问题方面。人工智…

OpenCV图像滤波(18)空间梯度计算函数spatialGradient()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 计算图像在x和y两个方向上的一阶导数,使用Sobel算子。 等价于调用: Sobel( src, dx, CV_16SC1, 1, 0, 3 ); Sobel( src,…

AI赋能软件测试:从自动化到智能化,让测试工作事半功倍

引言 在当今这个日新月异的数字时代,人工智能(AI)正以不可阻挡之势渗透并重塑着各行各业,其中,软件开发与测试领域更是迎来了前所未有的变革。随着软件系统的复杂性日益增加,用户对软件质量、性能及安全性的…

全息光存储技术能否取代硬盘?

随着云计算的迅猛发展及其支持的应用程序的日益丰富,现有数据存储技术面临着前所未有的挑战。目前,云存储主要依赖于固态硬盘(SSD)和硬盘驱动器(HDD)。其中,HDD因其成本低廉,在大容量…

LVGL系列2--linux + lvglv8 + vscode 移植

LVGL系列 一、LVGL移植 LVGL系列1–AT32移植LVGL_V8具体步骤 LVGL系列2–linux lvglv8 vscode 移植 二、输入设备 LVGL系列3–纯物理(外部)按键,数字键盘控制控件 文章目录 LVGL系列一、LVGL移植二、输入设备 一、新建文件夹并克隆源码官方仓库 7.11.0官方仓库…

BL196MQTT远程IO模块助力智能楼宇自动化升级

在智能楼宇自动化领域,每一个细节的优化都能带来整体效率与舒适度的显著提升。钡铼技术的BL196MQTT远程IO模块,以其卓越的灵活性和强大的性能,正在成为这一领域中推动楼宇自动化升级的关键力量。 钡铼技术IOy系列:创新与灵活性的…

R语言统计分析——OLS回归2

参考资料&#xff1a;R语言实战【第2版】 1、简单线性回归 本例使用R语言中基础安装中的数据集women&#xff0c;来通过身高预测体重&#xff0c;获得一个等式帮助我们分辨出那些过重或过轻的个体。 # 拟合数据 fit<-lm(weight~height,datawomen) # 查看数据拟合结果 summ…

HTTPS通讯全过程

HTTPS通讯全过程 不得不说&#xff0c;https比http通讯更加复杂惹。在第一次接触https代码的时候&#xff0c;不知道为什么要用用证书&#xff0c;公钥是什么&#xff1f;私钥是什么&#xff1f;他们作用是什么&#xff1f;非对称加密和对称加密是啥&#xff1f;天&#xff0c;…

Redis 单线程为何还能处理速度那么快?

Redis 单线程为何还能处理速度那么快&#xff1f; &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; Redis&#xff0c;作为一款单进程单线程的内存型数据库&#xff0c;其卓越的处理速度令人印象深刻。那么&#xff0c;它是如何实现这一点的呢…

用Python实现9大回归算法详解——05. 梯度提升回归(Gradient Boosting Regression)

1. 梯度提升回归的基本概念 1.1 什么是梯度提升&#xff1f; 梯度提升是一种集成学习方法&#xff0c;通过组合多个弱学习器来构建一个强大的预测模型。在梯度提升框架中&#xff0c;每个弱学习器都试图修正前一个模型的错误。与简单的加法模型不同&#xff0c;梯度提升通过逐…

基于YOLOv8的缺陷检测任务模型训练

文章目录 一、引言二、环境说明三、缺陷检测任务模型训练详解3.1 PCB数据集3.1.1 数据集简介3.1.2 数据集下载3.1.3 构建yolo格式的数据集 3.2 基于ultralytics训练YOLOv83.2.1 安装依赖包3.2.2 ultralytics的训练规范说明3.2.3 创建训练配置文件3.2.4 下载预训练模型3.2.5 训练…

Android逆向题解攻防世界-easy-apk

Jeb反编译apk 题目比较简单&#xff0c;就是一个改了码表的base64编码。 protected void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);this.setContentView(0x7F04001B); // layout:activity_main((Button)this.findViewById(0x7F0B0076)).set…

在已经装过Tomcat机子运行war包

1 检查防火墙&#xff0c;验证是否装有jdk,是否配置有JAVA_HOME: ls /usr/apache-tomcat-9.0.52/webapps/ROOT rm -rf /usr/apache-tomcat-9.0.52/webapps/ROOT* ls /usr/apache-tomcat-9.0.52/webapps/ROOT cd /usr/apache-tomcat-9.0.52/webapps/ROOT ls 把war包拉到ROOT…

Python | Leetcode Python题解之第342题整数拆分

题目&#xff1a; 题解&#xff1a; class Solution:def integerBreak(self, n: int) -> int:if n < 3:return n - 1quotient, remainder n // 3, n % 3if remainder 0:return 3 ** quotientelif remainder 1:return 3 ** (quotient - 1) * 4else:return 3 ** quotie…

革新测试管理:集远程、协同、自动化于一身的统一测试管理平台

一、研发背景 当下汽车电子测试领域随着不断发展&#xff0c;自动化、智能化的软硬件一体测试解决方案已经成为趋势。能够整合各种测试资源、自动化测试流程&#xff0c;并提供数据分析和可视化报告&#xff0c;从而提高测试效率、降低成本&#xff0c;并确保汽车电子系统的可…

金价多次尝试刷新最高纪录,美国零售销售数据是绊马索

金价一直在试探新高&#xff0c;该纪录为每盎司2,485美元。而且&#xff0c;强劲的美国零售销售报告正在阻止金价的上涨。 由于强大的阻力&#xff0c;金价无法继续上涨。一周的净空头头寸大增。 发布了强于预期的美国零售销售报告后&#xff0c;金价承受了压力。期望的50个基…

springboot schedule配置多任务并行,任务本身串行

场景&#xff1a; 每日凌晨要执行两个定时任务&#xff0c;分别属于两个业务。有一个业务的定时任务执行时间较长&#xff0c;该任务没执行完之前不能重复执行&#xff08;事务&#xff09;。即业务与业务之间并行&#xff0c;任务本身串行。 技术栈&#xff1a; 采用spring…