【机器学习(四)】基于KNN算法对鸢尾花类别进行分类预测

news2024/11/24 17:09:53

在这里插入图片描述

文章目录

  • 专栏导读
  • 1、KNN算法原理
  • 2、实战案例-对鸢尾花类别分类预测
    • 2.1确定特征和类别
    • 2.2对特征进行处理
    • 2.3对模型调参,选择最优参数
    • 2.4使用分类模型进行预测
    • 2.5评估模型,检验模型效果
  • 3、完整代码及结果

专栏导读

✍ 作者简介:i阿极,CSDN Python领域新星创作者,专注于分享python领域知识。

本文录入于《数据分析之术》,本专栏精选了经典的机器学习算法进行讲解,针对大学生、初级数据分析工程师精心打造,对机器学习算法知识点逐一击破,不断学习,提升自我。
订阅后,可以阅读《数据分析之术》中全部文章内容,详细介绍数学模型及原理,带领读者通过模型与算法描述实现一个个案例。
还可以订阅基础篇《数据分析之道》,其包含python基础语法、数据结构和文件操作,科学计算,实现文件内容操作,实现数据可视化等等。
✍ 其他专栏:《数据分析案例》 ,《机器学习案例》

1、KNN算法原理

K最近邻(K-Nearest Neighbor,KNN)算法是一种用于分类和回归的非参数模型,它可以用于模式识别、图像处理、语音识别和推荐系统等领域。

KNN算法的基本思想是根据样本之间的距离和相似性进行分类,即将一个新的样本分类为其最近的K个邻居中最常见的类别。

KNN算法可以分为两个阶段:训练和预测。

  • 训练阶段:训练数据集中的每个样本由特征和标签组成,KNN算法将其全部保存下来,构成训练模型。

  • 预测阶段:给定一个新的样本,KNN算法首先计算其与训练集中每个样本的距离,并选取与其距离最近的K个训练集样本,然后根据这K个样本的标签来预测新样本的类别。

KNN算法中的距离通常使用欧氏距离来度量,其公式为:
在这里插入图片描述
其中, x x x y y y表示两个样本向量, n n n表示特征的数量。

在KNN算法中,关键参数是K值的选择。K值的选择对于KNN算法的准确性和泛化能力有很大的影响。通常来说,K值较小会导致模型对噪声敏感,而K值较大会导致模型过于平滑。

确定K值的方法一般有两种:

  • 网格搜索法:对于每个候选的K值,在训练集上进行交叉验证,找到最优的K值。
  • 经验法则:通常将K设置为小于样本数平方根的整数,例如样本数为1000,则K取值范围可以为1-31之间的奇数。

举个例子来说,假设有一个二维数据集,有两个类别,分别是红色和蓝色,如下图所示:

对于一个新样本点(绿色圆点),我们需要使用KNN算法来预测它所属的类别。首先,我们选择一个合适的K值,比如K=5。接着,我们计算新样本点与所有训练集中样本点的距离,并选择距离最近的5个点作为邻居,如下图所示:
在这里插入图片描述

由于这五个邻居中,有3个是蓝色的,2个是红色的,因此我们预测新样本点属于蓝色类别。如果K值为3,则预测结果是红色类别。

2、实战案例-对鸢尾花类别分类预测

我们将使用sklearn中的鸢尾花数据集来实现一个分类预测的案例。

2.1确定特征和类别

我们将使用鸢尾花数据集中的4个特征(花萼长度、花萼宽度、花瓣长度和花瓣宽度)来预测鸢尾花的类别(Setosa、Versicolor和Virginica)。

# 导入相关的库
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import confusion_matrix, accuracy_score

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

2.2对特征进行处理

我们不需要对特征进行处理,因为鸢尾花数据集已经是一个规范化的数据集。
直接划分训练集和测试集并定义KNN分类模型和需要搜索的K值。

# 将数据集分成训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定义KNN分类器
knn = KNeighborsClassifier()

# 定义需要搜索的K值
param_grid = {'n_neighbors': [1, 3, 5, 7, 9, 11]}

2.3对模型调参,选择最优参数

KNN算法有一个重要的参数K,用来确定最近邻居的数量。我们需要使用交叉验证的方法来选择最优的K值。在本案例中,我们将使用GridSearchCV函数来进行交叉验证和参数选择。

# 使用GridSearchCV函数进行交叉验证和参数选择
grid_search = GridSearchCV(knn, param_grid, cv=5)
grid_search.fit(X_train, y_train)

2.4使用分类模型进行预测

# 使用最优的K值重新训练模型
knn = KNeighborsClassifier(n_neighbors=grid_search.best_params_['n_neighbors'])
knn.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = knn.predict(X_test)

2.5评估模型,检验模型效果

我们将使用混淆矩阵、准确率、召回率和F1值等指标来评估模型的效果。

# 输出混淆矩阵
plot_confusion_matrix(knn_model, X_test, y_test)
plt.title('Confusion Matrix')
plt.show()

# 输出分类报告
print(classification_report(y_test, y_pred))

# 输出准确率、召回率和F1值的可视化
from sklearn.metrics import precision_recall_fscore_support

precision, recall, f1, _ = precision_recall_fscore_support(y_test, y_pred, average='weighted')
plt.bar(['Precision', 'Recall', 'F1'], [precision, recall, f1])
plt.ylim(0, 1)
plt.title('Precision, Recall, F1 Score')
plt.show()

3、完整代码及结果

# 导入相关的库
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import confusion_matrix, accuracy_score

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 将数据集分成训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定义KNN分类器
knn = KNeighborsClassifier()

# 定义需要搜索的K值
param_grid = {'n_neighbors': [1, 3, 5, 7, 9, 11]}

# 使用GridSearchCV函数进行交叉验证和参数选择
grid_search = GridSearchCV(knn, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# 输出最优的K值
print("Best K:", grid_search.best_params_)

# 使用最优的K值重新训练模型
knn = KNeighborsClassifier(n_neighbors=grid_search.best_params_['n_neighbors'])
knn.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = knn.predict(X_test)

# 输出混淆矩阵和准确率
print("Confusion matrix:")
print(confusion_matrix(y_test, y_pred))
print("Accuracy score:", accuracy_score(y_test, y_pred))

from sklearn.metrics import plot_confusion_matrix, classification_report
import matplotlib.pyplot as plt

# 输出混淆矩阵
plot_confusion_matrix(knn, X_test, y_test)
plt.title('Confusion Matrix')
plt.show()

# 输出分类报告
print(classification_report(y_test, y_pred))

# 输出准确率、召回率和F1值的可视化
from sklearn.metrics import precision_recall_fscore_support

precision, recall, f1, _ = precision_recall_fscore_support(y_test, y_pred, average='weighted')
plt.bar(['Precision', 'Recall', 'F1'], [precision, recall, f1])
plt.ylim(0, 1)
plt.title('Precision, Recall, F1 Score')
plt.show()

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

📢文章下方有交流学习区!一起学习进步!💪💪💪
📢首发CSDN博客,创作不易,如果觉得文章不错,可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/417907.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

nginx-代理多个服务

目录 1.主机多Ip 1.1单网卡多ip主机配置 1.2修改default.conf 1.3server1.conf 1.3server2.conf 1.4测试文件 1.4重启测试 2.主机多端口 2.1server1.conf 2.2server2.conf 3.多域名代理 3.1server1.conf 3.2server2.conf 1.主机多Ip 1.1单网卡多ip主机配置 # 查看…

echart图表渲染合并策略

目录 调用方式 notMerge 普通合并 规则 例子 替换合并 规则 例子 echarts渲染函数setOption 调用方式 chart.setOption(option, {notMerge: boolean;replaceMerge?: string | string[];lazyUpdate: boolean; }); notMerge false (默认) 如果…

【Unity URP】2种描边方案:模板测试和正面剔除

写在前面 风格化不像PBR,好像没有套路可言,,,简直是《怎么好看怎么来》的最大化实践了!感觉出的PBRNPR也是为了更好地利用PBR资产才诞生的这样一个渲染方案。(当然我的评价非常非常的片面,瞎说…

帆软FineReport学习篇(四)——父子格设置

帆软FineReport学习篇(四)——父子格设置 1.概念 子单元格设置父单元格后,子单元格随父单元格进行扩展 简易的说,子单元格根据父单元格分组显示2 对比示意图 2.1 左父格对比示意图 2.2 上父格对比示意图 3 制作分组报表 3.1 新建普通报表WorkBook2.cpt 3.1.1 点击文件➡点…

OldWang带你了解MySQL(六)

文章目录🔥SQL函数🔥单行函数🔥字符函数🔥数字函数🔥日期函数🔥转换函数🔥通用函数🔥SQL函数 函数介绍 函数是 SQL 的一个非常强有力的特性,函数能够用于下面的目的&a…

【 SpringBoot ⽇志⽂件 】

文章目录一、⽇志的作用二、认识⽇志三、⾃定义⽇志打印3.1 在程序中得到⽇志对象3.2 使⽤⽇志对象打印⽇志3.3 ⽇志格式说明四、⽇志级别4.1 ⽇志级别的作用4.2 ⽇志级别的分类与使⽤4.2.1 ⽇志级别的分类4.2.2 ⽇志使⽤4.2.2.1 配置全局日志级别4.2.2.2 配置局部文件夹的日志…

【通过Cpython3.9源码看看python的内存回收机制】

一:建立对象引用计数 1. 相关代码 void _Py_NewReference(PyObject *op) {if (_Py_tracemalloc_config.tracing) {_PyTraceMalloc_NewReference(op);} #ifdef Py_REF_DEBUG_Py_RefTotal; #endifPy_SET_REFCNT(op, 1); #ifdef Py_TRACE_REFS_Py_AddToAllObjects(op…

【算法】AB3DMOT之Sutherland Hodgman多边形裁剪

在AB3MOT模型中有一个步骤为计算IOU时,需要先计算两个立体在地面的投影2D形状,然后计算两个投影的重叠部分,实际上为多边形的裁剪算法。 AB3MOT classmethod def box2corners3d_camcoord(cls, bbox):Takes an objects 3D box with the repr…

懒人式迁移服务器深度学习环境(完全不需要重新下载)

换服务器了?想迁移原来服务器上的深度学习环境,但又觉得麻烦懒得重新安装一遍anaconda、pytorch?有没有办法能不费吹灰之力直接迁移?接下来跟着我一起,懒汉式迁移。   本方法适用于在同一内网下的两台服务器之间互相…

【深度强化学习】(8) iPPO 模型解析,附Pytorch完整代码

大家好,今天和各位分享一下多智能体深度强化学习算法 ippo,并基于 gym 环境完成一个小案例。完整代码可以从我的 GitHub 中获得:https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model 1. 算法原理 多智能体的情形相比于单智…

SpringCloud GateWay与Nacos使用

网关就相当于一个内网与外网的出入口,起着 安全、验证的功能,如果没有网关,那么如果需要实现验证的功能,除非 SpringCloud GateWay 作为微服务的网关,起着如下作用 ① 作为所有API接口服务请求的接入点 ② 作为所有后端业务服务…

SpringBoot 整合 RabbitMQ (四十一)

二八佳人体似酥,腰间仗剑斩愚夫。虽然不见人头落,暗里教君骨髓枯。 上一章简单介绍了SpringBoot 实现 Web 版本控制 (四十),如果没有看过,请观看上一章 关于消息中间件 RabbitMQ, 可以看老蝴蝶之前的文章: https://blog.csdn.net/yjltx1234csdn/categor…

还不懂如何与AI高效交流?保姆级且全面的chatGPT提示词工程教程来啦!(一)基础篇

还不懂如何与chatGPT高效交流?保姆级且全面的chatGPT提示词工程教程来啦!(一)基础篇 文章目录还不懂如何与chatGPT高效交流?保姆级且全面的chatGPT提示词工程教程来啦!(一)基础篇一&…

CDH6.3.2大数据集群生产环境安装(七)之PHOENIX组件安装

添加phoenix组件 27.1. 准备安装资源包 27.2. 拷贝资源包到相应位置 拷贝PHOENIX-1.0.jar到/opt/cloudera/csd/ 拷贝PHOENIX-5.0.0-cdh6.2.0.p0.1308267-el7.parcel.sha、PHOENIX-5.0.0-cdh6.2.0.p0.1308267-el7.parcel到/opt/cloudera/parcel-repo 27.3. 进入cm页面进行分发、…

【AIGC】9、BLIP-2 | 使用 Q-Former 连接冻结的图像和语言模型 实现高效图文预训练

文章目录一、背景二、方法2.1 模型结构2.2 从 frozen image encoder 中自主学习 Vision-Language Representation2.3 使用 Frozen LLM 来自主学习 Vision-to-Language 生成2.4 Model pre-training三、效果四、局限性论文:BLIP-2: Bootstrapping Language-Image Pre-…

unity 序列化那些事,支持Dictionary序列化

目录 一、普通类型和UnityEngine空间类型序列化 二、数组、list的序列化 三、自定义类的序列化支持 四、自定义asset 五、在inspector面板中支持Dictionary序列化 1、在MonoBehaviour中实现Dictionary序列化 2、自定义property,让其在inpsector能够显示 3、Mo…

【从零开始学Skynet】实战篇《球球大作战》(七):gateway代码设计(下)

1、确认登录接口 在完成了登录流程后,login会通知gateway(第⑧阶段),让它把客户端连接和新agent(第⑨阶段)关联起来。 sure_agent代码如下所示: s.resp.sure_agent function(source, fd, play…

[Gitops--1]GitOps环境准备

GitOps环境准备 1. 主机规划 序号主机名主机ip主机功能软件1dev192.168.31.1开发者 项目代码 apidemogit,golang,goland2gitlab192.168.31.14代码仓库,CI操作git-lab,git,golang,docker,gitlab-runner3harbor192.168.31.104管理和存储镜像docker,docker-compose,harbor4k8s-m…

基础排序算法【计数排序】非比较排序

基础排序算法【计数排序】非比较排序⏰【计数排序】🕐计数🕦排序🕓测试⏰总结:⏰【计数排序】 计数排序又称为鸽巢原理,是对哈希直接定址法的变形应用 > 基本思路: 1.统计数据出现的次数 2.根据统计的结…

并行分布式计算 并行算法与并行计算模型

文章目录并行分布式计算 并行算法与并行计算模型基础知识定义与描述复杂性度量同步和通讯并行计算模型PRAM 模型异步 PRAM 模型 (APRAM)BSP 模型LogP 模型层次存储模型分层并行计算模型并行分布式计算 并行算法与并行计算模型 基础知识 定义与描述 并…