机器学习实战:一文详解K近邻算法,包括原理解析+实战案例

news2025/1/6 18:35:19

各位同学好,今天我向大家介绍一下python机器学习中的K近邻算法。内容有:

  • K近邻算法的原理解析;
  • 实战案例–红酒分类预测。

案例简介:有178个红酒样本,每一款红酒含有13项特征参数,如镁、脯氨酸含量,红酒根据这些特征参数被分成3类。要求是任意输入一组红酒的特征参数,模型需预测出该红酒属于哪一类。

数据集、完整代码在文章最下面获取。

文章目录

  • 1. K近邻算法介绍
    • 1.1 算法原理
    • 1.2 算法优缺点
  • 2. 红酒数据集
    • 2.1 数据集获取方式
    • 2.2 获取红酒数据
  • 3. 红酒分类预测
    • 3.1 划分测试集和训练集
    • 3.2 数据标准化
  • 3.3 K近邻预测分类
      • .score(x_test, y_test)
      • .predict(用于预测的特征值)
    • 完整代码及数据

1. K近邻算法介绍

1.1 算法原理

原理:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,那么该样本也属于这个类别。简单来说就是,求两点之间的距离,看距离谁是最近的,以此来区分我们要预测的这个数据是属于哪个分类。

我们看图来理解一下。蓝色点是属于a类型的样本点,粉色点是属于b类型的样本点。此时新来了一个点(黄色点),怎么判断是属于它是a类型还是b类型呢。

方法是:新点找距离自身最近的k个点(k可变)。分别计算新点到其他各个点的距离,按距离从小到大排序,找出距离自身最近的k个点。统计在这k个点中,有多少点属于a类,有多少点属于b类。**在这k个点中,如果属于b类的点更多,那么这个新点也属于b分类。**距离计算公式也是我们熟悉的勾股定理。

1.2 算法优缺点

算法优点:简单易理解、无需估计参数、无需训练。适用于几千-几万的数据量。

算法缺点: 对测试样本计算时的计算量大,内存开销大,k值要不断地调整来达到最优效果。k值取太小容易受到异常点的影响,k值取太多产生过拟合,影响准确性。

2. 红酒数据集

2.1 数据集获取方式

红酒数据集是Scikit-learn库中自带的数据集,我们只需要直接调用它,然后打乱它的顺序来进行我们自己的分类预测。首先我们导入Scikit-learn库,如果大家使用的是anaconda的话,这个库中的数据集都是提前安装好了的,我们只需要调用它即可。

Scikit-learn数据集获取方法:

(1)用于获取小规模数据集,数据集已在系统中安装好了的

sklearn.datasets.load_数据名()

from sklearn import datasets
#系统中已有的波士顿房价数据集
boston = datasets.load_boston()  

(2)远程获取大规模数据集安装到本地,data_home默认是位置是/scikit_learn_data/

sklearn.datasets.fetch_数据名(data_home = 数据集下载目录)

# 20年的新闻数据下载到
datasets.fetch_20newsgroups(data_home = './newsgroups.csv') #指定文件位置

这两种方法返回的数据是 .Bunch类型,它有如下属性:

data:特征数据二维数组;相当于x变量
target:标签数组;相当于y变量
DESCR:数据描述
feature_names:特征名。新闻数据、手写数据、回归数据没有
target_name:标签名。回归数据没有

2.2 获取红酒数据

首先导入sklearn的本地数据集库,变量wine获取红酒数据,由于wine接收的返回值是**.Bunch类型的数据,因此我用win_data接收所有特征值数据**,它是178行13列的数组,每一列代表一种特征win_target用来接收所有的目标值,本数据集中的目标值为0、1、2三类红酒。如果大家想更仔细的观察这个数据集,可以通过wine.DESCR来看这个数据集的具体描述

然后把我们需要的数据转换成DataFrame类型的数据。为了使预测更具有一般性,我们把这个数据集打乱。操作如下:

from sklearn import datasets
wine = datasets.load_wine()  # 获取葡萄酒数据
wine_data = wine.data  #获取葡萄酒的索引data数据,178行13列
wine_target = wine.target  #获取分类目标值

# 将数据转换成DataFrame类型
wine_data = pd.DataFrame(data = wine_data)
wine_target = pd.DataFrame(data = wine_target)

# 将wine_target插入到第一列,并给这一列的列索引取名为'class'
wine_data.insert(0,'class',wine_target)

# ==1== 变量.sample(frac=1)           表示洗牌,重新排序
# ==2== 变量.reset_index(drop=True)   使index从0开始排序

wine = wine_data.sample(frac=1).reset_index(drop=True)  #把DataFrame的行顺序打乱

我们取出最后10行数据用作后续的验证预测结果是否正确,这10组数据分出特征值(相当于x)和目标值(相当于y)。剩下的数据也分出特征值features和目标值targets,用于模型训练。剩下的数据中还要划分出训练集和测试集,下面再详述。到此,数据处理这块完成。

#取后10行,用作最后的预测结果检验。并且让index从0开始,也可以不写.reset_index(drop=True)
wine_predict = wine[-10:].reset_index(drop=True)  
# 让特征值等于去除'class'后的数据
wine_predict_feature = wine_predict.drop('class',axis=1)
# 让目标值等于'class'这一列
wine_predict_target = wine_predict['class']

wine = wine[:-10]  #去除后10行
features = wine.drop(columns=['class'],axis=1)  #删除class这一列,产生返回值
targets = wine['class']  #class这一列就是目标值

3. 红酒分类预测

3.1 划分测试集和训练集

一般采用75%的数据用于训练,25%用于测试,因此在数据进行预测之前,先要对数据划分。

划分方式:

使用sklearn.model_selection.train_test_split 模块进行数据分割。

x_train,x_test,y_train,y_test = train_test_split(x, y, test_size=数据占比)

train_test_split() 括号内的参数:
x:数据集特征值(features)
y:数据集目标值(targets)
test_size: 测试数据占比,用小数表示,如0.25表示,75%训练train,25%测试test。

train_test_split() 的返回值:
x_train:训练部分特征值
x_test: 测试部分特征值
y_train:训练部分目标值
y_test: 测试部分目标值

# 划分测试集和训练集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(features,targets,test_size=0.25)

3.2 数据标准化

由于不同数据的单位不同,数据间的跨度较大,对结果影响较大,因此需要进行数据缩放,例如归一化和标准化。考虑到归一化的缺点:如果异常值较多,最大值和最小值间的差值较大,会造成很大影响。我采用数据标准化的方法,采用方差标准差,使标准化后的数据均值为0,标准差为1,使数据满足标准正态分布。

# 先标准化再预测
from sklearn.preprocessing import StandardScaler  #导入标准化缩放方法
scaler = StandardScaler()  #变量scaler接收标准化方法
# 传入特征值进行标准化
# 对训练的特征值标准化
x_train = scaler.fit_transform(x_train) 
# 对测试的特征值标准化
x_test = scaler.fit_transform(x_test)   
# 对验证结果的特征值标准化
wine_predict_feature = scaler.fit_transform(wine_predict_feature) 


3.3 K近邻预测分类

使用sklearn实现k近邻算法

from sklearn.neighbors import KNeighborsClassifier

KNeighborsClassifier(n_neighbors = 邻居数,algorithm = ‘计算最近邻居算法’)

.fit(x_train,y_train)

KNeighborsClassifier() 括号内的参数:

n_neighbors:int类型,默认是5,可以自己更改。(找出离自身最近的k个点)

algorithm:用于计算最近邻居的算法。有:‘ball_tree’、‘kd_tree’、‘auto’。默认是’auto’,根据传递给**fit()**方法的值来决定最合适的算法,自动选择前两个方法中的一个。

from sklearn.neighbors import KNeighborsClassifier  #导入k近邻算法库
# k近邻函数
knn = KNeighborsClassifier(n_neighbors=5,algorithm='auto')
# 把训练的特征值和训练的目标值传进去
knn.fit(x_train,y_train)

将训练所需的特征值和目标值传入.fit()方法之后,即可开始预测。首先利用**.score()评分法输入用于测试的特征值和目标值,来看一下这个模型的准确率是多少,是否是满足要求,再使用.predict()方法预测**所需要的目标值。

评分法:根据x_test预测结果,把结果和真实的y_test比较,计算准确率

.score(x_test, y_test)

预测方法:

.predict(用于预测的特征值)

# 评分法计算准确率
accuracy = knn.score(x_test,y_test)
# 预测,输入预测用的x值
result = knn.predict(wine_predict_feature)

accuracy存放准确率,result存放预测结果,最终准确率为0.952, 最终的分类结果和wine_predict_target存放的实际分类结果有微小偏差。

完整代码及数据

完整代码及数据已放置后台,按关键字回复即可,想加入技术交流,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

方式①、添加微信号:dkl88191,备注:来自CSDN+ K近邻算法
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:K近邻算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/163867.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从 PageHelper 到 MyBatis Plugin

在很多业务场景下我们需要去拦截 SQL,达到不入侵原有代码业务处理一些东西,比如:历史记录、分页操作、数据权限过滤操作、SQL 执行时间性能监控等等,这里我们就可以用到 MyBatis 的插件 Plugin。下面我们来了解一下 Plugin 到底是…

代码随想录算法训练营第11天 20.有效的括号、150.逆波兰表达式求值、1047. 删除字符串中的所有相邻重复项

代码随想录算法训练营第11天 20.有效的括号、150.逆波兰表达式求值、1047. 删除字符串中的所有相邻重复项 有效的括号 力扣题目链接(opens new window) 给定一个只包括 ‘(’,‘)’,‘{’,‘}’,‘[’,‘]’ 的字符…

JVM基础详解

1.JVM内存结构 1.1 内存结构划分 以上代码执行过程: 执行 javac 命令编译源代码为字节码 执行 java 命令 创建 JVM,调用类加载子系统加载 class,将类的信息存入方法区创建 main 线程,使用的内存区域是 JVM 虚拟机栈,开…

[JAVA安全]weblogic反序列化介绍及环境搭建

weblogic反序列化介绍 weblogic是一个常用的web中间件,它的反序列化漏洞也算是比较经典,而在weblogic里面其实反序列化漏洞大致分为两种,一个是基于T3协议的反序列化漏洞,一个是基于XML的反序列化漏洞,以后再说吧&…

用R语言画切线和法线

文章目录7 法线梯度、切线和法线切线和法线的绘制7 法线 梯度、切线和法线 为了书写方便,记xix1,x2,...,xnx_ix_1,x_2,...,x_nxi​x1​,x2​,...,xn​,∂f∂xi∂f∂x1,∂f∂x2,⋯∂f∂xn\frac{\partial f}{\partial x_i}\frac{\partial f}{\partial x_…

springboot+rabbitmq搭建mqtt协议实现订阅发布(亲测9w消息并发)

一、mqtt协议简单介绍 mqtt是一种基于发布/订阅(publish/subscribe)模式的轻量级通讯协议,通过订阅相应的主题来获取消息,是物联网(Internet of Thing)中的一个标准传输协议。 二、rabbitmq的安装部署 1. …

c# 随机数,c# 生成随机数,c# 生成区间随机数,c# 生成随机数组

c# 随机数,c# 生成随机数,c# 生成区间随机数,c# 生成随机数组 小试牛刀 先看结果 生成200-700之间的5个随机数 第1的随机数是:647 第2的随机数是:219 第3的随机数是:311 第4的随机数是:210 第5…

Redisson的看门狗机制

背景 据Redisson官网的介绍,Redisson是一个Java Redis客户端,与Spring 提供给我们的 RedisTemplate 工具没有本质的区别,可以把它看做是一个功能更强大的客户端(虽然官网上声称Redisson不只是一个Java Redis客户端) …

记录Maven的相关操作(笔记整理)

一、安装 我使用的是免安装版的,直接解压缩就可以使用。 二、配置环境变量 打开环境变量配置。右键计算机→属性→高级系统设置→高级→环境变量,在系统变量中配置。 配置MAVEN_HOME。在系统变量中新建,变量名MAVEN_HOME,变量值…

parquet

一、parquet结构 Row Group ​ --Column Chunk:一列对应一个Column Chunk ​ – Page:压缩和编码的单元,parquet的 min/max 索引是针对于page的,存在了文件的页脚。以前的版本是存储Column Chunk和Page的索引,导致在…

Linux命令scp用法

本文主要讲的是scp用法如果哪里不对欢迎指出,主页https://blog.csdn.net/qq_57785602?typeblog首先讲述一下scp用法并不是让你连接公司服务器后用的(不是连接公司服务器使用),如果要使用的情况下那么请看下面:winr打开…

【C语言篇】请把这篇文章推给现在还对指针一知半解的童鞋~超生动图解,详细讲解,易懂,易学,让天下没有难懂的指针~

🌱博主简介:是瑶瑶子啦,一名大一计科生,目前在努力学习C进阶,JavaSE。热爱写博客~正在努力成为一个厉害的开发程序媛! 📜所属专栏:C/C ✈往期博文回顾:进入内存,透彻理解数据类型存在的意义,整形…

[java拓展]Mysql数据库的基础指令,和JDBC的使用

1.关于mysql数据库 (1)概述 DBMS数据库管理系统,用来管理数据库,执行sql语句的东西,Mysql,oracle,sqlite这些严格来说不是数据库而是数据库管理系统,其中Mysql最常用,而…

马来酰亚胺聚乙二醇硅烷,MAL-PEG-Silane 结构,科研试剂溶于大部分有机溶剂

马来酰亚胺聚乙二醇硅烷,MAL-PEG-Silane 中文名称:马来酰亚胺聚乙二醇硅烷 分子量:1k,2k,3.4k,5k,10k,20k。。。 存储条件:-20C,避光,避湿 用…

剑指offer----C语言版----第十九天----面试题25:合并两个有序的链表

目录 1. 合并两个排序的链表 1.1 题目描述 1.2 解题思路 1.3 往期回顾 1. 合并两个排序的链表 原题链接:21. 合并两个有序链表 - 力扣(LeetCode)1.1 题目描述 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个…

new-Crack:StarUML 5.1.0 -2023

StarUML 用于敏捷和简洁建模的复杂软件建模器 当前版本:v5.1.0 主要特征 通用语言2 兼容 UML 2.x 标准元模型和图表:类、对象、用例、组件、部署、复合结构、序列、通信、状态图、活动、时间、交互溢出、信息流和剖面图。 SYSML 支持 支持使用 SysML 图…

SSM03_SpringMVC REST风格 SSM整合

01-SpringMVC简介SpringMVC是隶属于Spring框架的一部分,主要是用来进行Web开发,是对Servlet进行了封装。SpringMVC是处于Web层的框架,所以其主要的作用就是用来接收前端发过来的请求和数据然后经过处理并将处理的结果响应给前端,所…

【iHooya】1月14日寒假集训课作业解析

内部元素之和 输入一个整数矩阵&#xff0c;计算位于矩阵内部的元素之和。所谓矩阵内部的元素&#xff0c;不在第一行和最后一行的元素以及第一列和最后一列的元素。 输入 第一行分别为矩阵的行数m和列数n&#xff08;m < 100&#xff0c;n < 100&#xff09;&#xff0…

Arthas 入门到实战(一)快速入门

Arthas官方文档指出&#xff1a; 介绍&#xff1a;Arthas 是一款线上监控诊断产品&#xff0c;通过全局视角实时查看应用 load、内存、gc、线程的状态信息&#xff0c;并能在不修改应用代码的情况下&#xff0c;对业务问题进行诊断&#xff0c;包括查看方法调用的出入参、异常&…

人工智能与游戏

游戏是智能应用最好的平台&#xff0c;可惜的是&#xff1a;只用了少部分计算AI&#xff0c;还没有用到智能的计算计1 引言从1950年香农教授提出为计算机象棋博弈编写程序开始&#xff0c;游戏人工智能就是人工智能技术研究的前沿&#xff0c;被誉为人工智能界的“果蝇”&#…