机器学习算法之KNN分类算法【附python实现代码!可运行】

news2025/1/10 21:45:01

一、简介

在机器学习中,KNN(k-Nearest Neighbors)分类算法是一种简单且有效的监督学习算法,主要用于分类问题。KNN算法的基本思想是:在特征空间中,如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法是一种基于实例的学习,或者说是局部逼近和将所有计算推迟到分类之后进行的惰性学习。

二、算法原理

KNN算法的主要步骤如下:

  1. 计算距离:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例(邻居)。这里的“邻近”通常是通过计算距离来确定的,常用的距离度量方式包括欧氏距离、曼哈顿距离、余弦距离等。
  2. 确定类别:根据这k个邻居的类别信息,通过多数投票法等方式进行预测。也就是说,选择k个邻居中出现次数最多的类别作为预测结果。(少数服从多数)

三、优缺点

KNN算法的优点包括:

  1. 思想简单,易于理解和实现。
  2. 对异常值不敏感,因为只与少数几个最近的邻居有关。
  3. 适用于多分类问题。
  4. 由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

然而,KNN算法也存在一些缺点

  1. 计算量大,特别是对于大规模数据集,计算每个新实例与所有训练实例的距离可能需要很长时间。
  2. 需要存储整个训练数据集,以便对新实例进行分类。因此,如果训练数据集很大,可能需要大量的存储空间。
  3. 对k值的选择敏感。k值选择过小可能导致过拟合,选择过大可能导致欠拟合。
  4. 当样本分布不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。

四、python代码实现(案例)

在python代码中,使用scikit-learn库中的鸢尾花(Iris)数据集,这是一个包含三个类别(Setosa、Versicolour、Virginica)和四个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度)的经典数据集。

import matplotlib.pyplot as plt  # 导入matplotlib库用于绘图  
import numpy as np  # 导入numpy库用于数值计算  
from sklearn import datasets  # 导入sklearn库中的datasets模块用于加载数据集  
from sklearn.model_selection import train_test_split  # 导入train_test_split函数用于划分数据集  
from sklearn.preprocessing import StandardScaler  # 导入StandardScaler类用于数据标准化  
from sklearn.neighbors import KNeighborsClassifier  # 导入KNeighborsClassifier类用于创建KNN分类器  
from sklearn.metrics import classification_report, confusion_matrix  # 导入分类报告和混淆矩阵计算函数  
  
# 加载鸢尾花数据集  
iris = datasets.load_iris()  # 加载鸢尾花数据集  
X = iris.data  # 获取特征数据  
y = iris.target  # 获取标签数据  
  
# 数据集分割为训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 划分数据集为80%的训练集和20%的测试集  
  
# 数据标准化  
scaler = StandardScaler()  # 创建一个StandardScaler对象  
X_train_scaled = scaler.fit_transform(X_train)  # 对训练集进行标准化处理  
X_test_scaled = scaler.transform(X_test)  # 对测试集进行标准化处理,使用训练集得到的均值和标准差  
  
# 初始化KNN分类器并训练(使用所有四个特征)  
knn = KNeighborsClassifier(n_neighbors=3)  # 创建一个KNN分类器对象,设置邻居数为3  
knn.fit(X_train_scaled, y_train)  # 使用训练集数据训练KNN分类器  
  
# 使用测试集进行预测  
y_pred = knn.predict(X_test_scaled)  # 使用训练好的KNN分类器对测试集进行预测  
  
# 打印分类报告和混淆矩阵  
print(classification_report(y_test, y_pred))  # 打印分类报告,包括精确度、召回率、F1值等  
print(confusion_matrix(y_test, y_pred))  # 打印混淆矩阵,展示各类别的分类情况  
  
# 可视化结果(只选择两个特征进行二维可视化)  
# 这里我们选择花瓣长度和花瓣宽度作为特征  
# 注意:由于数据已经标准化,所以这里的可视化主要是为了展示分类效果,而不是真实的花瓣长度和宽度  
plt.scatter(X_test_scaled[y_test == 0, 2], X_test_scaled[y_test == 0, 3], label='Setosa', alpha=0.8)  # 绘制Setosa类别的散点图  
plt.scatter(X_test_scaled[y_test == 1, 2], X_test_scaled[y_test == 1, 3], label='Versicolour', alpha=0.8)  # 绘制Versicolour类别的散点图  
plt.scatter(X_test_scaled[y_test == 2, 2], X_test_scaled[y_test == 2, 3], label='Virginica', alpha=0.8)  # 绘制Virginica类别的散点图  
  
# 添加图例和轴标签  
plt.xlabel('Petal length (scaled)')  # 这里的'Petal length'是标准化的花瓣长度  
plt.ylabel('Petal width (scaled)')  # 这里的'Petal width'是标准化的花瓣宽度  
plt.legend()  # 添加图例  
plt.show()  # 显示图像  
  
# 保存图像  
plt.savefig('knn_iris_visualization.png')  # 将图像保存为'knn_iris_visualization.png'文件

以上代码需要以下环境包,如果没有可以先行安装

pip install numpy matplotlib scikit-learn

实验结果
在这里插入图片描述
结果可视化
在这里插入图片描述

五、应用与总结

KNN算法在各个领域都有广泛的应用,包括但不限于图像识别、文本分类、推荐系统等。例如,在图像识别中,可以使用KNN算法来识别手写数字、人脸等;在文本分类中,可以使用KNN算法来对新闻、评论等进行分类。KNN分类算法是一种简单而有效的机器学习算法,它通过计算新实例与训练数据集中实例的距离来进行分类。虽然它存在一些缺点,但在许多情况下仍然是一种很好的选择。

版权声明

本博客内容仅供学习交流,转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1656883.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每日Attention学习5——Multi-Scale Channel Attention Module

模块出处 [link] [code] [WACV 21] Attentional Feature Fusion 模块名称 Multi-Scale Channel Attention Module (MS-CAM) 模块作用 通道注意力 模块结构 模块代码 import torch import torch.nn as nnclass MS_CAM(nn.Module):def __init__(self, channels64, r4):super(…

Android NDK开发——Android Studio 3.5.2安装与配置踩坑

Android NDK开发——Android Studio 3.5.2安装与配置踩坑 一、Android Studio下载二、配置踩坑报错1:Failed to install the following Android SDK packages as some licences have not been accepted报错2:No toolchains found in the NDK toolchains …

【全开源】Java上门洗车小程序源码上门洗车APP 小程序源码支持二次开发6.0

功能特点: 跨界创新:融入科技元素,借助移动互联网快速发展,将科技引入到传统洗车业中。 科技赋能:具有智能化的特点,用户可以根据自身的需求选择不同的洗车项目和服务,包括洗车的时间、地点和服…

滥用 Kubernetes 资源登上月球

Sysdig 2024 年云原生安全和使用报告强调了不断变化的威胁形势,但更重要的是,随着容器和 Kubernetes 等云原生技术的采用不断增加,并非所有组织都遵循最佳实践。当攻击者在 Kubernetes 等操作中利用容器来利用资源时,这最终会给攻…

【stomp 实战】spring websocket 接收消息源码分析

后台消息的发送过程,我们通过spring websocket用户消息发送源码分析已经了解了。我们再来分析一下后端接收消息的过程。这个过程和后端发送消息过程有点类似。 前端发送消息 前端发送消息给服务端的示例如下: 发送给目的/app/echo一个消息。 //主动发…

线程安全的概念及原因

1.观察线程不安全 public class ThreadDemo {static class Counter {public int count 0;void increase() {count;}}public static void main(String[] args) throws InterruptedException {final Counter counter new Counter();Thread t1 new Thread(() -> {for (int …

ES:聚合查询语法

基础查询结构: GET http://ip:prot/textbook/_search { "query" : { ...query子句... }, "aggs" : { "agg_name":{ "agg_type": { "agg_arg": agg_arg_value } } }, "sort" : { ..sor…

Cesium--加载天地图

背景:vue-admin-temlate cesium 天地图 天地图地址:国家地理信息公共服务平台 天地图 步骤一:申请成为天地图开发者,创建应用 1,天地图使用方法(点击开发资源即可看到此页面) 2,点击控制台-登录账号 …

13:HAL---SPI

目录 一:SPL通信 1:简历 2:硬件电路 3:移动数据图 4:SPI时序基本单元 A : 开/ 终条件 B:SPI时序基本单元 A:模式0 B:模式1 C:模式2 D:模式3 C:SPl时序 A:发送指令 B: 指定地址写 C:指定地址读 5:NSS(CS) 6:时钟 二: W25Q64 1:简历 2…

Star-CCM+通过将所有部件创建一个区域的方式分配至区域后子区域的分离,子区域材料属性的赋值,以及物理连续体的创建方法介绍

前言 上次介绍了将零部件分配至区域的方法与各个方法之间的区别,本文将继续上次的讲解,将其中的“将所有部件分配至一个区域”的应用进行补充。 如下图所示,按照将所有部件创建一个区域的方式分配至区域后,在区域下就会有一个区域…

springboot+vue实现登录注册,短信注册以及微信扫描登录

说明:微信扫描登录需要微信注册--要钱,感谢尚硅谷提供的免费接口;短信注册需要阿里云的注册很麻烦并且短信费,没有接口,所以不打算实现,不过能做出效果。 目录 一、建立数据库 二、后端idea实现接口 1.…

全球首发:抗量子、以太坊兼容测试网正式上线

量子计算机将有能力破解目前互联网上使用的主要加密算法,影响的领域包括银行应用程序、电子邮件服务和社交媒体平台。 2023年5月7日,QANplatform推出了全球首个兼容以太坊的抗量子区块链测试网,此举将使开发者能够使用任何编程语言来编写智能…

thinkphp6使用layui分页组件做分页效果

博主用的是layui2.9.8的版本,但这个版本的分页组件是动态效果的,但我需要的是静态分页,所以我自己封装了一个生成layui的分页代码生成代码。代码如下: 1、先创建文件,路径是extent/layui/LayuiPage.php,加…

Java实战:验证改进的哥德巴赫猜想

改进的哥德巴赫猜想(Improved Goldbach’s Conjecture)声称每个大于5的奇数都可以表示为三个素数之和。这个猜想是对原始哥德巴赫猜想的扩展,针对奇数的情况。原始哥德巴赫猜想是指每个大于2的偶数都可以表示为两个素数之和。尽管改进的哥德巴…

ROS 2边学边练(45)-- 构建一个能动的机器人模型

前言 在上篇中我们搭建了一个机器人模型(其由各个关节(joint)和连杆(link)组成),此篇我们会通过设置关节类型来实现机器人的活动。 在ROS中,关节一般有无限旋转(continuous),有限旋转…

el-dialog设置el-head固定

0 效果 1 代码 ::v-deep .adTextDetailDialogClass .el-dialog__body{max-height: calc(100vh - 150px);overflow: auto;border-top:1px solid #dfdfdf;border-bottom:1px solid #dfdfdf; } ::v-deep .adTextDetailDialogClass .el-dialog{position: fixed;height:fit-content;…

15-LINUX--线程的创建与同步

一.线程 1.线程的概念 线程是进程内部的一条执行序列或执行路径,一个进程可以包含多条线程。 2.线程的三种实现方式 ◼ 内核级线程:由内核创建,创建开销大,内核能感知到线程的存在 ◼ 用户级线程:线程的创建有用户空…

springboot 引入第三方bean

如何进行第三方bean的定义 参数进行自动装配

数据库中索引的底层原理和SQL优化

文章目录 关于索引B 树的特点MySQL 为什么使用 B 树? 索引分类聚簇索引 和 非聚簇索引覆盖索引索引的最左匹配原则索引与NULL索引的代价大表结构修改 SQL优化EXPLAIN命令选择索引列其它细节 关于索引 索引是一种用来加快查找效率的数据结构,可以简单粗暴…

探索黏土特效?推荐这三款软件!

在数字化时代,我们拥有无数的工具来释放我们的创造力和想象力。其中,黏土特效软件就是一种能够将你的照片或图像转化为可爱、生动的黏土动画的工具。这些软件以其独特的视觉效果和易于使用的特性,吸引了大量的用户。下面,我们将为…