数据清洗-缺失值填充-K-NN算法(K-Nearest Neighbors, K-NN算法)

news2024/9/19 23:04:03

目录

  • 一、安装所需的python包
  • 二、采用K-NN算法进行缺失值填充
    • 2.1可直接运行代码
    • 2.2以某个缺失值数据进行实战
      • 2.2.1代码运行过程截屏:
      • 2.2.2填充后的数据截屏:
  • 三、K 近邻算法 (K-Nearest Neighbors, KNN) 介绍
    • 3.1 K 近邻算法定义
    • 3.2 K 近邻算法的基本思想
    • 3.3 K 近邻算法的步骤
    • 3.4 K 近邻算法的距离度量
    • 3.5 K 近邻算法的优缺点
      • 3.5.1 优点
      • 3.5.2 缺点
    • 3.6 K 近邻算法的应用场景
    • 3.7 K 近邻算法的改进方法

感觉大家对原理性的东西不太感兴趣,那我就直接举例提供代码,以及详细的注释,大家自己对照改代码应用于你自己建立的模型吧。

这些代码全部是我自己做数模竞赛时候自己用的代码。可以直接运行,记得修改文件路径。

一、安装所需的python包

pip install pandas scikit-learn scipy numpy joblib

二、采用K-NN算法进行缺失值填充

注意代码需要把自己的数据文件格式转换为CSV文件,并且把路径修改为自己文件所在的路径,不会转换的参考我此教程文件格式转换:EXCEL和CSV文件格式互相转换。

我知道大家对原理性的东西不感兴趣,我把他的原理介绍放在文末,需要写论文的同学自己拿去用,记得修改,否则查重率过不去。

2.1可直接运行代码

"""
K-NN
1.**K-最近邻 (K-Nearest Neighbors, K-NN)**: K-NN是一种
基于实例的学习,或是局部而似和将所有计算推识到分类之
后的情性学习。整个训练数据集都存储在横型中。K-NN算
法比其他技术更适合用于多类目分类问题,如果你对填补缺
失值的速度和精度的平衡感兴趣,这是一个不错的选择。

这个的效果比牛顿插值法差一点,,而那些训练模型的那个可能是因为数据量太少,效果差,这是我的一点经验。
"""

import pandas as pd
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer
from scipy.interpolate import interp1d
import numpy as np
import joblib

# 读取数据,请将'缺失值填充.csv'替换为你的真实数据文件名
filename = '缺失值填充.csv'
data = pd.read_csv(filename, encoding='gbk')

# 分离出有缺失值的列
missing_columns = data.columns[data.isnull().any()]

# 使用KNN算法插补缺失值
imputer = KNNImputer(n_neighbors=3)
data_imputed = imputer.fit_transform(data)
data_imputed = pd.DataFrame(data_imputed, columns=data.columns)

# 再次加载原始数据,将插补的值填充到相应的位置
original_data = pd.read_csv(filename, encoding='gbk')
missing_value_rows, missing_value_cols = np.where(original_data.isnull())

# 替换缺失值为插补值
for row, col in zip(missing_value_rows, missing_value_cols):
    original_data.iloc[row, col] = data_imputed.iloc[row, col]

# 输出处理后的数据
print(original_data)
original_data.to_csv('knn填充.csv', index=False)

2.2以某个缺失值数据进行实战

注意:数据量较少,由自己构建,均有规律,
如下图:
在这里插入图片描述

构造缺失值,如下图:
在这里插入图片描述

运行代码查看填充后的数据怎么样,
运行代码如下图+填充后的截图:

2.2.1代码运行过程截屏:

在这里插入图片描述

2.2.2填充后的数据截屏:

在这里插入图片描述

说明:估计是数据量太小,或者缺失值太多,导致填充的效果一般(对于这种规律的数据使用牛顿插值法倒是挺不错的,数据量大的,可以使用神经网络遗传算法来进行缺失值填充,下面我都会介绍),但是你在进行数模比赛时候,需要说明为什么你要选用knn算法,说明他的原理即可,不必纠结填充的数据是否正确,因为你本身也不知道数据的正确性。

接下来我将分享其他我参加数模时候常用的几种数据填充的代码,都是我自己调试跑通过的,大家直接复制粘贴使用。

三、K 近邻算法 (K-Nearest Neighbors, KNN) 介绍

3.1 K 近邻算法定义

K 近邻算法 (K-Nearest Neighbors, KNN) 是一种基本的监督学习算法,主要用于分类和回归问题。KNN 算法基于“相似的输入具有相似的输出”这一假设,通过计算给定数据点与训练数据集中其他点的距离,找出与其最接近的 K 个邻居,然后根据这些邻居的类别或数值进行预测。KNN 算法的核心思想是:相似的样本往往具有相似的输出。

3.2 K 近邻算法的基本思想

KNN 算法没有显式的学习过程,也不需要构建显式的模型,它属于 惰性学习算法。KNN 的主要步骤如下:

  1. 计算距离:对于一个需要分类或回归的数据点,计算它与训练集中每个数据点的距离。常用的距离度量方法包括欧几里得距离、曼哈顿距离和闵可夫斯基距离等。
  2. 选择最近的 K 个邻居:根据计算出的距离,选择距离最小的 K 个邻居。
  3. 投票或平均
    • 分类问题:在分类问题中,KNN 算法根据 K 个邻居中出现次数最多的类别进行投票决定待预测点的类别。
    • 回归问题:在回归问题中,KNN 算法通过 K 个邻居的数值平均来预测待预测点的值。

3.3 K 近邻算法的步骤

  1. 选择参数 K 的值:决定选择多少个邻居参与投票或计算平均值。
  2. 计算距离:对于待分类或回归的样本,计算它与训练数据集中每个样本的距离。
  3. 选择最近的 K 个邻居:根据距离对训练数据进行排序,选取距离最近的 K 个样本。
  4. 进行分类或回归
    • 分类:在 K 个邻居中,选择出现次数最多的类别作为预测结果。
    • 回归:在 K 个邻居中,取目标值的平均值作为预测结果。

3.4 K 近邻算法的距离度量

常用的距离度量方法有:

  • 欧几里得距离 (Euclidean Distance)
    d ( x , y ) = ∑ i = 1 n ( x i − y i ) 2 d(x, y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2} d(x,y)=i=1n(xiyi)2

  • 曼哈顿距离 (Manhattan Distance)
    d ( x , y ) = ∑ i = 1 n ∣ x i − y i ∣ d(x, y) = \sum_{i=1}^n |x_i - y_i| d(x,y)=i=1nxiyi

  • 闵可夫斯基距离 (Minkowski Distance)
    d ( x , y ) = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 / p d(x, y) = \left( \sum_{i=1}^n |x_i - y_i|^p \right)^{1/p} d(x,y)=(i=1nxiyip)1/p

3.5 K 近邻算法的优缺点

3.5.1 优点

  • 简单易懂:KNN 算法简单直观,易于理解和实现。
  • 无需训练:由于 KNN 是惰性学习算法,它不需要显式的训练过程,计算开销集中在预测阶段。
  • 可用于分类和回归:KNN 算法既可以用于分类问题,也可以用于回归问题。

3.5.2 缺点

  • 计算复杂度高:对于大数据集,计算待预测点与所有训练数据点的距离需要大量的计算资源。
  • 内存开销大:需要存储所有的训练数据,在内存有限的情况下处理大规模数据可能存在困难。
  • 对不相关特征敏感:KNN 算法对数据中的不相关特征和噪声比较敏感,需要进行特征选择和数据预处理。
  • 参数选择困难:选择合适的 K 值是一个挑战,K 值过小容易导致过拟合,K 值过大容易导致欠拟合。

3.6 K 近邻算法的应用场景

KNN 算法广泛应用于以下场景:

  • 分类问题:例如,文本分类、图像分类、用户行为分类等。
  • 回归问题:例如,预测房价、预测股票价格等。
  • 异常检测:例如,检测信用卡欺诈、网络入侵检测等。
  • 推荐系统:例如,电影推荐、商品推荐等。

3.7 K 近邻算法的改进方法

  • 归一化或标准化数据:由于 KNN 算法对特征的尺度非常敏感,通常需要对数据进行归一化或标准化处理。
  • 使用加权 KNN:在基本的 KNN 中,所有邻居的权重相同,可以改进为对距离更近的邻居赋予更大的权重,以提高算法的准确性。
  • 使用降维方法:可以使用 PCA(主成分分析)或其他降维方法减少特征维数,以减少计算量和内存使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2143723.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 文件与目录操作命令详解

文章目录 前言创建文件1. touch2. vim 文件内容显示3. cat4. more5. less6. head7. tail 文件(目录)复制、删除和移动8. cp9. rm10. mv 压缩文件与解压缩11. gzip12. zip 和 unzip 创建目录13. mkdir 删除目录14. rmdir 改变工作目录15. cd16. pwd 显示目…

六、二分搜索-算法总结

文章目录 六、二分搜索6.1 简介6.2 典型实例 -- 二分查找6.2 模板6.3 常见题目6.3.1 搜索插入位置6.3.2 搜索二维矩阵6.3.3 寻找旋转排序中数组中的最小值6.3.4 寻找旋转排序数组中的最小值 II6.3.5 搜索旋转排序数组6.3.6 搜索旋转排序数组 II 总结 六、二分搜索 6.1 简介 给…

Java或者前端 实现中文排序(调API的Demo)

目录 前言1. 前端2. Java 前言 前端 Vue 中的中文排序通常使用 JavaScript 提供的 localeCompare 方法来比较中文字符串 Java 后端可以使用 Collator 类来实现中文排序 1. 前端 在 Vue 中&#xff0c;使用 localeCompare 来实现中文字符串的排序&#xff1a; <template&…

Skyeye 云智能制造 v3.14.5 发布,ERP 商城

Skyeye 云智能制造&#xff0c;采用 Springboot winUI 的低代码平台、移动端采用 UNI-APP。包含 30 多个应用模块、50 多种电子流程&#xff0c;CRM、PM、ERP、MES、ADM、EHR、笔记、知识库、项目、门店、商城、财务、多班次考勤、薪资、招聘、云售后、论坛、公告、问卷、报表…

SAM 2: Segment Anything in Images and Videos

SAM2: 在图像和视频中分割任何内容 作者 Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu 等 (Meta FAIR) 论文&#xff1a;SAM2: Segment Anything in Images and Videos项目代码&#xff1a;GitHub Repository互动演示&#xff1a;Demo 摘要 SAM2 是一个用于处…

基于51单片机的锅炉温度控制系统PID调节proteus仿真

地址&#xff1a; https://pan.baidu.com/s/17oMgAnUBUKKEVnv5hNRQmQ 提取码&#xff1a;1234 仿真图&#xff1a; 芯片/模块的特点&#xff1a; AT89C52/AT89C51简介&#xff1a; AT89C52/AT89C51是一款经典的8位单片机&#xff0c;是意法半导体&#xff08;STMicroelectro…

招聘数据分析师,HR会考察候选人哪些方面?

数据分析是必须具备深厚的专业技能底蕴&#xff0c;这是最基本的要求&#xff0c;其中包括对数据分析工具和编程语言的精通&#xff0c;以及对数据库管理的实验操作。 在数据分析师的招聘过程中&#xff0c;必须要注重对方掌握的知识&#xff0c;比如数据挖掘数据可视化等先进…

Qt构建JSON及解析JSON

目录 一.JSON简介 JSON对象 JSON数组 二.Qt中JSON介绍 QJsonvalue Qt中JSON对象 Qt中JSON数组 QJsonDocument 三.Qt构建JSON数组 四.解析JSON数组 一.JSON简介 一般来讲C类和对象在java中是无法直接直接使用的&#xff0c;因为压根就不是一个规则。但是他们在内存中…

详解:Tensorflow、Pytorch、Keras(搭建自己的深度学习网络)

这是一个专门对Tensorflow、Pytorch、Keras三个主流DL框架的一个详解和对比分析 一、何为深度学习框架&#xff1f; 你可以理解为一个工具帮你构建一个深度学习网络&#xff0c;调用里面的各种方法就能自行构建任意层&#xff0c;diy你想要的DNN&#xff0c;而且任意指定学习…

揭秘!当业务方需求模糊,产品经理如何施展‘化雾为金’的神奇策略!

引言 在产品管理的实践中&#xff0c;产品经理经常会遇到业务方无法清晰表达需求的情况。这可能是由于业务方对问题的理解不够深入&#xff0c;或者缺乏将业务需求转化为产品需求的经验。作为资深产品经理&#xff0c;我们需要采取一系列策略来应对这一挑战&#xff0c;确保产…

Solid Converter PDF9.1安装教程

软件介绍 Solid Converter PDF是一套专门将PDF文件转换成word的软件&#xff0c;除了转换成word文件外&#xff0c;还可以转换成RTF以及Word XML文件。除此之外&#xff0c;它还有一个图片撷取功能&#xff0c;可以让我们]将PDF档里的图片撷取出来&#xff0c;以及将PDF档里的…

word文档的读入(8)

如何读取答题卡中的选择题答案&#xff0c;并把所有的信息导入到Excel表格中&#xff5e; 在初始化了字典中的字段并获取了标准答案和学生答案后&#xff0c;现在只需使用if语句将学生答案studentAnswerOne和标准答案value进行比较。选择题一道题2分&#xff0c;答案正确时&…

C++11 右值引用完美转发

前言 上一期介绍了C11的基础新特性&#xff0c;这一期开始我们继续来介绍C11的新特性&#xff01; 目录 前言 一、右值引用和移动语义 1.1左值和左值引用 1.2右值和右值引用 1.3左值引用vs右值引用 1.4右值引用的使用场景和意义 左值引用的使用场景 左值引用的缺陷 …

应用案例|开源 PolarDB-X 在互联网安全场景的应用实践

背景介绍 中盾数科集团始创于2012年&#xff0c;是由网络安全服务而发展起来的科技型、多元化的企业集团。旗下包括网络安全服务、信创一体化服务、箱式液冷、区块链、位置服务、视觉服务等六大板块&#xff0c;业务覆盖湖南、甘肃、贵州等多个省份。 业务挑战 中盾集团基于A…

LabVIEW提高开发效率技巧----模块化设计与代码复用

模块化设计是现代软件开发中不可或缺的理念&#xff0c;在LabVIEW开发中尤为重要。通过将系统功能划分为独立的、可复用的模块&#xff0c;开发者可以显著提升代码的可读性、维护性以及效率。下面将介绍模块化设计的核心概念、如何利用子VI实现代码复用、以及使用模板&#xff…

claude,gpt,通义千问

起因是通义千问对这张图的解释有严重错误&#xff0c;因此想着让claude和gpt回答一下&#xff0c;记录一下。 claude 这张图表显示了中国多个城市的房地产价格指数数据。让我为您解读一下主要信息&#xff1a; 指标解释&#xff1a; "环比": 与上月相比的价格变化&…

[yotroy.cool] MGT 388 - Finance for Engineers - notes 笔记

个人博客https://www.yotroy.cool/,感谢关注~ 图片资源可能显示不全,请前往博客查看哦! ============================================================ Lecture 1 What is Accounting? The process of identifying, measuring and communicating economic informati…

【UEFI基础】BIOS下的启动项管理

启动管理 启动管理&#xff08;Boot Manager&#xff09;是UEFI BIOS中重要的一部分&#xff0c;它通过一系列的变量来确定启动策略&#xff0c;包括&#xff1a; 执行启动还是恢复操作启动顺序是如何 本文会介绍下面的内容&#xff1a; 与启动管理相关的变量启动或恢复的流…

Git rebase 的使用(结合图与案例)

目录 Git rebase 的使用Git rebase 概念Git rebase 原理rebase和merge的选择 Git rebase 的使用 在 Git 中整合来自不同分支的修改主要有两种方法&#xff1a;merge 以及 rebase Git rebase 概念 **rebase概念&#xff1a;**用来重新应用提交&#xff08;commits&#xff09…

Vue2知识点

注意:笔记内容来自网络 1Vue指令 指令是指&#xff1a;带有v-前缀的特殊标签属性 1.1 v-html v-html&#xff08;类似 innerHTML&#xff09; 使用语法&#xff1a;<p v-html"intro">hello</p>&#xff0c;意思是将 intro 值渲染到 p 标签中 类似 i…