【机器学习】数据清洗之处理缺失点

news2024/11/19 5:38:58

🎈个人主页:甜美的江
🎉欢迎 👍点赞✍评论⭐收藏
🤗收录专栏:机器学习
🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步!

数据清洗之处理缺失点

  • 一 删除缺失值:
    • 1.1 删除行:
    • 1.2 删除列:
    • 1.3 阈值删除:
    • 1.4条件删除:
    • 1.5 特定列删除:
  • 二 插值法
    • 2.1 线性插值:
    • 2.2 多项式插值:
    • 2.3 样条插值:
    • 2.4 Kriging插值:
    • 2.5 基于机器学习的方法:
  • 三 填充法
    • 3.1 均值(Mean)填充:
    • 3.2 中位数(Median)填充:
    • 3.3 众数(Mode)填充:
    • 3.4 最近邻填充(Nearest Neighbor Imputation):
    • 3.5 回归模型填充:
    • 3.6 随机抽样填充:
    • 3.7 插值法填充:
    • 3.8 利用业务规则填充:
  • 四 三种方法的优缺点及适用场景
    • 4.1 删除法:
    • 4.2 插值法:
    • 4.3 填充法:
  • 五 总结:

在这里插入图片描述

引言:

在机器学习领域,数据被广泛认为是驱动模型性能的关键。然而,在真实世界的数据中,缺失值是一个不可避免的问题,可能来自于测量错误、系统故障或其他未知因素。正确而有效地处理这些缺失值对于确保数据质量和模型的准确性至关重要。

本文将深入探讨数据清洗中一项关键任务:处理缺失点。我们将介绍不同的方法,涵盖从删除缺失值到插值法和填充法的多个层面,以帮助您更好地理解在不同场景下如何处理缺失值。

一 删除缺失值:

在数据清洗过程中,处理缺失值的方法之一是删除缺失值。这种方法适用于缺失值数量较少或者缺失值对于分析任务的影响较小的情况。以下是详细介绍删除缺失值的方法:

1.1 删除行:

最简单的方法是直接删除包含缺失值的行。这种方法适用于数据集中缺失值较少,删除缺失值后仍然保留足够的数据用于分析的情况。

示例代码:

import pandas as pd

# 创建一个示例DataFrame
data = pd.DataFrame({'A': [1, 2, None, 4],
                     'B': [None, 5, 6, 7]})

# 删除包含缺失值的行
cleaned_data = data.dropna()
print(cleaned_data)

1.2 删除列:

如果某一列缺失值过多或者对分析任务没有贡献,可以选择删除该列。
示例代码:

# 删除包含缺失值的列
cleaned_data = data.dropna(axis=1)
print(cleaned_data)

1.3 阈值删除:

设置阈值,如果某一行或者列中的缺失值数量超过阈值,则删除该行或者列。
示例代码:

# 设置阈值,删除超过阈值的行或者列
threshold = 2  # 设置阈值为2
cleaned_data = data.dropna(thresh=threshold)
print(cleaned_data)

1.4条件删除:

根据特定条件,删除包含缺失值的行或者列。
示例代码:

# 根据条件删除缺失值
cleaned_data = data.dropna(subset=['A'])  
# 删除'A'列中的缺失值所在的行
print(cleaned_data)

1.5 特定列删除:

如果只对特定列感兴趣,可以仅删除这些列中包含缺失值的行。

示例代码:

# 对特定列删除缺失值
cleaned_data = data.dropna(subset=['B'])  
# 删除'B'列中的缺失值所在的行
print(cleaned_data)

在实际应用中,选择何种方法取决于数据集的特征、分析任务以及缺失值的分布情况。

需要谨慎考虑删除缺失值可能带来的信息损失,并根据具体情况选择合适的方法。

二 插值法

在数据清洗中,处理缺失值的一种常见方法是使用插值法。插值是通过已知数据点的信息来估计未知点的值。这种方法对于连续型数据的缺失值填充尤其有用。以下是一些常见的插值方法:

2.1 线性插值:

概念:

线性插值假设变量之间的关系是线性的。

对于缺失值,可以通过已知的相邻数据点之间的线性关系来进行估计。

实现:

常见的线性插值方法包括一次线性插值和二次线性插值。

在一次线性插值中,缺失值被估算为其相邻两个已知值的平均值。在二次线性插值中,利用相邻三个已知值构建二次方程,从而进行估算。

2.2 多项式插值:

概念:

多项式插值通过使用更高阶的多项式来适应已知数据点。

这可以更准确地拟合数据,但也容易引入过拟合。

实现:

常见的多项式插值方法包括拉格朗日插值和牛顿插值。

这些方法使用已知数据点构建多项式,然后通过多项式来估计缺失值。

2.3 样条插值:

概念:

样条插值使用分段函数(通常是三次样条)来逼近已知数据。

这种方法更平滑,避免了多项式插值的过拟合问题。

实现:

三次样条插值是一种常见的方法,将整个数据集拟合成一组三次多项式,并保证在连接点处平滑过渡。

2.4 Kriging插值:

概念:

Kriging是一种基于地理空间的插值方法,广泛用于地理信息系统(GIS)。

它考虑了空间相关性,并通过对数据之间的空间相关性建模来估计未知位置的值。

实现:

Kriging通常需要对数据进行协方差分析,以确定空间相关性的参数。

2.5 基于机器学习的方法:

概念:

使用机器学习模型来预测缺失值,例如回归模型、决策树、随机森林等。

这种方法可以通过考虑多个特征之间的复杂关系来提高预测准确性。

实现:

训练机器学习模型来预测含有缺失值的特征,然后用模型的预测值填充缺失值。

总的来说,在选择插值方法时,需要根据数据的性质和问题的背景来权衡方法的优劣。

每种插值方法都有其适用的场景和局限性,因此在实际应用中需要谨慎选择。

同时,为了减少不确定性,可以结合多个插值方法进行比较和验证。

三 填充法

处理缺失值时,除了插值法外,还可以使用填充法来填补缺失值。填充法主要通过一些规则或统计量来估算缺失值。以下是一些常见的填充法方法:

3.1 均值(Mean)填充:

概念:

使用变量的均值来填充缺失值。适用于连续型数据,简单且不引入额外的复杂性。

实现:

计算变量的均值,然后将缺失值替换为均值。

3.2 中位数(Median)填充:

概念:

使用变量的中位数来填充缺失值。对于存在异常值的情况,中位数可能比均值更稳健。

实现:

计算变量的中位数,将缺失值替换为中位数。

3.3 众数(Mode)填充:

概念:

使用变量的众数来填充缺失值。适用于分类变量。

实现:

计算变量的众数,将缺失值替换为众数。

3.4 最近邻填充(Nearest Neighbor Imputation):

概念:

根据其他样本的数值来填充缺失值,选择与缺失值最相似的样本进行填充。

实现:

计算样本之间的相似度,选择最近邻的样本来填充缺失值。

3.5 回归模型填充:

概念:

使用回归模型来预测缺失值,将其他特征作为预测变量。

实现:

对于含有缺失值的特征,将其看作目标变量,使用其他特征建立回归模型,预测缺失值。

3.6 随机抽样填充:

概念:

从变量的已知值中随机抽样来填充缺失值。

实现:

从非缺失值中随机选择一个值,用于填充缺失值。

3.7 插值法填充:

概念:

利用插值方法(如线性插值、多项式插值)来估算缺失值。

实现:

使用插值法对缺失值进行估算,如在相邻数据点之间进行线性插值。

3.8 利用业务规则填充:

概念:

基于领域知识或业务规则来填充缺失值。

实现:

根据特定业务场景的规则,为缺失值设定合适的数值。

总的来说,在选择填充方法时,需要考虑数据的性质、缺失值的分布以及问题的要求。

不同的填充方法可能对数据产生不同的影响,因此在应用填充方法之前,最好先对数据进行探索性分析,了解缺失值的分布情况和数据的特性。

同时,可以尝试不同的填充方法,并评估它们对最终分析结果的影响。

四 三种方法的优缺点及适用场景

4.1 删除法:

优点:

简单直接,不引入额外的复杂性。

对于确保数据分析的准确性和可靠性很重要的情况,如建模分析等,可以选择删除缺失值,确保结果的准确性。

缺点:

可能导致信息丢失,减少样本量。

可能引入样本选择偏差,使得分析结果不够全面。

适用场景:

当缺失值占比较小,对整体数据集影响不大时,或者在确保删除不会引入偏差的情况下使用。

4.2 插值法:

优点:

考虑了数据的连续性,填充的值更加平滑。

适用于时间序列等具有一定规律性的数据。

缺点:

对于非线性的关系,插值法可能不够准确。

对异常值比较敏感,可能受到极端值的影响。

适用场景:

适用于连续型数据,特别是时间序列数据,且缺失值的分布具有一定的规律性。

4.3 填充法:

优点:

通过估计缺失值,保留了样本量,不会引入样本选择偏差。

可以利用其他变量的信息进行填充,提高填充的准确性。

缺点

需要根据具体情况选择合适的填充方法,不同方法的效果可能有差异。

对于高维数据集,处理复杂的关系可能会比较困难。

适用场景:

适用于各种数据类型,尤其是当数据集中的变量之间存在一定关联性时。

五 总结:

数据清洗中处理缺失值是机器学习流程中不可或缺的一环。

通过本文的介绍,我们深入了解了删除缺失值、插值法和填充法这三种主要的处理缺失值的方法。

每种方法都有其独特的优势和限制,选择合适的方法需要考虑数据的特性、缺失值的分布情况以及分析的目标。

在实践中,综合运用这些方法,结合具体情况,将有助于提高数据质量,为机器学习模型的建设奠定坚实的基础。

这篇文章到这里就结束了

谢谢大家的阅读!

如果觉得这篇博客对你有用的话,别忘记三连哦。

我是甜美的江,让我们我们下次再见

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1442968.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

腾讯云4核8G服务器最大能承载多少用户在线?12M带宽

腾讯云轻量4核8G12M轻量应用服务器支持多少人同时在线?通用型-4核8G-180G-2000G,2000GB月流量,系统盘为180GB SSD盘,12M公网带宽,下载速度峰值为1536KB/s,即1.5M/秒,假设网站内页平均大小为60KB…

HTML5和CSS3强化知识总结

HTML5的新特性 HTML5的新增特性主要是针对于以前的不足,增一些新的标签、新的表单和新的表单属性等。这些新特性都有兼容性问题,基本是IE9以上版本的浏览器才支持,如果不考虑兼容性问题,可以大量使用这些新特性。 HTML5新增的语义…

创建自己的系统创富法则,做个轻松赚钱的甩手掌柜

一、教程描述 本套系统创富教程,大小744.80M,共有28个文件。 二、教程目录 01.走遍全球四十多个国家,我才发现赚钱的本质如此雷同.mp4 02.靠工资技术赚钱太慢,想赚到自己的第一个一百万的方法是?.mp4 03.不服暴发…

uv机器电机方向极性

爱普生主板设置X、Y 电机方向极性:请根据实际情况设置,开机初始化时如果电机运动方向反了则修改此极性。 理光主板设置X、Y 电机方向极性

研究多态恶意软件,探讨网络安全与AI

前言 近期ChatGPT火遍全球,AI技术被应用到了全球各行各业当中,国内外各大厂商也开始推出自己的ChatGPT,笔者所在公司在前段时间也推出了自研的安全GPT,AI技术在网络安全行业得到了很多的应用,不管是网络安全研究人员、…

【51单片机】自定义静态数码管显示(设计思路&代码演示)

前言 大家好吖,欢迎来到 YY 滴单片机系列 ,热烈欢迎! 本章主要内容面向接触过单片机的老铁 主要内容含: 本章节内容为【实现动静态数码管】项目的第三个模块完整章节:传送门 欢迎订阅 YY滴C专栏!更多干货持…

【资料分享】基于单片机大气压监测报警系统电路方案设计、基于飞思卡尔的无人坚守点滴监控自动控制系统设计(程序,原理图,pcb,文档)

基于单片机大气压监测报警系统电路方案设计 功能:实现的是大气压检测报警系统,可以通过传感器实时检测当前大气压值,可以设定大气压正常范围,当超过设定范围进行报警提示。 资料:protues仿真,程序&#x…

SpringCloud-高级篇(十九)

我们已经学过使用 SpringAMQP去收和发消息,但是发和收消息是只是MQ最基本的功能了,在收发消息的过程中,会有很多的问题需要去解决,下面需要学习rabbitMQ的高级特性去解决 死信交换机:这个可以帮助我们实现消息的延迟的…

[office] excel求乘积的公式和方法 #媒体#笔记#经验分享

excel求乘积的公式和方法 本文首先给出两个常规的excel求乘积的链接,然后再例举了一个文字和数字在同一单元格里面的excel求乘积的公式写法。 excel求乘积的方法分为两种,第一种是直接用四则运算的*来求乘积,另外一种就是使用PRODUCT乘积函数…

【GO语言卵细胞级别教程】03.条件与循环语句

注意:以下演示所用的项目,在第一章节已经介绍了,这里不做赘述 目录: 【GO语言卵细胞级别教程】03.条件与循环语句1.条件语句1.1 if语句1.1.1 单层if语句1.1.2 if-else语句1.1.3 if-else-if 语句1.1.4 if 嵌套 1.2 switch 语句1.1…

[论文精读]Community-Aware Transformer for Autism Prediction in fMRI Connectome

论文网址:[2307.10181] Community-Aware Transformer for Autism Prediction in fMRI Connectome (arxiv.org) 论文代码:GitHub - ubc-tea/Com-BrainTF: The official Pytorch implementation of paper "Community-Aware Transformer for Autism P…

Python解决SSL不可用问题

参考:https://blog.csdn.net/weixin_44894162/article/details/126342591 一、问题描述: 报错概述: WARNING: pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available. ## 警告:pip配…

空气质量预测 | Matlab实现基于BP神经网络回归的空气质量预测模型

文章目录 效果一览文章概述源码设计参考资料效果一览 文章概述 政府机构使用空气质量指数 (AQI) 向公众传达当前空气污染程度或预测空气污染程度。 随着 AQI 的上升,公共卫生风险也会增加。 不同国家有自己的空气质量指数,对应不同国家的空气质量标准。 基于BP(Backpropag…

微服务学习 | Spring Cloud 中使用 Sentinel 实现服务限流

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站https://www.captainbed.cn/kitie。 目录 前言 通过代码实现限流 定义资源 通过代码定义资源 通过注解方式定义资源 定义限流规则 通过…

反序列化漏洞——PHP原生类

Error类 PHP>7.0,因为存在__toString,可以进行XSS Exception类 因为存在__toString,可以进行XSS DirectoryIterator类 因为存在__toString,可以获取符合要求的第一个文件名 SplFileObject类 因为存在__toString&#xff0c…

深入浅出:Golang的Crypto/SHA256库实战指南

深入浅出:Golang的Crypto/SHA256库实战指南 介绍crypto/sha256库概览主要功能应用场景库结构和接口实例 基础使用教程字符串哈希化文件哈希化处理大型数据 进阶使用方法增量哈希计算使用Salt增强安全性多线程哈希计算 实际案例分析案例一:安全用户认证系…

缺省参数(c++)

void fun(int a0) { cout<<a<<endl; } 当我们调用函数时: fun(10) 输出10; fun&#xff08;&#xff09; 未传参时&#xff1a; 输出0; 未传参时a就会接受0&#xff0c;相当于这个0就是“备胎” 传参了0就没有用 全缺省 void fun2(int a10,int b3,int…

力扣刷题之旅:进阶篇(六)—— 图论与最短路径问题

力扣&#xff08;LeetCode&#xff09;是一个在线编程平台&#xff0c;主要用于帮助程序员提升算法和数据结构方面的能力。以下是一些力扣上的入门题目&#xff0c;以及它们的解题代码。 --点击进入刷题地址 引言 在算法的广阔天地中&#xff0c;图论是一个非常重要的领域。…

【开源】JAVA+Vue+SpringBoot实现实验室耗材管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 耗材档案模块2.2 耗材入库模块2.3 耗材出库模块2.4 耗材申请模块2.5 耗材审核模块 三、系统展示四、核心代码4.1 查询耗材品类4.2 查询资产出库清单4.3 资产出库4.4 查询入库单4.5 资产入库 五、免责说明 一、摘要 1.1…

《软件方法》强化自测题-总纲(8)

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 按照业务建模、需求、分析、设计工作流考察&#xff0c;答案不直接给出&#xff0c;可访问自测链接或扫二维码自测&#xff0c;做到全对才能知道答案。 知识点见《软件方法》、“软件…