Python缺失值处理实现

news2025/4/19 6:39:41

  在数据处理相关工作中,读取的数据中常常会有缺失值的情况,为顺利进行后续的操作,需要首先对缺失值进行处理,处理的方式一般为删除填充,Python中提供了专门的工具包,可以方便地进行实现。读取操作可以由pandas模块实现,通常直接读一个excel或csv文件,创建为DataFrame对象,模块中的dropna方法和fillna方法可以实现对缺失值的删除和填充。
  现有下列数据文件,文件命名为testdata.xlsx,对它进行缺失值处理。
在这里插入图片描述
读取数据:

import pandas as pd
data = pd.read_excel("./testdata.xlsx")

在这里插入图片描述
  易知数据中第4行第1列、第6行第2列、第2行第4列、第3行第4列是缺失的。

1.删除

  对于缺失的地方,可以删除所在的行或所在的列。

(1).删除含空值的行,在dropna()中加参数axis=0.
data.dropna(axis=0,inplace=True)

在这里插入图片描述

(2).删除含空值的列,在dropna()中加参数axis=1.
data.dropna(axis=1,inplace=True)

在这里插入图片描述

2.填充

  对于缺失的地方,也可以填入一个值使之不再空缺。通常填0、指定字符、中位数、均值、相邻值或拟合值。

(1).填充0
data.fillna(0,inplace=True)

在这里插入图片描述

(2) 填充指定字符
data.fillna('无',inplace=True)

在这里插入图片描述

(3) 填充整体的均值、中位数

  均值(保留一位小数):

t = np.round(np.mean(data),1)
data.fillna(t,inplace=True)

在这里插入图片描述
  中位数:

dnr = np.array(data)
dnr = dnr[~np.isnan(dnr)] # 非nan元素
t = np.median(dnr)  # 整体中位数
data.fillna(t,inplace=True)

在这里插入图片描述

(4)填充所在列的均值、中位数

  均值:

data.fillna(data.mean(),inplace=True)

在这里插入图片描述
  中位数:
  (奇数个元素取中间的,偶数个元素取中间两个的均值)

data.fillna(data.median(),inplace=True)

在这里插入图片描述

(5)填充相邻值

  a. 填充列的前相邻值

data.fillna(method='ffill',axis=0,inplace=True)

  或

data.ffill(axis=0,inplace=True)

在这里插入图片描述
  b. 填充列的后相邻值

data.fillna(method='bfill',axis=0,inplace=True)

  或

data.bfill(axis=0,inplace=True)

在这里插入图片描述

  c. 填充行的前相邻值

data.fillna(method='ffill',axis=1,inplace=True)

  或

data.ffill(axis=1,inplace=True)

在这里插入图片描述
  d. 填充行的后相邻值

data.fillna(method='bfill',axis=1,inplace=True)

  或

data.bfill(axis=1,inplace=True)

在这里插入图片描述

(6)按列填充指定内容

  有时不同列空缺数据的填充需求是不一致的,此时可以按列进行填充。
a.填充某一列
  对第4列空缺处填充列均值

mean_c4 = data['TitleC4'].mean()
data['TitleC4'].fillna(mean_c4, inplace=True)  

在这里插入图片描述
  对第4列空缺处填充前相邻值

data['TitleC4'].fillna(method='ffill',axis=0,inplace=True)  

  或

data['TitleC4'].ffill(axis=0,inplace=True) 

在这里插入图片描述
  b,用字典指定填充多列

fill_values = {'TitleC1':1111,'TitleC2':2222,'TitleC4':4444,'TitleC5':5555}
data.fillna(value=fill_values, inplace=True)  

在这里插入图片描述

(7)填充拟合值(插值算法)

  对于元素仅为数字的数据,缺失部分也可用插值算法填充,如线性插值、二次插值、三次插值、样条插值等。

data.interpolate(method='slinear',inplace=True)  #线性插值
data.interpolate(method='quadratic',inplace=True)  #二次插值
data.interpolate(method='cubic',inplace=True)  #三次插值



参考:
1.https://www.python100.com/html/L1PK07477FUQ.html
2.https://www.python100.com/html/120094.html
3.https://www.python100.com/html/75400.html
4.https://blog.csdn.net/weixin_46277779/article/details/126224097

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1265459.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

抖音视频如何无水印下载,怎么批量保存主页所有视频没水印?

现在最火的短视频平台莫过于抖音,当我们刷到一个视频想下载下来怎么办?我们知道可以通过保存到相册的方式下载,但用这种方法下载的视频带有水印,而且有些视频不能保存到相册(这是视频作者设置了禁止下载)。…

C#通过NPOI 读、写Excel数据;合并单元格、简单样式修改;通过读取已有的Excel模板另存为文件

文章目录 1 需要引用的DLL2 调用示例3 工具类 1 需要引用的DLL 2 调用示例 public static void WriteExcel() {string templateFile "F:\12312\excel.xlsx"; // 文件必须存在string outFile "F:\12312\" DateTime.Now.ToString("yyyyMMddHHmmssff…

dart多线程双向通信的案例----【小学4年级课程】

下面是运行后的打印顺序 I/flutter (20170): 上班 I/flutter (20170): 这里是校长室:main I/flutter (20170): 这里是饭堂:fantang1 I/flutter (20170): 这里是收发室--检查小孩发回去给他妈妈的信息是:我是秘书的儿子,我来到在校长室了。校长今晚想吃羊…

项目:基于UDP的网络聊天室

项目需求: 1.如果有用户登录,其他用户可以收到这个人的登录信息 2.如果有人发送信息,其他用户可以收到这个人的群聊信息 3.如果有人下线,其他用户可以收到这个人的下线信息 4.服务器可以发送系统信息 服务器代码: #i…

深入了解Java8新特性-日期时间API:LocalDateTime类

阅读建议 嗨,伙计!刷到这篇文章咱们就是有缘人,在阅读这篇文章前我有一些建议: 本篇文章大概22000多字,预计阅读时间长需要20分钟以上。本篇文章的实战性、理论性较强,是一篇质量分数较高的技术干货文章&…

离散数学-集合论基础

3.1集合的基本概念 1)集合及元素 2)集合的表示 3)集合的关系 4)特殊集合 3.2集合的运算 并、交、差、对称差 3.3集合的划分与覆盖 3.4排斥包含管理 3.1集合的基本概念 1)集合及元素 将某种具有同种属性的个体…

记录Windows下安装redis的过程

开源博客项目Blog支持使用EasyCaching组件操作redis等缓存数据库,在继续学习开源博客项目Blog之前,准备先学习redis和EasyCaching组件的基本用法,本文记录在Windows下安装redis的过程。   虽然redis官网文档写着支持Linux、macOS、Windows等…

pyecharts绘制自定义点+连线取消箭头+时间帧叠加

pyecharts之Geo地图大法(详解,代码带注释效果图) 近期项目上有地图自定义绘点连线分严重等级的需求,整了,分开处理啥都好说,多个数据放在同一维度的时候,只恨pyecharts的开发者为什么把功能整得…

简介vue

目录 一、介绍 渐进式框架​ 单文件组件​ 选项式 API (Options API)​ 组合式 API (Composition API)​ 该选哪一个?​ 创建一个 Vue 应用 应用实例​ 根组件​ DOM 中的根组件模板 应用配置​ 多个应用实例​ 一、介绍 Vue (发音为 /vjuː/&#xff…

Selenium 学习(0.17)——软件测试之测试用例设计方法——白盒测试——逻辑覆盖法(条件覆盖和条件判定覆盖)

条件覆盖 设计测试用例,使每个判断中每个条件的可能取值至少满足一次。 条件判定覆盖 通过设计足够的测试用例,满足如下条件: 所有条件的可能至少执行一次的取值 所有判断的可能结果至少执行一次 条件判定覆盖同时满足判定覆…

灰度发布专题---3、Nginx+Lua灰度发布

上一章已经讲解了配置文件灰度发布、应用版本灰度发布、API网关灰度发布实现,但如果用户这时候在代理层如何做灰度发布呢? 代理层灰度发布分析 用户无论访问应用服务还是静态页,都要经过Nginx代理层,我们可以在Nginx这里做灰度发…

读像火箭科学家一样思考笔记12_实践与测试(下)

1. 舆论的火箭科学 1.1. 如果苹果违反了“即飞即测”原则,那苹果的iPhone就不会问世了 1.1.1. iPhone在其上市前的民意调查中相当失败 1.1.1.1. iPhone不可能获得太大市场份额,不可能。 1.1.1.1.1. 微软前CEO史蒂夫鲍尔默(Steve Ballmer&…

AIGC系列之:GroundingDNIO原理解读及在Stable Diffusion中使用

目录 1.前言 2.方法概括 3.算法介绍 3.1图像-文本特征提取与增强 3.2基于文本引导的目标检测 3.3跨模态解码器 3.4文本prompt特征提取 4.应用场景 4.1结合生成模型完成目标区域生成 4.2结合stable diffusion完成图像编辑 4.3结合分割模型完成任意图像分割 1.前言 …

第20章 多线程

创建线程 继承Thread 类 Thread 类时 java.lang 包中的一个类,从类中实例化的对象代表线程,程序员启动一个新线程需要建立 Thread 实例。 Thread 对象需要一个任务来执行,任务是指线程在启动时执行的工作,start() 方法启动线程…

第一百八十二回 自定义一个可以滑动的刻度尺

文章目录 1. 概念介绍2. 思路与方法2.1 实现思路2.2 实现方法3. 示例代码4. 内容总结我们在上一章回中介绍了"如何绘制阴影效果"相关的内容,本章回中将介绍 如何自定义一个可以滑动的刻度尺.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 任何优美的文字在图…

[SaaS] 广告创意中stable-diffusion的应用

深度对谈:广告创意领域中 AIGC 的应用这个领域非常快速发展,所以你应该保持好奇心,不断尝试新事物,不断挑战自己。https://mp.weixin.qq.com/s/ux9iEABNois3y4wwyaDzAQ我对AIGC领域应用调研,除了MaaS服务之外&#xff…

电荷泵升压/降压电路

一、升压\降压电路原理分析 1、升压电路 电荷泵升压电路 VoutVa5V 5V_PLUS0V时,Va给C2充电,C2上节点电压比C2下节点电压高Va; 5V_PLUS5V时,C2电压不能突变,C2上节点电压依然比C2下节点电压高Va,但C2下节点…

supermap-iserver激活教程(linux)

本篇只介绍linux临时许可激活教程,windows的原理一摸一样不做赘述。 1.下载许可中心(web版) SuperMap技术资源中心|为您提供全面的在线技术服务 2.解压 supermap-bslicense-server-3.0.24-linux-x64.tar.gz tar -zxvf supermap-bslicense…

选择排序以及改进方案

选择排序以及改进方案 介绍: 选择排序是一种简单直观的排序算法,它的基本思想是在未排序序列中选择最小(或最大)的元素,然后将其放在已排序序列的末尾。选择排序的过程就像是每次从待排序的元素中选择最小的一个&…

Java基于ssm的租房求租网站房东直租中介托管房屋出租项目源码

演示视频 https://www.bilibili.com/video/BV1Lh411J7ic/?share_sourcecopy_web&vd_source11344bb73ef9b33550b8202d07ae139b 可转成springboot项目。 主要功能:租户可以浏览搜索收藏房源,预约看房,发布求租信息。房东可以发布管理房源…