python数据预处理时缺失值的不同处理方式!

news2025/1/19 23:05:34

在使用python做数据分析的时候,经常需要先对数据做统一化的处理,缺失值的处理是经常会使用到的。

一般情况下,缺失值的处理要么是删除缺失数据所在的行,要么就是对缺失的单元格数据进行填充。

今天介绍的是使用差补法/均值/固定值等不同的方式完成数据填充从而保证数据的完整性!

这里采用的还是pandas模块的DataFrame数据对象来做数据处理,因此,没有pandas的话使用pip的方式安装一下即可。

pip install pandas

下面是我们需要处理的源数据,由于是本地测试数据,数据量比较小。

缺失值源数据.png

使用pandas模块的read_excel函数将源数据全部读取出来返回DataFrame对象。

# Importing the pandas module and giving it the alias pd.
import pandas as pd

# Reading the excel file and storing it in a dataframe.
data_frame = pd.read_excel('D:/test-data-work/data.xlsx')

# Printing the dataframe.
print(data_frame)

#           姓名      年龄      班级     成绩   表现
# 0   Python 集中营  10.0  1210.0   99.0    A
# 1   Python 集中营  11.0  1211.0  100.0    A
# 2   Python 集中营  12.0  1212.0  101.0    A
# 3   Python 集中营  13.0  1213.0  102.0    A
# 4   Python 集中营  14.0  1214.0  103.0  NaN
# 5   Python 集中营  15.0  1215.0  104.0    A
# 6   Python 集中营  16.0  1216.0  105.0    A
# 7   Python 集中营  17.0     NaN  106.0    A
# 8   Python 集中营  18.0  1218.0    NaN    A
# 9   Python 集中营  19.0  1219.0  108.0    A
# 10  Python 集中营   NaN  1220.0  109.0  NaN
# 11  Python 集中营   NaN     NaN  110.0    A
# 12  Python 集中营   NaN  1222.0    NaN    A
# 13  Python 集中营  23.0  1223.0  112.0    A
# 14  Python 集中营  24.0  1224.0  113.0    A
# 15  Python 集中营  25.0     NaN    NaN  NaN
# 16  Python 集中营   NaN  1226.0  115.0    A
# 17  Python 集中营  27.0  1227.0    NaN    A
# 18  Python 集中营  10.0  1210.0   99.0  NaN

源数据已经读取完成了,接下来使用四种常见的缺失值的处理方式来进行批量的数据填充。

1.固定值填充

固定值填充也是一种比较简单并且常用的填充方式,只需要给某个列填充自己想要填充的值即可。

这里我们把’表现’这一个列的空值全部填充成’B’,fillna函数就是填充空值的意思。

# Replacing all the NaN values in the column '表现' with the value 'B'.
data_frame['表现'] = data_frame['表现'].fillna('B')

# Printing the dataframe.
print(data_frame)

#           姓名      年龄      班级     成绩 表现
# 0   Python 集中营  10.0  1210.0   99.0  A
# 1   Python 集中营  11.0  1211.0  100.0  A
# 2   Python 集中营  12.0  1212.0  101.0  A
# 3   Python 集中营  13.0  1213.0  102.0  A
# 4   Python 集中营  14.0  1214.0  103.0  B
# 5   Python 集中营  15.0  1215.0  104.0  A
# 6   Python 集中营  16.0  1216.0  105.0  A
# 7   Python 集中营  17.0     NaN  106.0  A
# 8   Python 集中营  18.0  1218.0    NaN  A
# 9   Python 集中营  19.0  1219.0  108.0  A
# 10  Python 集中营   NaN  1220.0  109.0  B
# 11  Python 集中营   NaN     NaN  110.0  A
# 12  Python 集中营   NaN  1222.0    NaN  A
# 13  Python 集中营  23.0  1223.0  112.0  A
# 14  Python 集中营  24.0  1224.0  113.0  A
# 15  Python 集中营  25.0     NaN    NaN  B
# 16  Python 集中营   NaN  1226.0  115.0  A
# 17  Python 集中营  27.0  1227.0    NaN  A
# 18  Python 集中营  10.0  1210.0   99.0  B

2.均值填充

均值填充就是将缺失值所在列的数据进行一次均值计算,计算出结果后再填充到缺失值所在的单元格上面。

使用均值填充的前提是这一列的数据可以进行均值计算,比如’成绩’这一列都是数字可以使用mean函数做均值计算。

# Replacing all the NaN values in the column '成绩' with the mean of the column '成绩'.
data_frame['成绩'] = data_frame['成绩'].fillna(data_frame['成绩'].mean())

# It's printing the dataframe.
print(data_frame)

#           姓名      年龄      班级          成绩 表现
# 0   Python 集中营  10.0  1210.0   99.000000  A
# 1   Python 集中营  11.0  1211.0  100.000000  A
# 2   Python 集中营  12.0  1212.0  101.000000  A
# 3   Python 集中营  13.0  1213.0  102.000000  A
# 4   Python 集中营  14.0  1214.0  103.000000  B
# 5   Python 集中营  15.0  1215.0  104.000000  A
# 6   Python 集中营  16.0  1216.0  105.000000  A
# 7   Python 集中营  17.0     NaN  106.000000  A
# 8   Python 集中营  18.0  1218.0  105.733333  A
# 9   Python 集中营  19.0  1219.0  108.000000  A
# 10  Python 集中营   NaN  1220.0  109.000000  B
# 11  Python 集中营   NaN     NaN  110.000000  A
# 12  Python 集中营   NaN  1222.0  105.733333  A
# 13  Python 集中营  23.0  1223.0  112.000000  A
# 14  Python 集中营  24.0  1224.0  113.000000  A
# 15  Python 集中营  25.0     NaN  105.733333  B
# 16  Python 集中营   NaN  1226.0  115.000000  A
# 17  Python 集中营  27.0  1227.0  105.733333  A
# 18  Python 集中营  10.0  1210.0   99.000000  B

可以发现计算出的均值是105.733333,已经都填充到’成绩’这一列的缺失值上面了。

3.中位数填充

中位数填充和均值填充差不多是一样的,不同的是使用median函数来计算缺失值所在列的中位数。

# Replacing all the NaN values in the column '年龄' with the median of the column '年龄'.
data_frame['年龄'] = data_frame['年龄'].fillna(data_frame['年龄'].median())

# It's printing the dataframe.
print(data_frame)

#           姓名      年龄      班级          成绩 表现
# 0   Python 集中营  10.0  1210.0   99.000000  A
# 1   Python 集中营  11.0  1211.0  100.000000  A
# 2   Python 集中营  12.0  1212.0  101.000000  A
# 3   Python 集中营  13.0  1213.0  102.000000  A
# 4   Python 集中营  14.0  1214.0  103.000000  B
# 5   Python 集中营  15.0  1215.0  104.000000  A
# 6   Python 集中营  16.0  1216.0  105.000000  A
# 7   Python 集中营  17.0     NaN  106.000000  A
# 8   Python 集中营  18.0  1218.0  105.733333  A
# 9   Python 集中营  19.0  1219.0  108.000000  A
# 10  Python 集中营  16.0  1220.0  109.000000  B
# 11  Python 集中营  16.0     NaN  110.000000  A
# 12  Python 集中营  16.0  1222.0  105.733333  A
# 13  Python 集中营  23.0  1223.0  112.000000  A
# 14  Python 集中营  24.0  1224.0  113.000000  A
# 15  Python 集中营  25.0     NaN  105.733333  B
# 16  Python 集中营  16.0  1226.0  115.000000  A
# 17  Python 集中营  27.0  1227.0  105.733333  A
# 18  Python 集中营  10.0  1210.0   99.000000  B

4.插补法填充

差补法填充可以根据该列的上一个数据和下一个数据得到该单元格需要插入的数据是多少。

比如:上一个班级是1220,下一个班级是1222,那么该单元格需要插入的数据应该是1221。

# Replacing all the NaN values in the column '班级' with the interpolated values of the column '班级'.
data_frame['班级'] = data_frame['班级'].interpolate()

# It's printing the dataframe.
print(data_frame)

#           姓名      年龄      班级          成绩 表现
# 0   Python 集中营  10.0  1210.0   99.000000  A
# 1   Python 集中营  11.0  1211.0  100.000000  A
# 2   Python 集中营  12.0  1212.0  101.000000  A
# 3   Python 集中营  13.0  1213.0  102.000000  A
# 4   Python 集中营  14.0  1214.0  103.000000  B
# 5   Python 集中营  15.0  1215.0  104.000000  A
# 6   Python 集中营  16.0  1216.0  105.000000  A
# 7   Python 集中营  17.0  1217.0  106.000000  A
# 8   Python 集中营  18.0  1218.0  105.733333  A
# 9   Python 集中营  19.0  1219.0  108.000000  A
# 10  Python 集中营  16.0  1220.0  109.000000  B
# 11  Python 集中营  16.0  1221.0  110.000000  A
# 12  Python 集中营  16.0  1222.0  105.733333  A
# 13  Python 集中营  23.0  1223.0  112.000000  A
# 14  Python 集中营  24.0  1224.0  113.000000  A
# 15  Python 集中营  25.0  1225.0  105.733333  B
# 16  Python 集中营  16.0  1226.0  115.000000  A
# 17  Python 集中营  27.0  1227.0  105.733333  A
# 18  Python 集中营  10.0  1210.0   99.000000  B

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/106123.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CSS -- 08. 移动WEB开发之流式布局

文章目录移动WEB开发之流式布局1 移动端基础1.1 浏览器现状1.2 手机屏幕现状1.3 移动端调试方法2 视口2.1 布局视口 layout viewport2.2 视觉视口 visual viewport2.3 理想视口 ideal viewport2.4 meta视口标签3 二倍图3.1 物理像素&物理像素比3.2 多倍图3.3 背景缩放 back…

clickhouse-部署指南(亲测超详细)

文章目录环境要求测试环境Tar方式安装clickhouse用户授权访问控制服务配置启动连接测试TABIX webUI性能测试环境要求 ClickHouse可以在任何具有x86_64,AArch64或PowerPC64LE CPU架构的Linux,FreeBSD或Mac OS X上运行 官方预构建的二进制文件通常针对x86…

prometheus+grafana对数据库mysql监控

安装 mysql docker run --name mysql-test -p MYSQL ROOT_PASSWORD123456 -p23306:3306 mysql:5.7.26启动镜像的时候 已经是把docker容器内部的3306端口 映射到本机了 直接通过navicat连上 进入mysql容器内部 docker exec -it 容器id /bin/bash, 启动 mysql. docker start d…

33.flink cdc 实时数据同步利器

什么是flink cdc? 对很多初入门的人来说是无法理解cdc到底是什么个东西。 有这样一个需求,比如在mysql数据库中存在很多数据,但是公司要把mysql中的数据同步到数据仓库(starrocks), 数据仓库你可以理解为存储了各种各样来自不同数据库中表。 数据的同步…

2-2-3-7、FutureCompletableFuture详解

Runnable 线程的任务接口,用于定义被执行任务方法的抽象,是函数式接口(仅存在一个需要实现方法的接口),其方法为run方法通过对并发编程中java线程的了解,Thread调用start方法,最后操作系统会通过…

Confluence 调整会话超时(session timeout)

文章目录前言一、概括二、实际场景应用1.更改空闲超时2.更改记住我 cookie 的生命周期3.在用户通过身份验证后的某个时间强制注销用户总结前言 在 Confluence 中有两个会话 Cookie: JSESSIONID: 由 Tomcat 使用和管理。 默认情况下,这被视为会话 cooki…

类与对象(中)

类与对象类的6个默认成员函数构造函数概念特性析构函数概念特性拷贝构造函数概念特性赋值运算符重载运算符重载赋值运算符重载前置 后置 重载const成员函数取地址及const取地址操作符重载类的6个默认成员函数 当类中没有任何成员时,称作空类 但是呢,编译…

Docker使用(容器、镜像相关命令)

虚拟化 在计算机中,虚拟化(英语:Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可切割…

虹科方案|将以太网连接添加到Dell EMC PowerVault™ ML3 SAS库

一、Dell EMC 和 ATTO 磁带解决方案 Dell EMC 和 ATTO 提供了业界唯一的商用解决方案,可将高速以太网连接添加 到标准 SAS LTO 磁带驱动器。ATTO XstreamCORE ET 8200 智能网桥允许您使用 iSCSI 和 iSER 协议通过标准以太网远程连接到 SAS 磁带驱动器。当与采用最新…

花 2 个月备战字节跳动Java岗,3 轮面试拿下 60W Offer

最近收到一位刚入职字节的 Java 工程师朋友投稿——以下内容来自其亲身经历,某双非硕士拿到 字节 60W offer ,感谢他的走心分享(文末附硬货笔记) PART1:个人情况简介 菜 J 一枚,本硕都是计算机&#xff08…

[论文阅读] SqueezeSeg V1

文章目录1. 主要思想2. 具体方法2.1 数据处理方式2.2 网络架构3. 实验支撑4. 总结启示5. 相关文献paper 原论文的链接 code: 源代码链接 paper全称:SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDA…

【02】FreeRTOS获取10.4.6源码+移植到STM32F407步骤

目录 1.获取FreeRTOS源码 1.1 FreeRTOS官网下载步骤 1.2FreeRTOS源码内容 1.3FreeRTOS内核文件 1.3.1Demo文件夹 1.3.2Source文件夹 2.FreeRTOS移植 2.1添加FreeRTOS源码 2.1.1复制FreeRTOS源码 2.1.2将文件添加到工程 2.1.3添加头文件路径 2.2添加FreeRTOS.h 2.3修改SYS…

vpp process类型节点调度过程

vpp节点类型 VLIB_NODE_TYPE_PROCESS:process类型节点可以被挂起也可以被恢复,main线程上调度 (免费订阅,永久学习)学习地址: Dpdk/网络协议栈/vpp/OvS/DDos/NFV/虚拟化/高性能专家-学习视频教程-腾讯课堂 process节点注册 pro…

【MC】新加载器 Quilt 好用吗?和 Fabric 相比好在哪?

在今年四月 (2022/4/20) ,一个船新加载器 Quilt 发布了第一个测试版。 Quilt officially entered its first beta today, attracting an influx of new users and an amazing amount of support and positive feedback. By the end of the day, Quilt was happily l…

Go语言设计与实现 -- 字符串

Go语言的字符串与Java和python是一样的。具有不可变性。是一个只读的字节数组,如图所示。 因为Go的字符串具有不可变性,所以我们只能通过string和[]byte类型之间反复转换实现修改。 将这一段内存复制到栈上将变量的类型转换成[]byte后并修改字节数据将修…

功能上新|使用 Excel 低门槛进行指标分析!

Kyligence Zen 功能上新啦!用户不仅可以在 Kyligence Zen 中定义、分析和管理指标,还可直接使用 Excel 插件来分析 Kyligence Zen 中已经定义好的指标,学习无门槛,上手更轻松!欢迎访问 http://zen.kyligence.io 申请免…

实验二A 图像的空域(源代码一站式复制粘贴)

实验二A 图像的空域一、实验目的二、实验原理三、实验内容与要求四、实验的具体实现一、实验目的 1.掌握图像滤波的基本定义及目的。 2.理解空间域滤波的基本原理及方法。 3.掌握进行图像的空域滤波的方法。 二、实验原理 1.空域增强 空域滤波是在图像空间中借助模板对图像进…

阳哥JUC并发编程之AQS后篇全网最详细源码笔记

文章目录AQS后序课程笔记AQS源码ReentryLock锁的原理分析公平锁以及非公平锁源码详解Aquire方法调用原码流程分析第一步、tryAquire第二步、addwrite第三步:aquireQueuedAQS释放锁的过程第一步、释放锁第二步进入aquireQueueAQS异常情况下走Cancel流程分析第一种队尾…

ECharts项目实战:全球GDP数据可视化

【课程简介】 可视化是前端里一个几乎可以不用写网页,但又发展得非常好的方向。在互联网产品里,无论是C端中常见的双十一购物节可视化大屏,还是B端的企业中后台管理系统都离不开可视化。国家大力推动的智慧城市、智慧社区中也有很多可视化的…

对于DDoS攻击防御有哪些误区?

​  DDoS攻击是属于常见网络攻击之一,也是一种较难防御的网络攻击。它的特点就是易于启动、难防御、有害、难跟踪等。因此DDoS攻击也是众多站长最怕遇见的网络攻击。那么大家在使用海外服务器时,会有哪些DDoS攻击防御的误区呢? 1、防御全部DDoS攻击 防…