【pandas百炼成钢】数据预览与预处理

news2025/2/24 23:49:17

知识目录

  • 前言
  • 一、数据查看
      • 1 - 查看数据维度
      • 2 - 随机查看5条数据
      • 3 - 查看数据前后5行
      • 4 - 查看数据基本信息
      • 5 - 查看数据统计信息|数值
      • 6 - 查看数据统计信息|非数值
      • 7 - 查看数据统计信息|整体
  • 二、缺失值处理
      • 8 - 计算缺失值|总计
      • 9 - 计算缺失值|分列
      • 10 - 查看缺失值
      • 11- 高亮缺失值
      • 12 - 删除缺失值
      • 13 - 缺失值补全|整体填充
      • 14 - 缺失值补全|向上填充
      • 15 - 缺失值补全|整体均值填充
      • 16 - 缺失值补全|上下均值填充
      • 17 - 缺失值补全|匹配填充
  • 三、重复值处理
      • 18 - 查找重复值
      • 19 - 查找重复值|根据某列
      • 20 - 删除重复值
  • 结语

前言

  • 为什么需要数据预览与预处理?

在真实世界中,数据通常是不完整的(缺少某些感兴趣的属性值)、不一致的(包含代码或者名称的差异)、极易受到噪声(错误或异常值)的侵扰的。

就像一个大厨现在要做美味的蒸鱼,如果不将鱼进行去鳞等处理,一定做不成我们口中美味的鱼。

在拿到数据第一步当然是对数据做一个大概的浏览,以及对缺失值重复值进行相关处理。本小节就将练习这部分的基本操作。

注意

  • 1.每一种操作都可能对应一种或多种解法,文章里的不一定是最优的。

  • 2.为了尽可能多的介绍不同方法,因此文章中部分操作不是必须的。

一、数据查看

首先进行导入必要的包,然后加载数据文件。(数据文件获取链接:「movie_top_250.xlsx」)

import numpy as np
import pandas as pd
df = pd.read_excel("./data/movie_top_250.xlsx")

1 - 查看数据维度

查看数据行列,对数据量进行初步掌握

df.shape

2 - 随机查看5条数据

法一:使用 take() 函数结合 random 库

# 生成从0-262之间的5个不重复随机数,replace=False是关键
n = np.random.choice(262,5,replace=False)
# 使用 take 函数实现
df.take(n)

法二:使用 sample() 函数实现随机抽样

df.sample(5)

补充:三种抽样方式

有放回抽样

df.take(np.random.randint(0,4,size=5))

无放回抽样

df.take(np.random.permutation([0,1,2,3,4])) # 随机交换

随机抽样

df.sample(n) # n是抽样数量

3 - 查看数据前后5行

# 查看数据前5行
df.head()
# 查看数据后5行
df.tail()

4 - 查看数据基本信息

看看数据列名,非空行数,数据类型,内存使用情况等

df.info()

5 - 查看数据统计信息|数值

查看 数值型 列的统计信息,计数、均值、最值、方差等

# describe() 函数默认对数值型列进行计算统计信息、均值、最值和百分值。
df.describe()

更直观的查看,保留两位小数,然后转置:

df.describe().round(2).T

6 - 查看数据统计信息|非数值

查看 非数值型 列的出现个数,多少种不同值,出现次数最高的值,出现频次

df.describe(include=['O'])

7 - 查看数据统计信息|整体

查看 全部 列的统计信息

df.describe(include='all')

查看指定列的统计信息

df['上映年份'].describe()

二、缺失值处理

8 - 计算缺失值|总计

查看总共有多少个缺失值

df.isnull().sum().sum()

9 - 计算缺失值|分列

查看每列有多少缺失值

df.isnull().sum()

10 - 查看缺失值

为了后面更方便的处理缺失值,现在先看看全部缺失值所在的行

法一:使用 isnull() 函数

cond = df.isnull().any(axis = 1)
df[cond]

法二:使用 notnull() 函数

cond = df.notnull().all(axis = 1)
df[~cond]

11- 高亮缺失值

很明显,虽然上一题找到了全部缺失值所在的行,但是看起来不太直观,

现在,将缺失值进行高亮进一步查看

# 高亮显示null
df[cond].style.highlight_null()
# 高亮显示null,并且设置颜色
df[cond].style.highlight_null(null_color='#E36C07')

12 - 删除缺失值

处理缺失值最简单的方式,当然是将缺失值出现的行全部删掉 ~

现在,将缺失值出现的行全部删掉

df.dropna(inplace=False)

13 - 缺失值补全|整体填充

除了删除缺失值最省事之外,也可以将全部缺失值替换为一个 固定的值/文本

现在,将全部缺失值替换为 #

df = df.fillna('#')

14 - 缺失值补全|向上填充

从上一小节的查看数据中,不难发现整理数据是按照评分进行降序排列的,

因此对于评分列的缺失值处理,我们可以用上一个电影的评分进行填充。

现在将评分列的缺失值,替换为上一个电影的评分

df['评分'] = df['评分'].fillna(method='ffill')

15 - 缺失值补全|整体均值填充

对于评价人数列的缺失值处理,我们可以使用整列的均值进行填充

现在,将评价人数列的缺失值,用整列的均值进行填充

df['评分'] = df['评分'].mean()
df['评分'] = df['评分'].fillna(df['评分'].mean())

16 - 缺失值补全|上下均值填充

除了可以使用整列的均值进行填充,也可以使用缺失值位置的上下均值进行填充、

现在,将评价人数列的缺失值,用上下数字的均值进行填充

df['评价人数'] = df['评价人数'].fillna(df['评价人数'].interpolate())

17 - 缺失值补全|匹配填充

除了利用均值填充,有时还需要根据另一列的值进行匹配填充。

现在填充 “语言” 列的缺失值,要求根据 “国家/地区” 列的值进行填充。

例如 《海上钢琴师》国家/地区为 意大利,根据其他意大利国家对应的语言来看,应填充为 意大利语。

# 根据国家/地区分组,然后用后面的值填充
df['语言'] = df.groupby('国家/地区')['语言'].bfill()

三、重复值处理

18 - 查找重复值

将全部重复值所在的行筛选出来

df[df.duplicated(keep='first')]

19 - 查找重复值|根据某列

上面是所有列完全重复的情况,但有时我们只需要根据某列查找重复值

df[df['片名'].duplicated()]

20 - 删除重复值

删除全部的重复值,但保留第一次出现的值

法一

df = df[~df.duplicated()]

法二

df = df.drop_duplicates()

删除全部的重复值,但保留最后一次出现的值

df = df[~df.duplicated(keep='last')]

结语

以上就是本期要分享的全部内容了!我们下期再见 ~ ✨

⭐️如果有不懂的地方,欢迎大家和我一起探讨 ~

我是向阳花花花花,数据科学路上,与你同行 ⭐️

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/836224.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【ASP.NET MVC】使用动软(三)(11)

一、问题 上文中提到,动软提供了数据库的基本操作功能,但是往往需要添加新的功能来解决实际问题,比如GetModel,通过id去查对象: 这个功能就需要进行改进:往往程序中获取的是实体的其他属性,比如…

浪潮服务器硬盘指示灯显示黄色的服务器数据恢复案例

服务器数据恢复环境: 宁夏某市某单位的一台浪潮服务器,该服务器中有一组由6块SAS硬盘组建的RAID5阵列。 服务器上存放的是Oracle数据库文件,操作系统层面划分了1个卷。 服务器故障&初检: 服务器在运行过程中有两块磁盘的指示灯…

需要仔细了解公文类型和目的,以便选择合适的写作风格

撰写公文前需要仔细了解公文类型和目的,以便选择合适的写作风格。 不同类型的公文有不同的结构、内容和表达方式,需要根据具体类型和目的来选择合适的写作风格和表达方式。例如,通知、公告等公文需要采用简洁明了、规范严谨的表达方式&#x…

一篇文章教你学会:对Java集合进行并集,交集,差集运算

废话不多,直接上代码: 目录 1:新建一个实体类 2:准备好数据 3:使用stream 流求 3.1 并集 3.2 交集 3.3 差集 3.31(第一种) 3.32(第二种) 4:使用Gool…

《吐血整理》高级系列教程-吃透Fiddler抓包教程(28)-Fiddler如何抓取Android7.0以上的Https包-下篇

1.简介 虽然依旧能抓到大部分Android APP的HTTP/HTTPS包,但是别高兴的太早,有的APP为了防抓包,还做了很多操作: ① 二次加密 有的APP,在涉及到关键数据通信时,会将正文二次加密后才通过HTTPS发送&#xff…

RFID资产管理系统的选择

RFID资产管理是一种有效的资产过程控制方法,可以帮助企业实现高效的资产管理。选择RFID技术,可以高度集成各种资产信息,完成实时跟踪管理。   根据RFID资产管理系统,可以做到资产的实时管理,使企业管理者可以实时了解…

Android优化篇|网络预连接

作者:苍耳叔叔 一个示例 前后分别去请求同一个域名下的接口,通过 Charles 抓包,可以看到 Timing 下面的时间: 第二次请求时,DNS、Connect 和 TLS Handshake 部分都是 -,说明没有这部分的耗时,…

C# 控制台彩色深度打印 工具类

文章目录 前言Nuget 环境安装代码使用打印结果 总结 前言 有时候我们想要靠打印获得程序信息,因为Dubeg模式需要一点一点断点进入进出,但是我们觉得断点运行实在是太慢了,还是直接打印后找结果会好一点。 Nuget 环境安装 想自己写的话可以看…

unity tolua热更新框架教程(1)

git GitHub - topameng/tolua: The fastest unity lua binding solution 拉取到本地 使用unity打开,此处使用环境 打开前几个弹窗(管线和api升级)都点确定 修改项目设置 切换到安卓平台尝试打包编译 设置包名 查看报错 打开 屏蔽接口导出 重新生成 编译通过 …

FineReport常用功能

不分页显示数据 参见:https://help.fanruan.com/finereport/doc-view-328.html?source4 列数多时,所有列不能在一页显示,可在URL后增加如下参数,添加模版时,可以作为模版参数进行设置: 分页预览模式&am…

orangepi 4lts ubuntu安装RabbitMQ

4lts的emmc 系统安装选文件系统格式 ext4 需先安装erlang: sudo apt install erlang 安装RabbitMQ: sudo apt install rabbitmq-server - 添加用户以便远程访问: - 账号密码都是admin: sudo rabbitmqctl add_user admin admin -sudo rabbitmqct…

C 语言高级2-多维数组,结构体,递归操作

1. 多维数组 1.1 一维数组 元素类型角度:数组是相同类型的变量的有序集合内存角度:连续的一大片内存空间 在讨论多维数组之前,我们还需要学习很多关于一维数组的知识。首先让我们学习一个概念。 1.1.1 数组名 考虑下面这些声明&#xff1…

钉钉微应用

钉钉微应用 在做钉钉微应用开发的时候,遇到了一些相关性的问题,特此记录下,有遇到其他问题的,欢迎一起讨论 调试工具 当我们基于钉钉开发微应用时,难免会遇到调用钉钉api后的调试,这个时候可以安装eruda…

笔记本WIFI连接无网络【实测有效解决方案,不用重启电脑】

笔记本Wifi连接无网络实测有效解决方案 问题描述: 笔记本买来一段时间后,WIFI网络连接开机一段时间还正常连接,但是过一段时间显示网络连接不上解决方案: 1.编写网络重启bat脚本,将以下内容写到文本文件,把…

使用 FastGPT 构建高质量 AI 知识库

作者:余金隆。FastGPT 项目作者,Sealos 项目前端负责人,前 Shopee 前端开发工程师 FastGPT 项目地址:https://github.com/labring/FastGPT/ 引言 自从去年 12 月 ChatGPT 发布以来,带动了一轮新的交互应用革命。尤其在…

【分布式系统】聊聊系统监控

对于分布式系统来说,出现故障的是常有的事情,如何在短时间内找到故障的原因,排除故障是非常重要的,而监控系统是就像系统的眼睛可以通过分析相关数据,进一步管理和运维整个分布式系统。 监控系统的的基本功能包含 全…

Java02-迭代器,数据结构,List,Set ,TreeSet集合,Collections工具类

目录 什么是遍历? 一、Collection集合的遍历方式 1.迭代器遍历 方法 流程 案例 2. foreach(增强for循环)遍历 案例 3.Lamdba表达式遍历 案例 二、数据结构 数据结构介绍 常见数据结构 栈(Stack) 队列&a…

移远通信携手产业合作伙伴率先完成RedCap端网兼容性现网测试

近日,移远通信与中国联通携手,基于搭载高通骁龙X35平台的移远RedCap模组RG255C-CN,在上海嘉定率先完成3.5GHz、2.1GHz、900MHz 中国联通5G全频段 RedCap端网兼容性现网测试,为5G RedCap商用部署奠定了坚实基础。 本次5G RedCap外场…

【Python:参数解析器argparse】对命令行参数进行解析

常用的流程如下: 1、先创建一个解析器: parser argparse.ArgumentParser(description"...")2、为解析器增加参数,包括name、默认值、帮助信息等 parser.add_argument(name "", default ..., help ...)name前面可以…

CS5366+VL171母座正反插HDMI(CS5466也可搭配)国产芯片TYPEC方案设计 ASL电路原理图 集睿致远+威锋设计

VL171是威锋芯片,可搭配ASL集睿致远CS5366设计TypeC母座正反插转HDMI高清投屏方案,CS5366是2lane 芯片,支持4K60HZ,是CS5266的升级版,CS5366设计拓展坞方案可以替代CS5266携带快充100W的PD和US,多口HUB也不在话下,而画面的刷新率和…