大数据分析实践 | pandas数据质量分析

news2026/2/14 23:51:57

文章目录

📚数据质量评估的五个维度
📚口袋妖怪数据质量分析
- 🐇导入库和数据
- 🐇检查数据
- 🐇缺失值分析
- 🐇重复值检测
- 🐇异常值检测

📚数据质量评估的五个维度

在这里插入图片描述

Coherent: without semantic errors or contradictory data between attributes of an object
Correct: the extent to which data correctly portrays reality
Completeness: without missing (null) values in table fields
Currency: the degree to which data is up-to-date
Consistency: consistent data values for an entity between different tables

在这里插入图片描述

📚口袋妖怪数据质量分析

🐇导入库和数据

import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')   #忽略警告
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
url = r'./data/Pokemon.csv'
data = pd.DataFrame(pd.read_csv(url))  #打开文件，读取数据

🐇检查数据

# 输出前五行数据
print('前五行数据:')
print(data.head(5))

在这里插入图片描述

# 输出最后三行数据
print('后三行数据')
print(data.tail(3))

在这里插入图片描述

删除后两行：data = data.iloc[:-2]

# 查看列名
print('列名：',data.columns)

在这里插入图片描述

# 查看行数与列数
print('行数与列数:',data.shape)

在这里插入图片描述

# 展示index，datatype和memory相关信息
print(data.info())

在这里插入图片描述

🐇缺失值分析

raw, column = data.shape  
if None:
    num = data[col].isnull().sum().sort_values()
else:
    num = data.isnull().sum().sort_values() 
print(None, r'缺失数')
print(num)  
print(None, r'缺失比例')
print(num/raw)

在这里插入图片描述

将所有缺失值填充为“null”：data = data.fillna("null")

🐇重复值检测

主要针对#列

# 检查 'id' 列是否有重复值
duplicate_ids = data.duplicated('#')
# 获取所有具有重复 id 的行
duplicate_rows = data[duplicate_ids]
# 打印具有重复 id 的行
print("具有重复 id 的行：")
print(duplicate_rows)

在这里插入图片描述

对于 # 重复的妖怪只保留第一条记录：data = data.drop_duplicates(['#'],keep='first')

🐇异常值检测

离群值

data['Attack'] = data['Attack'].astype(float)
data['Defense'] = data['Defense'].astype(float)
data['Sp. Atk'] = data['Sp. Atk'].astype(float)
data['Sp. Def'] = data['Sp. Def'].astype(float)
data['Speed'] = data['Speed'].astype(float)
data.boxplot(column=['Attack','Defense','Sp. Atk','Sp. Def','Speed'])
plt.show()

检查 Generation列是否存在非数字值

non_numeric_generation = pd.to_numeric(data['Generation'], errors='coerce').isna()
print(data[non_numeric_generation])

在这里插入图片描述

data = data[~non_numeric_generation]

检查 Legendary列除了TRUE和FALSE之外的值

filtered_data = data[~data['Legendary'].isin(['TRUE', 'FALSE'])]
print(filtered_data)

在这里插入图片描述

data = data.drop(filtered_data.index)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1117608.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

大数据分析实践 | pandas数据质量分析

文章目录

📚数据质量评估的五个维度

📚口袋妖怪数据质量分析

🐇导入库和数据

🐇检查数据

🐇缺失值分析

🐇重复值检测

🐇异常值检测

相关文章

Jetson nano 安装Ubuntu20.04系统

【LeetCode】62. 不同路径

【Python】13.模块

Spark--经典SQL50题

ZCU106+ADRV9371+CPRO33-30.72+6 dB 衰减

SystemVerilog学习（2）——数据类型

div透明模糊背景-渐变背景

rhcsa-8

前端 js 之 this 的绑定规则 04

共谋工业3D视觉发展，深眸科技以自研解决方案拓宽场景应用边界

ERR_PNPM_LINKING_FAILED Error: EPERM: operation not permitted, rename

『C语言进阶』字符函数和内存函数（1）

【python】机器学习-K-近邻（KNN）算法

【CSS】全局滚动条样式设置

力扣每日一题51：N皇后问题

【51单片机外部中断控制流水灯转向】2023-10-21

mysql优化之explain详解

【Linux】kill 命令使用

【吞噬星空】又被骂，罗峰杀人目无法纪，但官方留后手，增加审判戏份

有什么站内搜索引擎优化的方法？今天跟大家分享！