【100天精通Python】Day56:Python 数据分析_Pandas数据清洗和处理

news2025/1/31 2:57:50

目录

数据清洗和处理

1.处理缺失值

1.1 删除缺失值:

1.2  填充缺失值:

1.3 插值:

2 数据类型转换

2.1 数据类型转换

2.2 日期和时间的转换:

2.3 分类数据的转换:

2.4 自定义数据类型的转换:

3 数据去重

4 数据合并和连接


数据清洗和处理

        在数据清洗和处理方面,Pandas 提供了多种功能,包括处理缺失值、数据类型转换、数据去重以及数据合并和连接。以下是这些功能的详细描述和示例:

1.处理缺失值

在 Pandas 中处理缺失值有多种方法,包括删除缺失值、填充缺失值和插值。

1.1 删除缺失值:

        删除缺失值是最简单的方法,但有时会导致数据损失。您可以使用 dropna() 方法来删除包含缺失值的行或列。

(1)删除包含缺失值的行:

import pandas as pd

data = {'A': [1, 2, None, 4],
        'B': [5, None, 7, 8]}
df = pd.DataFrame(data)

# 删除包含缺失值的行
df_cleaned = df.dropna()
print("删除包含缺失值的行的结果:\n", df_cleaned)

(2)删除包含缺失值的列:

# 删除包含缺失值的列
df_cleaned_columns = df.dropna(axis=1)
print("删除包含缺失值的列的结果:\n", df_cleaned_columns)

1.2  填充缺失值:

        填充缺失值是用特定值替代缺失值的方法。您可以使用 fillna() 方法来填充缺失值。

使用特定值填充缺失值:

# 使用特定值填充缺失值
df_filled = df.fillna(0)  # 用 0 填充缺失值
print("使用特定值填充缺失值的结果:\n", df_filled)

1.3 插值:

        插值是一种基于数据的方法,根据已知数据点的值来估计缺失值。Pandas 提供了多种插值方法,如线性插值、多项式插值等。

(1) 线性插值:

线性插值使用已知数据点之间的线性关系来估计缺失值。这是一种简单而常见的插值方法。

import pandas as pd

data = {'A': [1, 2, None, 4],
        'B': [5, None, 7, 8]}
df = pd.DataFrame(data)

# 使用线性插值填充缺失值
df_interpolated = df.interpolate()
print("使用线性插值填充缺失值的结果:\n", df_interpolated)

 (2) 多项式插值:

多项式插值使用多项式函数来逼近已知数据点,以估计缺失值。您可以指定多项式的阶数。

# 使用多项式插值填充缺失值(阶数为2)
df_poly_interpolated = df.interpolate(method='polynomial', order=2)
print("使用多项式插值填充缺失值的结果:\n", df_poly_interpolated)

(3) 时间序列插值:

对于时间序列数据,可以使用时间相关的插值方法,例如时间线性插值。

# 创建一个带有时间索引的示例 DataFrame
data = {'A': [1, 2, None, 4],
        'B': [5, None, 7, 8]}
dates = pd.date_range(start='2021-01-01', periods=len(data))
df_time_series = pd.DataFrame(data, index=dates)

# 使用时间线性插值填充缺失值
df_time_series_interpolated = df_time_series.interpolate(method='time')
print("使用时间线性插值填充缺失值的结果:\n", df_time_series_interpolated)

2 数据类型转换

        在 Pandas 中,数据类型转换是将一列或多列的数据类型更改为其他数据类型的过程。数据类型的转换可以帮助您适应特定的分析需求或确保数据的一致性。以下是一些常见的数据类型转换操作以及示例:

2.1 数据类型转换

  • 使用 astype() 方法将一列的数据类型转换为其他数据类型,如将整数列转换为浮点数列。
  • 使用 pd.to_numeric() 将列转换为数值类型,例如整数或浮点数。
import pandas as pd

# 创建示例 DataFrame
data = {'A': [1, 2, 3],
        'B': ['4', '5', '6']}
df = pd.DataFrame(data)

# 将列 'A' 从整数转换为浮点数
df['A'] = df['A'].astype(float)

# 将列 'B' 从字符串转换为整数
df['B'] = pd.to_numeric(df['B'])

print(df)

DataFrame 中的数据类型转换:

df.astype(dtype, copy=True, errors='raise')
  • dtype: 要将数据类型转换为的目标数据类型。可以是 NumPy 的数据类型(如 np.float32)或 Python 数据类型(如 floatint)。
  • copy(可选,默认为 True):指定是否返回副本(True)或修改原始 DataFrame(False)。
  • errors(可选,默认为 'raise'):指定如何处理转换错误。如果为 'raise',则会引发异常;如果为 'coerce',则将无法转换的值设置为 NaN。

 Series 中的数据类型转换:

s.astype(dtype, copy=True, errors='raise')
import pandas as pd

# 创建一个示例 DataFrame
data = {'A': [1, 2, 3],
        'B': [4, 5, 6]}
df = pd.DataFrame(data)

# 将列 'A' 从整数转换为浮点数
df['A'] = df['A'].astype(float)

# 将列 'B' 从整数转换为字符串
df['B'] = df['B'].astype(str)

# 将列 'C' 从字符串转换为整数并处理转换错误(设置无法转换的值为 NaN)
df['C'] = pd.to_numeric(df['C'], errors='coerce').astype(int)

print(df.dtypes)

上述示例中,我们演示了如何使用 astype()pd.to_numeric() 进行数据类型的转换,包括整数转浮点数、整数转字符串以及字符串转整数并处理转换错误的情况。 

2.2 日期和时间的转换:

  • 使用 pd.to_datetime() 将列转换为日期时间类型,以便进行日期时间操作。
import pandas as pd

# 创建示例 DataFrame
data = {'Date': ['2021-01-01', '2021-01-02', '2021-01-03'],
        'Value': [10, 15, 20]}
df = pd.DataFrame(data)

# 将 'Date' 列从字符串转换为日期时间类型
df['Date'] = pd.to_datetime(df['Date'])

print(df.dtypes)

2.3 分类数据的转换:

  • 使用 astype('category') 将列转换为分类数据类型,适用于有限的离散值。
import pandas as pd

# 创建示例 DataFrame
data = {'Category': ['A', 'B', 'A', 'C']}
df = pd.DataFrame(data)

# 将 'Category' 列转换为分类数据类型
df['Category'] = df['Category'].astype('category')

print(df.dtypes)

2.4 自定义数据类型的转换:

  • 您可以使用自定义函数来将数据转换为所需的数据类型,例如使用 apply() 方法。
import pandas as pd

# 创建示例 DataFrame
data = {'Numbers': ['1', '2', '3', '4']}
df = pd.DataFrame(data)

# 自定义函数将字符串转换为整数并应用到 'Numbers' 列
df['Numbers'] = df['Numbers'].apply(lambda x: int(x))

print(df.dtypes)

3 数据去重

在 Pandas 中,您可以使用 drop_duplicates() 方法来删除重复的行。这个方法会返回一个新的 DataFrame,其中不包含重复的行。以下是如何在 Pandas 中执行数据去重操作的示例:

import pandas as pd

# 创建示例 DataFrame
data = {'Name': ['Alice', 'Bob', 'Alice', 'David', 'Bob'],
        'Age': [25, 30, 25, 40, 30]}
df = pd.DataFrame(data)

# 执行去重操作,基于所有列
df_no_duplicates = df.drop_duplicates()

print("原始 DataFrame:")
print(df)

print("\n去重后的 DataFrame:")
print(df_no_duplicates)

上述示例中,drop_duplicates() 方法将基于所有列的内容来去重。如果要基于特定列进行去重,您可以通过传递 subset 参数来指定:

# 基于 'Name' 列进行去重
df_no_duplicates_name = df.drop_duplicates(subset=['Name'])

print("基于 'Name' 列去重后的 DataFrame:")
print(df_no_duplicates_name)

您还可以使用 keep 参数来控制保留哪一个重复值。例如,keep='first'(默认值)将保留第一个出现的值,而 keep='last' 将保留最后一个出现的值:

# 基于 'Name' 列进行去重,保留最后一个出现的值
df_keep_last = df.drop_duplicates(subset=['Name'], keep='last')

print("基于 'Name' 列去重,保留最后一个出现的值的 DataFrame:")
print(df_keep_last)

这些示例演示了如何使用 Pandas 进行数据去重。根据您的需求,您可以选择不同的去重方式。

4 数据合并和连接

        在 Pandas 中,您可以使用不同的方法进行数据合并和连接,这通常用于将多个数据集组合在一起以进行分析。以下是一些常见的数据合并和连接操作以及示例:

4.1 pd.concat()

  用于将多个 DataFrame 沿指定轴(通常是行轴或列轴)堆叠在一起。pd.concat() 默认在行轴(axis=0)上堆叠多个 DataFrame,也就是沿着行方向将它们连接在一起。如果您想在列轴(axis=1)上堆叠多个 DataFrame,可以通过指定 axis 参数为1 来实现。

import pandas as pd

# 创建两个示例 DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']})

# 在行轴上堆叠两个 DataFrame
result1 = pd.concat([df1, df2])

# 在列轴上堆叠两个 DataFrame
result2 = pd.concat([df1, df2], axis=1)

print(result1,result2)

输出:

4.2 pd.merge()

用于基于一个或多个键(列)将两个 DataFrame 合并在一起,类似于 SQL 的 JOIN 操作。

import pandas as pd

# 创建两个示例 DataFrame
left = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                     'value_left': ['V0', 'V1', 'V2']})

right = pd.DataFrame({'key': ['K1', 'K2', 'K3'],
                      'value_right': ['V3', 'V4', 'V5']})

# 基于 'key' 列进行合并
result = pd.merge(left, right, on='key')

print(result)

输出

 

4.3 df.join()

        用于将两个 DataFrame 沿索引合并。

import pandas as pd

# 创建两个示例 DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']}, index=['I0', 'I1', 'I2'])

df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']}, index=['I1', 'I2', 'I3'])

# 沿索引合并两个 DataFrame
result = df1.join(df2)

print(result)

输出:

这些是一些常见的数据合并和连接操作示例。根据您的需求,您可以选择适当的方法来合并和连接数据集。 Pandas 提供了丰富的选项和参数,以满足不同的合并和连接需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/979364.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023,软件测试人的未来在哪里?

2023年,IT行业出现空前的萧条,首先是年初一开始各大厂像着了魔似的不约而同的纷纷裁员、降薪、奖金包缩水,随之而来的是需求萎缩,HC减少或封锁等等。 而有幸未被列入裁员名单的在职人员,庆幸之余也心有余悸&#xff0…

Excel VSTO开发8 -相关控件

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 8 相关控件 在VSTO开发中,Ribbon(或称为Ribbon UI)是指Office应用程序中的那个位于顶部的带有选…

it运维监控管理平台,统一运维监控管理平台

随着系统规模的不断扩大和复杂性的提高,IT运维管理的难度也在逐步增加。为了应对这一挑战,IT运维监控管理平台应运而生。本文将详细介绍IT运维监控管理平台的作用和优势以及如何选择合适的平台。 IT运维监控管理平台的作用管理平台 IT运维监控管理平台是…

glb数据介绍

目录 1.什么是glb数据?2.glb数据可以用来干什么?3.glb和gltf有什么区别?4.glb数据怎么打开?5.如何创建glb数据?6.glb数据的结构7.glb数据的优缺点8.glb对pbr渲染的帮助 1.什么是glb数据? GLB文件&#xff0…

Ceph中对象读写请求的顺序性和并发控制

分布式系统中经常需要考虑对象(或者记录、文件、数据块等)的读写顺序以及并发访问问题。通常来说,如果两个对象没有共享的资源,就可以进行并发的访问;如果有共享的部分,就需要对这部分资源进行加锁。而对于同一个对象的…

Sentinel1.8.6集成nacos

代码:https://gitee.com/gsls200808/sentinel-dashboard-nacos jar包:https://gitee.com/gsls200808/sentinel-dashboard-nacos/releases/tag/v1.8.6.0 代码如果看不到可能需要登录。 官方参考文档: 动态规则扩展 alibaba/Sentinel Wiki…

【动态规划——最长公共子串】

动态规划——最长公共子串 题目链接 https://www.nowcoder.com/practice/98dc82c094e043ccb7e0570e5342dd1b?tpId37&tqId21298&rp1&ru/exam/oj/ta&qru/exam/oj/ta&sourceUrl%2Fexam%2Foj%2Fta%3FjudgeStatus%3D3%26page%3D2%26pageSize%3D50%26search%3…

day 49 | 647. 回文子串 ● 516.最长回文子序列

647. 回文子串 dp含义:dp如果是表示i-j的序列中回文子串的个数的话,当新来一个后只能判定出来是整体的回文,内部的无法判断,所以用bool表示整体比较恰当。 递推公式:由于i,j是由i1,j-1决定的,所…

【自学开发之旅】Flask-回顾--对象拆分-蓝图(二)

url-统一资源定位符-不同的url对应不同的资源 作为服务端&#xff0c;url和视图函数的映射关系就是路由。 定义传递参数的方式&#xff1a; 1.创建动态url app.route("/login2/<username>/<passwd>") def login2(username, passwd):if username "…

2.4.3 【MySQL】设置系统变量

2.4.3.1 通过启动选项设置 大部分的系统变量都可以通过启动服务器时传送启动选项的方式来进行设置。如何填写启动选项就是下面两种方式&#xff1a; 通过命令行添加启动选项。 在启动服务器程序时用这个命令&#xff1a; mysqld --default-storage-engineMyISAM --max-conn…

八、任务状态

1、任务状态简介 (1)任务状态可以简单的分为运行和非运行。 (2)非运行状态可以细分为&#xff1a;阻塞状态、暂停状态、就绪状态。 2、阻塞状态(Blocked) (1)举例说明&#xff1a;在日常生活的例子中&#xff0c;母亲在电脑前跟同事沟通时&#xff0c;如果同事一直没回复&a…

.bat定时调用jar包,稳定FTP传输文件,并生成日志Log

需求&#xff1a;每天整点需要将虚拟机1上的文件拷贝到虚拟机2上&#xff0c;具体的FTP传输代码&#xff08;Java&#xff09;可以看上一篇笔记。但文件传输不一定及时&#xff0c;即10点的数据可能10:05才到&#xff0c;因此程序需要尽可能地多执行&#xff0c;这样才能保住数…

【C++ 学习 ⑳】- 详解二叉搜索树

目录 一、概念 二、实现 2.1 - BST.h 2.2 - test.cpp 三、应用 四、性能分析 一、概念 二叉搜索树&#xff08;BST&#xff0c;Binary Search Tree&#xff09;&#xff0c;又称二叉排序树或二叉查找树。 二叉搜索树是一棵二叉树&#xff0c;可以为空&#xff1b;如果不…

Langchain使用之 - 文本分割Splitter

Langchain提供了多种文本分割器&#xff0c;包括CharacterTextSplitter(),MarkdownHeaderTextSplitter(),RecursiveCharacterTextSplitter()等&#xff0c;各种Splitter的作用如下图所示&#xff1a; TextSplitter 下面的代码是使用RecursiveCharacterTextSplitter对一段文字进…

vue-tour新手指导,点击按钮,进行提示,再次点击按钮,提示隐藏,点击下一步,弹框显示

先看效果图 main.js中引入vue-tour import VueTour from vue-tour require(vue-tour/dist/vue-tour.css) Vue.use(VueTour)建一个登录页面 点击导航助手按钮&#xff0c;开始提示 <el-button type"primary" plain click"startTour">导航助…

手写Spring:第9章-Aware感知容器对象

文章目录 一、目标&#xff1a;Aware感知容器对象二、设计&#xff1a;Aware感知容器对象三、实现&#xff1a;Aware感知容器对象3.1 工程结构3.2 Spring感知接口类图3.3 定义标记接口和容器感知类3.3.1 定义标记接口3.3.2 对象工厂感知接口3.3.3 类加载感知接口3.3.4 对象名称…

智慧排水监测系统:实时监测城市排水情况

中国智慧城市概念最初由住建部提出&#xff0c;随着智慧城市建设的广泛实践&#xff0c;对其认知也在不断深入与变化。2014年&#xff0c;国家发改委从数字化与技术角度认为:智慧城市是运用物联网、云计算、大数据、空间地理信息集成等新一代信息技术&#xff0c;促进城市规划、…

实现SSE的textevent-stream是什么?和applicationoctet-stream有什么区别?

WEB通讯技术。前端实现SSE长连接&#xff0c;nodejsexpress搭建简单服务器&#xff0c;进行接口调试&#xff0c;通过curl请求数据 点击上面的地址是可以了解轮询和长轮询以及websocket等通信模式&#xff0c;一些基础概念和速成技能&#xff0c;这篇来接着详细聊聊text/event…

电影《孤注一掷》引发观众思考网络安全

近日上映的电影《孤注一掷》深刻地揭示了境外网络诈骗的全产业链&#xff0c;上万起真实诈骗案例为素材&#xff0c;让观众近距离感受这一犯罪行为的阴谋与可怕。影片呈现了从诈骗策划到资金流转的每一个环节&#xff0c;引发了观众的强烈好奇和观看欲望。这种真实性让观众对网…

MITSUBISHI A1SJ51T64电源单元

电源供应&#xff1a;A1SJ51T64 电源单元通常用于为MITSUBISHI PLC系统提供稳定的电源&#xff0c;以确保系统正常运行。 电源输入&#xff1a;它通常支持广泛的电源输入范围&#xff0c;以适应不同地区的电源标准。 电源输出&#xff1a;A1SJ51T64 电源单元通常提供多个电源…