深入Pandas(二):高级数据处理技巧

news2025/1/12 3:03:38

文章目录

  • 系列文章目录
  • 引言
      • 时间序列分析可视化示例
    • 高级数据分析技术
      • 分组与聚合操作
      • 时间序列分析
    • 高级数据操作
      • 数据合并与重塑
      • 示例:数据合并merge
        • 示例:数据合并concat
        • 示例:数据重塑 - 透视表
      • 高级索引技巧
  • 结论

系列文章目录

Python数据分析全攻略
深入Pandas: 数据分析的强大工具

所有的代码资源包括说明文档均上传至资源,可在文章顶部免费下载!!!

引言

在我们上一篇关于Pandas的博客中,我们已经浏览了这一强大Python数据分析库的基础特性和初级数据处理功能。我们了解到,Pandas以其直观的数据结构和简洁的数据操作流程,为数据科学家和分析师提供了一个极其有效的工具。然而,Pandas的真正魅力远不止于此。对于那些已经熟悉了Pandas基础功能的读者来说,更深层次的探索将揭开Pandas高级数据处理和分析能力的神秘面纱。

在这篇博客中,我们将深入探讨Pandas的高级功能,包括复杂数据的合并与重塑、高级索引技巧、以及高级数据分析技术。此外,我们还将着重介绍如何利用Pandas进行高效的时间序列分析,并通过数据可视化技术将这些分析结果生动呈现。本篇内容旨在为那些希望提升自己在Pandas应用能力上的读者提供实用的指导和灵感。

时间序列分析可视化示例

在这里插入图片描述

高级数据分析技术

分组与聚合操作

Pandas的groupby功能非常强大,它允许按照某些条件将数据分组,并对每组数据进行聚合操作。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 创建一个包含多列的DataFrame
df = pd.DataFrame({
    'Date': pd.date_range(start='2023-01-01', periods=100, freq='D'),
    'Category': np.random.choice(['Electronics', 'Clothing', 'Furniture'], 100),
    'Region': np.random.choice(['North', 'South', 'East', 'West'], 100),
    'Sales': np.random.randint(100, 1000, size=100)
})

# 使用groupby进行分组,按照'Category'和'Region'列
grouped = df.groupby(['Category', 'Region'])

# 对每组数据进行多种聚合操作
agg_df = grouped['Sales'].agg([np.sum, np.mean, np.count_nonzero])

# 设置画布大小
plt.figure(figsize=(18, 6))

# 第一个图表:销售总额
plt.subplot(1, 3, 1)  # 1行3列,第1个
agg_df['sum'].unstack().plot(kind='bar', ax=plt.gca())
plt.title('Total Sales by Category and Region')
plt.ylabel('Total Sales')

# 第二个图表:销售平均值
plt.subplot(1, 3, 2)  # 1行3列,第2个
agg_df['mean'].unstack().plot(kind='bar', colormap='viridis', ax=plt.gca())
plt.title('Average Sales by Category and Region')
plt.ylabel('Average Sales')

# 第三个图表:销售次数
plt.subplot(1, 3, 3)  # 1行3列,第3个
agg_df['count_nonzero'].unstack().plot(kind='bar', colormap='coolwarm', ax=plt.gca())
plt.title('Number of Sales by Category and Region')
plt.ylabel('Sales Count')

plt.tight_layout()  # 调整子图布局
plt.show()

分组与聚合

时间序列分析

Pandas提供了强大的时间序列处理能力,包括日期范围生成、频率转换、窗口函数等。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 生成两个时间序列数据
ts1 = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts2 = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))

# 累计和
ts1_cumsum = ts1.cumsum()
ts2_cumsum = ts2.cumsum()

# 重采样并计算均值
ts1_resampled = ts1.resample('M').mean()
ts2_resampled = ts2.resample('M').mean()

# 使用滚动窗口计算(例如:窗口大小为50)
roll_mean = ts1.rolling(window=50).mean()

# 数据可视化
plt.figure(figsize=(12, 8))

# 绘制原始数据
plt.subplot(2, 2, 1)
ts1.plot()
plt.title('Original Time Series 1')

plt.subplot(2, 2, 2)
ts2.plot()
plt.title('Original Time Series 2')

# 绘制累计和
plt.subplot(2, 2, 3)
ts1_cumsum.plot()
ts2_cumsum.plot()
plt.title('Cumulative Sum of Time Series')

# 绘制重采样数据和滚动平均
plt.subplot(2, 2, 4)
ts1_resampled.plot()
roll_mean.plot()
plt.title('Resampled Monthly Mean and Rolling Mean')

plt.tight_layout()
plt.show()

时间序列

高级数据操作

数据合并与重塑

Pandas提供了多种数据合并和重塑的方法,如mergeconcatpivot_table等。

示例:数据合并merge

import pandas as pd

# 创建第一个DataFrame:员工ID、姓名和年龄
df1 = pd.DataFrame({
    'Employee ID': ['001', '002', '003', '004'],
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40]
})

# 创建第二个DataFrame:员工ID、部门和工作地点
df2 = pd.DataFrame({
    'Employee ID': ['001', '002', '004', '005'],
    'Department': ['HR', 'Engineering', 'IT', 'Marketing'],
    'Location': ['New York', 'San Francisco', 'Toronto', 'Austin']
})

# 创建第三个DataFrame:部门和部门经理
df3 = pd.DataFrame({
    'Department': ['HR', 'Engineering', 'IT', 'Marketing'],
    'Manager': ['Emma', 'Liam', 'Olivia', 'Noah']
})

# 打印合并前的DataFrame
print("DataFrame 1 (Employee Info):")
print(df1)
print("\nDataFrame 2 (Work Info):")
print(df2)
print("\nDataFrame 3 (Department Info):")
print(df3)

# 使用merge函数合并df1和df2
merged_df1 = pd.merge(df1, df2, on='Employee ID', how='left')

# 打印第一次合并后的DataFrame
print("\nMerged DataFrame 1 and 2:")
print(merged_df1)

# 再次使用merge合并merged_df1和df3
final_merged_df = pd.merge(merged_df1, df3, on='Department', how='left')

# 打印最终合并后的DataFrame
print("\nFinal Merged DataFrame:")
print(final_merged_df)

数据合并merge

示例:数据合并concat
import pandas as pd
import matplotlib.pyplot as plt

# 示例数据集
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                    index=[4, 5, 6, 7])

# 使用concat进行数据合并
result = pd.concat([df1, df2])

# 为每个唯一的字符串分配一个唯一的整数
for column in result.columns:
    result[column] = result[column].astype('category').cat.codes

# 可视化合并后的数据
result.plot(kind='bar')
plt.title("Concatenated DataFrames with Numerical Representation")
plt.xlabel("Index")
plt.ylabel("Assigned Value")
plt.show()

数据合并concat

示例:数据重塑 - 透视表
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 创建一个包含日期、产品类别、地区和销售额的DataFrame
data = {
    'Date': pd.date_range(start='2023-01-01', periods=100, freq='D'),
    'Category': np.random.choice(['Electronics', 'Clothing', 'Furniture'], 100),
    'Region': np.random.choice(['North', 'South', 'East', 'West'], 100),
    'Sales': np.random.randint(100, 1000, size=100)
}
df = pd.DataFrame(data)

# 创建透视表
pivot_table = df.pivot_table(values='Sales', index=['Region', 'Category'], aggfunc=[np.sum, np.mean])

# 设置图表的大小
plt.figure(figsize=(12, 8))  

# 绘制图表
pivot_table['sum'].plot(kind='bar', title='Total Sales by Region and Category')
plt.ylabel('Total Sales')

# 调整横坐标标签的角度
plt.xticks(rotation=45)

plt.tight_layout()
plt.savefig('pivot_table.png', format='png')  # 保存图表为图片

# plt.show()  # 显示图表

透视表

高级索引技巧

Pandas支持多级索引(Hierarchical indexing),它允许在一个轴上拥有多个(两个以上)索引级别。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 创建一个带有多级索引的DataFrame
index = pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2), ('a', 3), ('b', 3)], names=['group', 'subgroup'])
df = pd.DataFrame(np.random.randn(6, 2), index=index, columns=['data1', 'data2'])

# 使用groupby和unstack对数据进行处理
grouped = df.groupby(level=0).mean()  # 计算每个主组的平均值
unstacked = df.unstack()  # 将多级索引数据结构转换为宽格式

# 设置画布大小
plt.figure(figsize=(18, 6))

# 第一个图表:主组的平均值
plt.subplot(1, 3, 1)  # 1行3列,第1个
grouped.plot(kind='bar', ax=plt.gca())
plt.title('Mean of data1 and data2 for each group')

# 第二个图表:每个子组的data1数据
plt.subplot(1, 3, 2)  # 1行3列,第2个
unstacked['data1'].plot(kind='bar', ax=plt.gca())
plt.title('Data1 for each subgroup')

# 第三个图表:每个子组的data2数据
plt.subplot(1, 3, 3)  # 1行3列,第3个
unstacked['data2'].plot(kind='bar', ax=plt.gca())
plt.title('Data2 for each subgroup')

# 显示图表
plt.tight_layout()
plt.show()

高级索引

结论

通过本篇的学习,相信读者对Pandas的高级功能有了更深的了解和掌握。Pandas的高级数据处理和分析功能,使得处理复杂数据变得更加简单高效。无论是数据科学家、分析师还是Python开发者,掌握这些高级技巧都将大大提升工作效率和分析能力。

Pandas的高级功能不仅限于本文所述,它还有许多其他强大的功能等待探索。希望读者能够在实践中不断发掘Pandas的潜力,并将其应用于各自的数据分析任务中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1361725.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

B059-权限管理系统01

目录 知识点介绍项目演示项目搭建动态菜单查询分析(权限表分析)权限系统表分析角色模块pageInfopageHelper实现前端动态分页高级查询新增与修改删除角色 分配权限-表分析角色授权数据-一级和二级权限查询 知识点介绍 项目演示 准备数据库 准备工程auth_new tips:…

Java中请求生成唯一追溯TraceId

Java中请求生成唯一追溯TraceId 一:背景 因为是微服务架构,平常日志太多,看日志不太好查,所以想要从一整个链路当中获取一个唯一标识,比较好定位问题, 原理就是从gateway网关将标识传递到下游,下游服务拿到这个标识,响应结束后将traceId反向写入响应体…

Python中的有序字典是什么

有序字典 一、简介 Python中的字典的特性:无序性。 有序字典和通常字典类似,只是它可以记录元素插入其中的顺序,而一般字典是会以任意的顺序迭代的。 二、普通字典 #! /usr/bin/env python3 # -*- coding:utf-8 -*- d1 {} d1[a] A d1[b…

十种编程语言的对比分析

在当今的软件开发领域,编程语言扮演着至关重要的角色。不同的编程语言各有其特点和适用场景,选择合适的编程语言能够提高开发效率和软件质量。本文将对十种常见的编程语言进行对比分析,帮助读者了解它们的优缺点和适用场景。 一、Python Pyt…

微服务实战系列之API加密

前言 随着一阵阵凛冽寒风的呼啸,新的年轮不知不觉滚滚而来。故事随着2023的远去,尘封于案底;希望迎着新年,绽放于枝头。在2024新岁启航,扬帆破浪之时,让烦恼抛洒于九霄,让生机蓬勃于朝朝暮暮。 …

Java 将Excel转换为TXT文本格式

TXT文件是一种非常简单、通用且易于处理的文本格式。在处理大规模数据时,将Excel转为TXT纯文本文件可以提高处理效率。此外,许多编程语言和数据处理工具都有内置的函数和库来读取和处理TXT文件,因此将Excel文件转换为TXT还可以简化数据导入过…

继续理解Nacos的CP和AP架构模型!

本篇文章延续文章“如何理解Nacos册CP和AP架构模型”,大家可以配套一起学习。 Nacos注册中心处理HTTP注册请求 在文章“如何理解Nacos册CP和AP架构模型”中已经提到过,Nacos注册中心用Restful API InstanceController的方法register()处理HTTP类型的注…

瑞数4——MmEwMD逆向分析

瑞数4——MmEwMD逆向分析 提示简介定位入口MmEwMD生成所需参数分析MmEwMD生成的大致流程第一部分生成(所需三个参数)第一部分生成的值赋值给另一个变量第二部分生成并与第一部分拼接最终的结果与MmEwMD拼接 第一部分生成的逆向分析(所需参数:数组a、数字…

Linux第17步_安装SSH服务

secure shell protocol简称SSH。 目的:在进行数据传输之前,SSH先对联级数据包通过加密技术进行加密处理,然后再进行数据传输,确保数据传输安全。 1、在安装前,要检查虚拟机可以上网,否则可能会导致安装失…

C++内容补充--面向对象篇

类和对象 类中静态成员不占用类的大小 也就不占用类的对象的大小 只有一个类壳子的时候 类和对象的大小都是1 当类中只有一个int数据的时候 类和对象的大小都是4 当类中有int数据以及一个静态变量的时候 类和对象的大小还是4 变量存储类以及对象的存储类 所有的局部变量默认…

Linux上传、下载、rz、sz命令

一、上传下载 我们可以通过finalshell工具方便地和虚拟机进行数据交换 在finalshell软件的下方窗体中,提供了Linux的文件系统视图 点击下载就可以下载了 如果想通过root权限,那么需要在编辑器中更换用户名: 上传:直接把windows…

C#,入门教程(08)——基本数据类型及使用的基础知识

上一篇: C#,入门教程(07)——软件项目的源文件与目录结构https://blog.csdn.net/beijinghorn/article/details/124139947 数据类型用于指定数据体(DataEntity,包括但不限于类或结构体的属性、变量、常量、函数返回值)…

架构的本质是什么?

最近总是有小伙伴问我,如何成长为一名优秀的架构师,我也不知道该如何去回答,但是我想聊一下架构的本质。 架构不是互联网行业独有的 架构及对应的架构师职位并不是互联网行业独有的,只要存在组织的地方就存在架构。 比如一个木…

企业出海数据合规:GDPR中的个人数据与非个人数据之区分

GDPR仅适用于个人数据,这意味着非个人数据不在其适用范围内。因此,个人数据的定义是一个至关重要的因素,因为它决定了处理数据的实体是否要遵守该法规对数据控制者规定的各种义务。尽管如此,什么是个人数据仍然是当前数据保护制度…

用通俗易懂的方式讲解:LSTM原理及生成藏头诗(Python)

一、基础介绍 1.1 神经网络模型 常见的神经网络模型结构有前馈神经网络(DNN)、RNN(常用于文本 / 时间系列任务)、CNN(常用于图像任务)等等。 前馈神经网络是神经网络模型中最为常见的,信息从输入层开始输入&#xf…

SpringBoot 调用mybatis报错:Invalid bound statement (not found):

启动SpringBoot报错:Invalid bound statement (not found): 参考此文排查 命中了第6条 记录一手坑爹的Invalid bound statement (not found)(六个方面) mapper文件路径配置错误 订正以后 问题解决

项目从npm迁移到pnpm

场景如下:在安装Vue3时默认为使用Npm安装,如图所示: 安装完后项目就包含了基于NPM的node_modules、package.json,以及package-lock.json 如果想使用pnpm去安装依赖项的话,可以通过如下几个步骤实现: ①删…

基于R语言(SEM)结构方程模型教程

详情点击链接:基于R语言(SEM)结构方程模型教程 01、R/Rstudio (2)R语言基本操作,包括向量、矩阵、数据框及数据列表等生成和数据提取等 (3)R语言数据文件读取、整理(清洗)、结果存储等(含tidve…

JAVA中小型医院信息管理系统源码 医院系统源码

开发框架:SpringBootJpathymeleaf 搭建环境:jdk1.8idea/eclipsemaven3mysql5.6 基于SpringBoot的中小型医院信息管理系统,做的比较粗糙,但也实现了部分核心功能。 就诊卡提供了手动和读卡两种方式录入,其中IC读卡器使用…

跟随chatgpt从零开始安装git(Windows系统)

为什么我们要安装Git?Git有什么用? 1. 版本控制:Git 可以追踪代码的所有变化,记录每个提交的差异,使您能够轻松地回溯到任何历史版本或比较不同版本之间的差异。 2. 分支管理:通过 Git 的分支功能&#xff…