Pandas时序数据分析实践—基础(1)

news2025/1/21 12:03:12

目录

  • 1. Pandas基本结构
  • 2. Pandas数据类型
    • 2.1. 类型概述
      • 2.1.1. 整数类型(int):
      • 2.1.2. 浮点数类型(float):
      • 2.1.3. 布尔类型(bool):
      • 2.1.4. 字符串类型(object):
      • 2.1.5. 时间类型:
      • 2.1.6. 分类类型:
    • 2.2. 类型内存
    • 2.3. Pandas数据类型与python、numpy对比
    • 2.3. 类型转换
  • 3. 常用函数
    • 3.1. 基本函数
    • 3.2. 窗口函数
    • 3.3. 基本统计

1. Pandas基本结构

Pandas是一个基于Numpy的数据结构,它提供了两种主要的数据结构:Series和DataFrame。Series是一种一维的数组型对象,它包含了一个值序列。DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共同用一个索引) 。

  • Series是一种一维的带标签数组对象,Series中的元素可以是任何类型的数据;
  • DataFrame,二维数据表,是Series容器,而DataFrame中的元素必须是同一种类型的数据 。

其中,最常用的是DataFrame,做为数据分析数据载体——二维数据表,基于此有大量的统计分析函数。DataFrame结构如下图所示。

在这里插入图片描述
DataFrame是由多种类型的列构成的二维标签数据结构,类似于Excel、SQL表,或Series对象构成的字典。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共同用一个索引) 。

DataFrame的数据由三个部分组成:行索引、列索引和数据。每个元素都有一个行索引和一个列索引,它们都是唯一的。行索引和列索引都可以是任何类型的对象,例如整数、字符串、日期等。

2. Pandas数据类型

2.1. 类型概述

使用pandas进行数据分析时,最常用到的几种类型是:字符串类型、数值类型(整数和浮点数)、日期类型、category 类型。

import pandas as pd
import numpy as np

# 创建一个包含各种类型的DataFrame
data = {
    'Integer': pd.Series([1, 2, 3], dtype='int32'),
    'Float': pd.Series([21.1, 25.2, 30.3], dtype='float64'),
    'Boolean': pd.Series([True, False, True], dtype='bool'),
    'String': pd.Series(['植物园', '湘江公园', '太阳岛'], dtype='object'),
    'Datetime': pd.to_datetime(['2022-01-01', '2022-02-01', '2022-03-01']),
}

df = pd.DataFrame(data)

# 添加一个分类类型的列
df['Category'] = pd.Series(['dog', 'cat', 'dog'], dtype='category')

print("包含各种类型的DataFrame:\n", df)

2.1.1. 整数类型(int):

概述: Pandas 提供不同精度的整数类型,如int8、int16、int32、int64,用于存储整数数据。
应用场景: 选择合适的整数类型有助于减小数据集的内存占用。

2.1.2. 浮点数类型(float):

概述: Pandas 支持不同精度的浮点数类型,如float16、float32、float64,用于存储带小数的数值。
注意事项: 选择适当的浮点数类型有助于平衡精度和内存占用。

2.1.3. 布尔类型(bool):

概述: 布尔类型用于存储逻辑值,通常在数据筛选中使用。
应用场景: 用于筛选数据集中的特定条件。

2.1.4. 字符串类型(object):

概述: Pandas 的字符串类型,通常使用 object 表示,适用于包含文本数据的列。
字符串操作: Pandas 提供了丰富的字符串操作,如字符串拼接、切片、替换等。

2.1.5. 时间类型:

概述: Pandas 提供 datetime 类型用于处理日期和时间数据。
日期操作: 支持日期的解析、格式化、加减等操作。
时间序列: 时间类型在 Pandas 中常用于创建时间序列索引。

2.1.6. 分类类型:

概述: Pandas 提供 category 类型用于处理有限个数的离散值,提高性能和内存效率。
应用场景: 适用于重复值较多的列,如性别、地区等。

2.2. 类型内存

通过观察内存使用情况,你可以更好地了解哪些列占用了大量内存,从而决定是否需要调整它们的数据类型。memory_usage 方法是一个非常有用的工具,可以用于查看 DataFrame 中各列的内存使用情况。合理选择数据类型是优化内存使用的重要步骤之一,特别是当处理大型数据集时。

# 接续上面的代码。
df.memory_usage(deep=True)
	Index       128
	Integer      12
	Float        24
	Boolean       3
	String      266
	Datetime     24
	Category    400
	dtype: int64

在这个例子中,memory_usage(deep=True) 会返回一个 Series,其中包含每列的内存使用情况。deep=True 会深入到对象中,对于字符串类型的列,会计算字符串的实际内存使用情况。

2.3. Pandas数据类型与python、numpy对比

Pandas dtypePython类型Numpy类型说明
objectstrstring_,unicode_用于文本
int64intint_,int8_,int16,int32,int64,uint8,uint16,uint32,uint64用于整数
float64floatfloat_,float16,float32,float64用于浮点数
boolboolbool_用于布尔值
datetime64NANA用于日期时间
timedelta[ns]NANA用于时间差
categoryNANA用于有限长度的文本值列表

2.3. 类型转换

import pandas as pd

# 创建一个包含不同类型数据的DataFrame
data = {
    'Float': [1.1, 2.2, 3.3],
    'Integer': [1, 2, 3],
    'Timestamp': pd.to_datetime(['2022-01-01', '2022-02-01', '2022-03-01']),
    'TimestampString': ['2022-01-01', '2022-02-01', '2022-03-01']
}

df = pd.DataFrame(data)

# 转换 'Float' 列为字符串
df['Float'] = df['Float'].astype(str)

# 转换 'TimestampString' 列为 datetime64 类型
df['TimestampString'] = pd.to_datetime(df['TimestampString'])

# 查看转换后的数据类型
print("\n转换类型后的数据类型:\n", df.dtypes)

# 转换 'Float' 列为字符串
df['Float'] = df['Float'].astype('float32')

df['TimestampString'] = df['TimestampString'].dt.strftime('%Y-%m-%d %H:%M')
# 查看再转换后的数据类型
print("\n再转换类型后的数据类型:\n", df.dtypes)
df

在这里插入图片描述

当数据类型转换处理 Pandas DataFrame 时,dtypes 和 astype 的使用是非常重要的。

  • dtypes:
    dtypes 是 DataFrame 对象的一个属性,用于查看每一列的数据类型。它返回一个 Series,其中包含 DataFrame 的每一列及其相应的数据类型。这对于了解数据的初始类型非常有用。

  • astype:
    astype 是 Pandas 中的一个方法,用于将一列的数据类型转换为指定的类型。这对于数据清洗和预处理非常有用。它返回一个新的 Series 或 DataFrame,而不会改变原始对象。

3. 常用函数

3.1. 基本函数

  • head() 和 tail(): 展示数据的前几行和后几行。
  • info(): 提供有关 DataFrame 的详细信息,包括数据类型、非空值数等。
  • describe(): 统计描述性统计信息,如平均值、标准差、最小值、最大值等。
  • shape: 显示 DataFrame 的形状,即行数和列数。

以2.1章节的代码为例,继续代码,使用函数:
在这里插入图片描述

df.head(2)

在这里插入图片描述

df.tail(2)

在这里插入图片描述

df.info()

在这里插入图片描述

df.describe()

在这里插入图片描述

df.shape
	(3, 6)

3.2. 窗口函数

  • rolling(): 介绍窗口函数,用于执行滚动计算,如滚动平均值。

一般在使用了移动窗口函数rolling之后,我们需要配合使用相关的统计函数,比如sum、mean、max等。使用最多的是mean函数,生成移动平均值。

df.rolling(2).mean()

在这里插入图片描述

  • expanding(): 展示扩展窗口,用于计算扩展窗口内的累积统计。

扩展窗口函数,扩展是指由序列的第一个元素开始,逐个向后计算元素的聚合值。expanding()函数,类似cumsum()函数的累计求和,其优势在于还可以进行更多的聚类计算。

df.expanding().sum()

在这里插入图片描述

3.3. 基本统计

首先,我们以sum()、mean()、median()常用统计函数的介绍,说明如何计算总和、均值、中位数等。

import pandas as pd
import numpy as np

# 创建一个包含各种类型的DataFrame
data = {
    'Integer': pd.Series([1, 2, 3, 5, 3, 7, 6], dtype='int32'),
    'Float': pd.Series([21.1, 25.2, 30.3, 22.1, 10.1, 30.2, 32.3], dtype='float64'),
    'Boolean': pd.Series([True, False, True, True, False, True , False], dtype='bool'),
    'String': pd.Series(['植物园', '湘江公园', '太阳岛','植物园', '湘江公园', '太阳岛','八区体育场'], dtype='object'),
    'Datetime': pd.to_datetime(['2022-01-01', '2022-02-01', '2022-03-01', '2022-03-11', '2022-05-01', '2022-05-02','2022-06-01']),
}

df = pd.DataFrame(data)

# 添加一个分类类型的列
df['Category'] = pd.Series(['节奏跑', '间隙跑', '慢跑','节奏跑', '间隙跑', '慢跑', '慢跑'], dtype='category')

print("包含各种类型的DataFrame:\n", df)

print("包含合计sum::\n",df[['Integer','Float']].sum())
print("包含均值mean::\n",df[['Integer','Float']].mean())
print("包含中位数median::\n",df[['Integer','Float']].median())

序号函数含义
1min()计算最小值
2max()计算最大值
3sum()求和
4mean()计算平均值
5count()计数(统计非缺失元素的个数)
6size()计数(统计所有元素的个数)
7median()计算中位数
8var()计算方差
9std()
10quantile()计算任意分位数
11cov()计算协方差
12corr()计算相关系数
13skew()计算偏度
14kurt()计算峰度
15mode()计算众数
16describe()描述性统计(一次性返回多个统计结果)
17groupby()分组
18aggregate()聚合运算(可以自定义统计函数)
19argmin()寻找最小值所在位置
20argmax()寻找最大值所在位置
21any()等价于逻辑“或”
22all()等价于逻辑“与”
23value_counts()频次统计
24cumsum()运算累计和
25cumprod()运算累计积
26pct­­_change()运算比率(后一个元素与前一个元素的比率)

例如:

df[['Integer','Float']].pct_change()

在这里插入图片描述
统计函数是数据分析的核心内容之一,将 在后续内容中展开。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1279986.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java中异常处理顺序和全局异常处理器

异常处理顺序 我们直接通过代码看下Java中异常的处理顺序。 数组越界异常属于运行时异常,被捕捉后就停止了,打印结果为数组越界了。 Test public void test2(){int[] arr new int[4];try{System.out.println(arr[5]);}catch (ArrayIndexOutOfBoundsE…

uniapp 使用安卓模拟器运行

uniapp 启动方式有很多种,这里介绍使用模拟器启动uniapp 要使用模拟器启动uniapp肯定少不了安装模拟器(废话) 这里选着浏览器推荐的第一个模拟器mumu模拟器 下载好了mumu安装包后就是安装了,这个过于小白,就不介绍了 2. 查看模拟器的adb端口号, mumu的adb查看端口号与众不同…

C++-内联函数

目录 一.什么是内联函数 1.内联函数的概念 2.内联函数的定义 二.C中引入内联函数的原因 三.什么样的函数适合被声明为内联呢? 四.面试题 一.什么是内联函数 1.内联函数的概念 以inline修饰的函数叫做内联函数,编译时C编译器会在调用内联函数的地方展开…

Python如何优雅地使用重试:tenacity

1 缘起 项目中使用了第三方服务,和上一篇文章一样:SpringBoot中如何优雅地使用重试https://blog.csdn.net/Xin_101/article/details/134617868 在调用第三方服务时,出现第三方服务连接不到的情况,为了保证服务的相对稳定&#xf…

糟了,数据库崩了,又好像没崩

前言 2023 年某一天周末,新手程序员小明因为领导安排的一个活来到公司加班,小明三下五除二,按照领导要求写了一个跑批的数据落库任务在测试环境执行 ,突然间公司停电了,小明大惊,“糟了,MySQL …

每天一点python——day84

#每天一点Python——84 #异常处理机制try—except—else #异常处理机制try—except—else如果try块中没有抛出异常,则执行else块,如果try中抛出异常,则执行except块#示例: try:a int(input(请输入第一个整数:))b in…

【JavaEE】多线程(3) -- 线程等待 wait 和 notify

目录 1. wait()⽅法 2. notify()⽅法 3. notifyAll()⽅法 4. wait 和 sleep 的对⽐(⾯试题) 由于线程之间是抢占式执⾏的, 因此线程之间执⾏的先后顺序难以预知. 但是实际开发中有时候我们希望合理的协调多个线程之间的执⾏先后顺序. 完成这个协调⼯…

【ArcGIS Pro微课1000例】0044:深度学习--面部模糊(马赛克)

本文讲解ArcGIS Pro中通过深度学习工具实现人脸面部模糊,起到马赛克的作用。 文章目录 一、效果对比二、工具介绍三、案例实现一、效果对比 原始图片: 深度学习后的模糊照片: 二、工具介绍 本工具为ArcGIS Pro工具箱中的深度学习工具中的:使用深度学习分类像素,如下所示…

ChatGPT 的 18 种玩法,你还不会用吗?

你确定,你会使用 ChatGPT 了吗? 今天给大家整理了 18 种 ChatGPT 的用法,看看有哪些方法是你能得上的。 用之前我们可以打开R5Ai平台,可以免费使用目前所有的大模型 地址:R5Ai.com 语法更正 用途:文章…

ER图是什么,怎么画?

ER图(Entity-Relationship Diagram)是一种用于描述实体间关系的图形化表示方法。它主要用于数据库设计,可以清晰地展示实体、属性和实体间的联系。常用的ER图类型包括: 实体-关系模型(Entity-Relationship Model&…

Shutdown Signal: channel error; protocol method: #method<channel.close>

完整异常信息&#xff1a; Shutdown Signal: channel error; protocol method: #method<channel.close>(reply-code404, reply-textNOT_FOUND - no exchange fanoutExchange in vhost /, class-id60, method-id40) 意思是找不到名字是 fanoutExchange 的虚拟机 就是虚拟机…

基于SSH三大框架的员工管理系统

基于SSH三大框架的员工管理系统 摘要 本系统为本人学习SSH三大框架时所做的整合实例&#xff0c;系统角色包括普通用户和管理员两种&#xff0c;首页有管理员登录入口链接。系统功能主要包括管理员对用户的基本增、删、改、查和分页显示用户信息等。 系统环境 本系统使用ec…

Gossip 协议

Gossip 协议 背景 在分布式系统中&#xff0c;不同的节点进行数据/信息共享是一个基本的需求。 一种比较简单粗暴的方法就是 集中式发散消息&#xff0c;简单来说就是一个主节点同时共享最新信息给其他所有节点&#xff0c;比较适合中心化系统。这种方法的缺陷也很明显&…

App测试之App日志收集及adb常用命令

文章目录 前言一、adb是什么1.APP测试收集手机日志常用的工具2.adb下载与安装3.ADT/SDK/ADB是什么4.adb连接真机 二、adb常用命令三、android系统日志文件1.logcat日志文件2.logcat日志文件分析 四、分析crash & ANR 日志1.发生crash如何分析2.发生ANR如何分析 总结扩展&am…

队列顺序存储(详解)

队列是一种常见的数据结构&#xff0c;它是一种先进先出&#xff08;First-In-First-Out, FIFO&#xff09;的线性表。在队列中&#xff0c;数据元素按照插入的顺序排列&#xff0c;最先插入的元素在队列的前面&#xff0c;最后插入的元素在队列的后面。类比生活中排队购物的情…

登录界面(flex布局练习)

练习&#xff1a;登录界面在我们网页制作的过程中经常遇见&#xff0c;所以请你编写一个界面联系一下&#xff0c;这个可以增加一些动画或者是其他的效果&#xff0c;当然越帅越好。请使用flex或者其他布局练习 例如&#xff1a; 代码 <!DOCTYPE html> <html lang…

如何做好小红书?9条小红书运营起号心得(必读)

关于小红书运营细节和方法&#xff0c;总结了以下9条起号心得&#xff0c;希望给近期新手们一些经验借鉴。 一、出现一条爆文后的策略当账号新发的一篇笔记流量起飞了&#xff0c;不要急于发布新内容。先让爆文的流量消耗殆尽&#xff0c;等流量开始减少时再发布新笔记。同时&…

2022CVPR(PoseC3D):Revisiting Skeleton-based Action Recognition

Revisiting Skeleton-based Action Recognition 摘要1、引言2、相关工作3、框架3.1. 姿势提取的良好实践3.2.从2D姿势到3D热图体积3.3.基于骨架的动作识别的3D-CNN 4、实验4.2.姿势提取4.3. 3D热图体积的预处理4.4.与GCN的比较4.5. RGBPose-SlowFast4.6.与最先进的比较 5、结论…

C语言-联合和枚举

------------------------------------ --------------- ------ 最慢的步伐不是跬步&#xff0c;而是徘徊&#xff1b; 最快的脚步不是冲刺&#xff0c;而是坚持。 今天来到我们的联合和枚举类型的讲解&#xff1a; 目录 联合体类型 联合体类型的声明 联合体类型的特点 …

Effective Java解读

Effective Java 第一章 引言第二章 创建和销毁对象第1条&#xff1a;用静态工厂方法代替构造器第2条&#xff1a;遇到多个构造器参数时要考虑使用构建器第3条&#xff1a;用私有构造器或者枚举类型强化Singletion属性第4条&#xff1a;通过私有构造器强化不可实例化的能力第5条…