在Pandas中通过时间频率来汇总数据的三种常用方法

news2024/10/7 16:27:41

当我们的数据涉及日期和时间时,分析随时间变化变得非常重要。Pandas提供了一种方便的方法,可以按不同的基于时间的间隔(如分钟、小时、天、周、月、季度或年)对时间序列数据进行分组。

在Pandas中,有几种基于日期对数据进行分组的方法。我们将使用这些虚拟数据进行演示:

 importpandasaspd
 importnumpyasnp
 # generating data consisting of weekly sales for the timeperiod Jan,2022 to Jan,2023
 dates=  pd.date_range('2022-01-01', '2023-01-05', freq='1 W')
 sales_val=np.linspace(1000, 2000,len(dates) )
 data= {'date':dates,
         'sales': sales_val} 
 # Load the data 
 df=pd.DataFrame(data) 
 # Convert the 'date' column to a datetime type 
 df['date'] =pd.to_datetime(df['date']) 
 df.sample(5)

一些最常用的时间序列数据分组方法是:

1、resample

pandas中的resample 方法用于对时间序列数据进行重采样,可以将数据的频率更改为不同的间隔。例如将每日数据重新采样为每月数据。Pandas中的resample方法可用于基于时间间隔对数据进行分组。它接收frequency参数并返回一个Resampler对象,该对象可用于应用各种聚合函数,如mean、sum或count。resample()只在DataFrame的索引为日期或时间类型时才对数据进行重新采样。

 importmatplotlib.pyplotasplt
 importseabornassns
 # Set the 'date' column as the index,
 # and Group the data by month using resample 
 grouped=df.set_index('date').resample('M').mean() 
 print("Grouping is done on monthly basis using resample method:\n", grouped)
 # plot the average of monthly sales
 sns.lineplot(grouped.index, grouped['sales'])
 plt.xlabel("Date")
 plt.ylabel("Average Monthly Sales")
 plt.grid(True)
 plt.title("Average Monthly sales with respect to  month")

在本例中,我们首先将’ date '列转换为日期类型,然后将其设置为DataFrame的索引。然后使用重采样方法按月分组数据,并计算每个月的“sales”列的平均值。结果是一个新的DF,每个月有一行,还包含该月“sales”列的平均值。

2、使用Grouper

pandas的Grouper 函数可以与 groupby 方法一起使用,以根据不同的时间间隔(例如分钟、小时、天、周、月、季度或年)对数据进行分组。Grouper 包含了key (包含日期的列)、frequency (分组依据的间隔)、closed (关闭间隔的一侧)和label (标记间隔)等参数。Pandas 中的 Grouper 函数提供了一种按不同时间间隔(例如分钟、小时、天、周、月、季度或年)对时间序列数据进行分组的便捷方法。通过与Pandas 中的 groupby 方法 一起使用,可以根据不同的时间间隔对时间序列数据进行分组和汇总。

Grouper函数接受以下参数:

key:时间序列数据的列名。

freq:时间间隔的频率,如“D”表示日,“W”表示周,“M”表示月,等等。

closed:间隔是否应该在右侧(右)、左侧(左)或两侧(两个)闭合。

label :用它的结束(右)或开始(左)日期标记间隔。

Grouper函数和groupby一起按月间隔对数据进行分组:

 importmatplotlib.pyplotasplt
 importseabornassns
 # Group the data by month using pd.Grouper and calculate monthly average
 grouped=df.groupby(pd.Grouper(key='date', freq='M')).mean()
 print("Grouping is done on monthly basis using pandas.Grouper and groupby method:\n", grouped)
 # plot the average of monthly sales
 sns.lineplot(grouped.index, grouped['sales'])
 plt.xlabel("Date")
 plt.ylabel("Average Monthly Sales")
 plt.grid(True)
 plt.title("Average Monthly sales with respect to month using pd.Grouper and groupby ")3.Usingdtaccessorwithgroupby:

3、dt 访问器和 groupby

Pandas中的dt访问器可以从日期和时间类列中提取各种属性,例如年、月、日等。所以我们可以使用提取的属性根据与日期相关的信息对数据进行分组。

在Pandas中,使用dt访问器从DataFrame中的date和time对象中提取属性,然后使用groupby方法将数据分组为间隔。

 importmatplotlib.pyplotasplt
 importseabornassns
 # Group the data by month using dt and calculate monthly average
 grouped=df.groupby(df['date'].dt.to_period("M")).mean()
 print("Grouping is done on monthly basis using dt and groupby method:\n", grouped)

总结

这三种常用的方法可以汇总时间序列数据,所有方法都相对容易使用。在时间复杂度方面,所有方法对于中小型数据集都是有效的。对于较大的数据集,resample的性能更好,因为它针对时间索引进行了优化。而,Grouper和dt提供了更大的灵活性,可以进行更复杂的分组操作。可以根据自己喜欢的语法或者特定的需求选择一种方法使用。

https://avoid.overfit.cn/post/9a7eac8d7fcb40709fae990f933609cf

作者:R. Gupta

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/365881.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

spark08-spark任务启动环境准备

内容来自尚硅谷1.submitApplication当spark执行任务时会启动java虚拟机,启动一个进程,该进程的名称为SparkSubmit,会执行SparkSubmit中的main方法,该方法中调用了super.doSubmit方法。org.apache.spark.deploy.SparkSubmitdoSubmi…

Python abs() 函数

Python abs() 函数Python 数字描述abs() 函数返回数字的绝对值。语法以下是 abs() 方法的语法:abs( x )参数x -- 数值表达式。返回值函数返回x(数字)的绝对值。实例以下展示了使用 abs() 方法的实例:#!/usr/bin/python print "abs(-45) …

百度西交大大数据菁英班目标检测竞赛

来源:投稿 作者:LSC 编辑:学姐 数据介绍 数据集共包括40000张训练图像和1000张测试图像,每张训练图像对应xml标注文件: 共包含3类:0:head, 1:helmet, 2:person。 提交格式要求,提交名为pred_r…

如何为Java文件代码签名及添加时间戳?

Java是一种流行的编程语言,大多数组织都使用它来开发业务应用程序。由于其高使用率,攻击者总是试图找到其中的漏洞并基于它利用软件。为了防止此类攻击, 为 Java 文件(.jar)进行代码签名并添加时间戳,可以防…

Netty网络编程实战:基于Netty的Http服务器开发

Netty网络编程实战:基于Netty的Http服务器开发 文章目录Netty网络编程实战:基于Netty的Http服务器开发介绍功能需求服务端代码实现基于Netty的WebSocket开发网页版聊天室WebSocket简介WebSocket和HTTP的区别基础环境准备服务端开发Netty中粘包和拆包的解…

关于PHP的webshell免杀小结

0X00普通的一句话木马&#xff08;适用于CTF和小站&#xff09; <?php eval($_POST[a]); ?> //函数的相似替换 <?php assert($_POST[a]); ?><?php eval($_POST[110]);?>与第一个一句话木马相比多了一个"“字符&#xff0c;我们发现这个字符的含义…

【科研】测试速通:python不同文件夹下同名图像拼接

论文必备图像拼接笔记 速通结果&#xff1a; 现有&#xff1a;测试样本相同&#xff08;名命相同&#xff09;&#xff0c;测试模型不同&#xff0c;测试结果分别保存至不同文件夹 目标&#xff1a;结果显示在同一张图像上 目录 论文必备图像拼接笔记 1.如果图像格式不一致…

怎么维护Linux VPS 服务器?简单7个步骤

维护VPS的目的是为了确保服务器网络始终畅通无阻。请注意&#xff0c;此列表中的任务并不是服务器维护所需完成的唯一任务。以下是 Linux VPS 服务器所有者可以做些什么来维护他们的服务器。 1.监控磁盘空间 服务器是个人服务器还是具有多个用户帐户的服务器并不重要&#xff0…

精简版SDL落地实践

一、前言一般安全都属于运维部下面&#xff0c;和上家公司的运维总监聊过几次一些日常安全工作能不能融入到DevOps中&#xff0c;没多久因为各种原因离职。18年入职5月一家第三方支付公司&#xff0c;前半年在各种检查中度过&#xff0c;监管形势严峻加上大领导对安全的重视(主…

【数据结构】二叉树(C语言实现)

文章目录一、树的概念及结构1.树的概念2.树的相关概念名词3.树的表示4.树在实际中的运用二、二叉树概念及结构1.二叉树的概念2.特殊的二叉树3.二叉树的性质4.二叉树的存储结构三、二叉树链式结构的实现1.结构的定义2.构建二叉树3.二叉树前序遍历4.二叉树中序遍历5.二叉树后序遍…

QWebEngineView 类 详细使用说明

文章目录 一、前言 二、详述 三、属性 四、公共函数 五、重新实现的公共函数 六、公共槽函数 七、信号 八、保护函数 九、重新实现的受保护函数 10、总结 一、前言 原文链接 QWebEngineView类提供了一个小部件&#xff0c;用于查看和编辑Web文档。 Header: #include < …

【Web安全-MSF记录篇章一】

文章目录前言msfvenom生成远控木马基本系统命令webcam 摄像头命令常用的信息收集脚本注册表设置nc后门开启 rdp&添加用户获取哈希mimikatz抓取密码前言 最近打站&#xff0c;可以感觉到之前的学的渗透知识忘记很多。。。。。多用多看多练&#xff0c;简单回顾一下 msfven…

2023年了,零基础小白转行IT学习Java还有前途吗?

“2023年了&#xff0c;转行IT学习Java是不是已经听过看过很多次了&#xff0c;Java从出现到现在有多少年了呢&#xff1f;掐指一算&#xff0c;Java是1995年由Sun公司推出的一款高级编程语言……距今已有28年了&#xff01; Sun公司都被收购了&#xff0c;莫不是Java也要垮台了…

Android实现Dribbble上动感的Gallery App Icon

先来看看原Dribbble上动感的Gallery App Icon效果图思路拆解一下&#xff0c;还是比较简单&#xff0c;需要绘制的有&#xff1a;圆形背景太阳(圆形)山(三角形)云朵(圆角矩形 三个圆)需要进行的动画&#xff1a;太阳 - 旋转动画山 - 上下平移动画云朵 - 左右平移动画不必绘制圆…

随想录二刷 (双指针法) leetcode 27 26 283 844

双指针法的原理 双指针法相对于暴力解法的优点有以下几点 暴力遍历的时间复杂度会比较高双指针法利用两个指针进行遍历完成双层循环所做的事情 双指针一般有两种方法 同向指针&#xff0c;双向指针 第一题 leetcode 27 移除元素 题目描述 题目分析 采用暴力遍历可以得出结…

vector的基本使用

目录 介绍&#xff1a; vector iterator 的使用 增删查改 增&#xff08;push_back insert&#xff09;&#xff1a; 删(pop_back erase)&#xff1a; swap&#xff1a; vector的容量和扩容&#xff1a; 排序&#xff08;sort&#xff09;&#xff1a; 介绍&#xff…

SpringBoot入门(二)

这里写目录标题一、SpringBoot整合Junit1.1 搭建SpringBoot工程1.2 引入starter-test起步依赖1.3 编写类1.4 测试二、SpringBoot整合mybatis2.1 搭建SpringBoot工程2.2 引入mybatis起步依赖&#xff0c;添加驱动2.3 编写DataSource和MyBatis相关配置2.4 定义表和实体类2.5 编写…

100%BIM学员的疑惑:不会CAD可以学Revit吗?

在新一轮科技创新和产业变革中&#xff0c;信息化与建筑业的融合发展已成为建筑业发展的方向&#xff0c;将对建筑业发展带来战略性和全局性的影响。 建筑业是传统产业&#xff0c;推动建筑业科技创新&#xff0c;加快推进信息化发展&#xff0c;激发创新活力&#xff0c;培育…

apk中代码执行adb指令实现

背景&#xff1a;想要在android apk中直接使用adb指令&#xff0c;从而不需要把手机通过数据线方式连接到电脑&#xff0c;在电脑端执行adb指令。 一、权限相关 想要在apk代码中执行adb命令&#xff0c;涉及到执行权限。 首先手机需要有root权限。其次就算手机已经root了&…

yolov5/6/7系列模型训练日志结果数据对比分析可视化

早在之前使用yolov3和yolov4这类项目的时候可视化分析大都是自己去做的&#xff0c;到了yolov5的时候&#xff0c;变成了一个工具包了&#xff0c;作者全部集成进去了&#xff0c;这里我们以一个具体的结果为例&#xff0c;如下&#xff1a;整个训练过程产生的指标等数据都会自…