使用pands.rolling方法实现移动窗口的聚合计算

news2024/10/5 18:34:10

一个问题举例

假设有一个5天的收益数据,需要每3天求出一次平均值来达成某个需求:

daterevenue
2023-05-0110
2023-05-0220
2023-05-0330
2023-05-0440
2023-05-0550

1号、2号和3号的数据求一次平均值,2号、3号和4号的数据求一次平均值,3号、4号和5号的数据求一次平均值,这样的需求该如何计算?

pandas的Series有一个rolling方法,用来专门解决这种移动窗口聚合运算问题,举个简单的使用例子:

import pandas as pd


series = pd.Series([10, 20, 30, 40, 50])

amount = series.rolling(3).mean()

print(amount)

输出如下

0     NaN
1     NaN
2    20.0
3    30.0
4    40.0
dtype: float64

pd.rolling简单示例
可以看到需求确实如我们所需要的,但是你可能又会说,前两个均值不应该是NaN,少于1天的时候求均值就使用已有天数的数据来计算,别担心,此时只需要指定rolling的参数min_period为1即可:

import pandas as pd


series = pd.Series([10, 20, 30, 40, 50])


amount = series.rolling(3, min_periods=1).mean()	# min_period可以指定窗口计算所需要最少的元素,这个值必须小于等于第一个参数窗口的大小3

print(amount)
0    10.0
1    15.0
2    20.0
3    30.0
4    40.0
dtype: float64

结果完美满足需求

然后欠缺考虑周全的产品可能又会跟你说,这里除了求均值,还想给它求个总和,既然都支持求均值了,当然聚合计算都得带上,
rolling方法后面还可以跟上使用求和、最大最小值、均值、方差等常用的聚合方法,除此之外,甚至可以使用agg自定义聚合函数,只要agg返回的值是一个数值:

import pandas as pd


series = pd.Series([10, 20, 30, 40, 50])
amount = series.rolling(3, min_periods=1).agg(lambda x: x.loc[x > 20].sum())    # x就是一个Series,x.loc[x > 20]表示取这个series中大于20的数求和

print(amount)
0      0.0
1      0.0
2     30.0
3     70.0
4    120.0
dtype: float64

rolling方法的进一步介绍

rolling中还有一个center参数,可以指定移动窗口的中心位置作为基准对数据执行计算,center默认为False表示当前数据作为窗口的最后一个数作为基准选取计算的区域,为True的时候将以当前数据作为窗口的中心位置作为基准选取数据执行计算:
在这里插入图片描述
窗口大小是奇数时,如上图一样上下各平分一般窗口计算区域,如果窗口大小是偶数,上半窗口会多多一个数,比如窗口是4,那么上半区域是2个数,下半区域是1个数,加上自身一共4个数

rolling还可以支持对时间段窗口区域进行分析,这十分契合具体的使用场景,例如需求是统计一个在发生某初始化事件(initial)当天往后1天内发生消费(paid)数额超过30的数据:

import numpy as np
import pandas as pd

df = pd.DataFrame(
    np.array([
        ["a", "a", "b", "c", "d", "d"],
        [np.nan, 10, 20, 30, np.nan, 50],
    ]).T,
    index=pd.Index(pd.to_datetime(["2023-04-30", "2023-05-01", "2023-05-02", "2023-05-03", "2023-05-04", "2023-05-05"]), name="date"),
    columns=["uid", "paid"]
)

print(df)

#            uid  paid
# date
# 2023-04-30   a   NaN
# 2023-05-01   a  10.0
# 2023-05-02   b  30.0
# 2023-05-03   c  60.0
# 2023-05-04   d  50.0
# 2023-05-05   d  80.0


df["paid"] = df["paid"].rolling(
    "3D"
).sum()
print(df)

#            uid  paid
# date
# 2023-04-30   a   NaN
# 2023-05-01   a  10.0
# 2023-05-02   b  30.0
# 2023-05-03   c  60.0
# 2023-05-04   d  50.0
# 2023-05-05   d  80.0

df = df.where(lambda x: x["paid"] > 30).dropna().reset_index()
print(df)

#         date uid  paid
# 0 2023-05-03   c  60.0
# 1 2023-05-04   d  50.0
# 2 2023-05-05   d  80.0

支持指定时间窗口的条件:
index必须是python的时间类型
有关第一个参数的时间字符串表示,可以参考官方的这个链接:https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases

如果想让当前的数据作为窗口的开头怎么使用?

from pandas.api.indexers import FixedForwardWindowIndexer

使用FixedForwardWindowIndexer方法,指定window_size即可,具体使用方法及更多相关的窗口函数方法,可以参考官网给的说明:https://docs.scipy.org/doc/scipy/reference/signal.windows.html#module-scipy.signal.windows

实践中可能会遇到问题

计算的数值中有nan,而且需要把这些nan放到窗口计算中?
很简单,只需要把series中的nan替换成0即可:

import numpy as np
import pandas as pd

series = pd.Series([10, 20, 30, np.nan, 50])

series.replace(np.nan, 0, inplace=True)

amount = series.rolling(3, min_periods=1).mean()

print(amount)
# 输出
# 0    10.000000
# 1    15.000000
# 2    20.000000
# 3    16.666667
# 4    26.666667
# dtype: float64

那如果有一部分的无效数值需要保留,有一部分不需要,该如何处理?
比如,需求是2023-05-01之前的值不能参与计算,且你在一次处理中不能或不方便直接删除掉2023-05-01之前的数据:

import numpy as np
import pandas as pd

series = pd.Series([np.nan, 10, 20, 30, np.nan, 50]).replace(np.nan, 0)


series.index = pd.to_datetime(["2023-04-30", "2023-05-01", "2023-05-02", "2023-05-03", "2023-05-04", "2023-05-05"])
print(series)

# 2023-04-30     0.0
# 2023-05-01    10.0
# 2023-05-02    20.0
# 2023-05-03    30.0
# 2023-05-04     0.0
# 2023-05-05    50.0
# dtype: float64


# 对于不能把2023-05-01之前的数据计算时直接删除时,可以先替换成特殊值
series = series.where(
    lambda col:
    col.index >= pd.to_datetime("2023-05-01"), "invalid"
)       # where第一个参数是给定符合的条件,这一部分数据不会变化,第二个参数是不符合第一个条件的数据会被替换成的值

print(series.loc[series != "invalid"])

# 2023-05-01    10.0
# 2023-05-02    20.0
# 2023-05-03    30.0
# 2023-05-04     0.0
# 2023-05-05    50.0
# dtype: object


# 然后计算时只排除特殊值
amount = series.loc[series != "invalid"].rolling(3, min_periods=1).mean()	  # rolling的mean方法计算时会尝试把数据转成数值来执行计算

print(amount)

# 2023-05-01    10.000000
# 2023-05-02    15.000000
# 2023-05-03    20.000000
# 2023-05-04    16.666667
# 2023-05-05    26.666667
# dtype: float64

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/479715.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ucore lab4

实验目的 了解内核线程创建/执行的管理过程了解内核线程的切换和基本调度过程 实验内容 练习一:分配并初始化一个进程控制块 1.内核线程及管理 内核线程是一种特殊的进程,内核线程与用户进程的区别有两个:内核线程只运行在内核态&#x…

内网渗透(六十一)之Kerberosating攻击

Kerberosating攻击 Kerberosating攻击发生在Kerberos协议的TGS_REP阶段,KDC的TGS服务返回一个由服务Hash 加密的ST给客户端。由于该ST是用服务Hash进行加密的,因此客户端在拿到该ST后可以用于本地离线爆破。如果攻击者的密码字典足够强大,则很有可能爆破出SPN链接用户的明文…

JAVA入坑之GUI编程

一、相关概述 GUI编程是指通过图形化的方式来实现计算机程序的编写,它可以让用户通过鼠标、键盘等设备来操作计算机,而不是通过命令行来输入指令。在Java中,GUI编程主要使用的是Swing和AWT两种技术 二、AWT 2.1介绍 AWT是Java提供的用来建立…

【构造】CF851div2 C. Matching Numbers

Problem - C - Codeforces 题意: 有1~2*n的一个排列,进行数与数之间两两匹配,问如何组合可以使n个 数对 aibi排列起来是一个连续序列,如果无解输出No 思路: 构造题,考虑将构造的条件特殊化 手推样例可知…

【数据生成】——Semantic Image Synthesis via Diffusion Models语义分割数据集生成论文浅读

语义分割,数据生成 摘要 Denoising Diffusion Probabilistic Models (DDPMs) 在各种图像生成任务中取得了显著的成功,相比之下,生成对抗网络 (GANs) 的表现不尽如人意。最近的语义图像合成工作主要遵循事实上的基于 GAN 的方法,…

QT QHBoxLayout 水平布局控件

本文详细的介绍了QHBoxLayout控件的各种操作,例如:新建界面、添加控件、布局控件、显示控件、添加空白行、设置间距 、添加间距、设置位置、设置外边距、设置边距、添加固定宽度、方向上、方向下、方向左、方向右等等、 样式表等操作。 实际开发中&#…

无距离障碍:远程桌面Ubuntu实现全球办公【内网穿透】

目录 前言 视频教程 1. ubuntu安装XRDP 2.局域网测试连接 3. Ubuntu安装cpolar内网穿透 4.cpolar公网地址测试访问 5.固定域名公网地址 [TOC] 转载自远程穿透文章:Windows通过RDP异地远程桌面Ubuntu【内网穿透】 前言 XRDP是一种开源工具,它允许…

范数详解-torch.linalg.norm计算实例

文章目录 二范数F范数核范数无穷范数L1范数L2范数 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 范数是一种数学概念,可以将向量或矩阵映射到非负实数上,通常被…

Python使用pytorch深度学习框架构造Transformer神经网络模型预测红酒分类例子

1、红酒数据介绍 经典的红酒分类数据集是指UCI机器学习库中的Wine数据集。该数据集包含178个样本,每个样本有13个特征,可以用于分类任务。 具体每个字段的含义如下: alcohol:酒精含量百分比 malic_acid:苹果酸含量&a…

Python之硬汉巴特勒

一、前言 2023年4月27日,NBA季后赛热火4:1淘汰雄鹿,实现黑八。全NBA联盟最硬气的男人——巴特勒,再次向全世界证明了他是NBA最硬气的男人。上一场刚狂轰56分大比分逆转雄鹿,这一场又是带领球队打出了血性,超高难度绝平…

快速搭建简单图床 - 远程访问本地搭建的EasyImage图床【内网穿透】

文章目录 1.前言2. EasyImage网站搭建2.1. EasyImage下载和安装2.2. EasyImage网页测试2.3.cpolar的安装和注册 3.本地网页发布3.1.Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 1.前言 一个好的图床,是网站或者文章图片能稳定显示的关键,…

驱动管理软件推荐

最近发现电脑右下角的任务栏中有一个叹号图标,如下: 点进去之后发现是Windows自家的安全中心的内核隔离出现了点问题,内核隔离功能打不开 点击“查看不兼容的驱动程序”,发现是一些驱动作祟 我的电脑中显示了好多不兼容的驱动程序…

跟着我学习 AI丨语音识别:将语音转为数字信号

语音识别是一种人工智能技术,其主要目的是将人类说话转化为计算机可以理解的信息。语音识别技术的应用非常广泛,包括智能家居、汽车导航、语音搜索、人机交互、语音翻译等。 语音识别的技术原理 语音识别的技术原理是将人类的语音信号转化为数字信号。这…

『python爬虫』06. 数据解析之re正则解析(保姆级图文)

目录 1. 什么是re解析2. 正则规则元字符量词匹配模式测试 3. 正则案例4. re模块的使用4.1 findall: 匹配字符串中所有的符合正则的内容4.2 finditer: 匹配字符串中所有的内容[返回的是迭代器]4.3 search, 找到一个结果就返回, 返回的结果是match对象4.4 match 从头开始匹配&…

Windows forfiles命令详解,Windows按时间搜索特定类型的文件。

「作者简介」:CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」:对网络安全感兴趣的小伙伴可以关注专栏《网络安全入门到精通》 forfiles 一、结果输出格式二、按时间搜索三、搜索指定类型文件四、批量删除文件 forfile…

Ubuntu远程SSH连接与远程桌面连接

目录 一、远程桌面连接 二、远程SSH连接 1、安装客户端 2、安装服务端 3、SSH客户端和服务端的区别 一、远程桌面连接 首先需要在Ubuntu里进行些设置,点击界面右上角的控制区,选择设置选项; 弹出界面进入网络中,点击设置图…

【致敬未来的攻城狮计划】— 连续打卡第十八天:FSP固件库开发GPT — PWM输出波形 — LED呼吸灯

系列文章目录 1.连续打卡第一天:提前对CPK_RA2E1是瑞萨RA系列开发板的初体验,了解一下 2.开发环境的选择和调试(从零开始,加油) 3.欲速则不达,今天是对RA2E1 基础知识的补充学习。 4.e2 studio 使用教程 5.…

Rust开发环境搭建到运行第一个程序HelloRust

一、Rust语言 1.1 Rust语言介绍 Rust 语言是一种高效、可靠的通用高级语言。其高效不仅限于开发效率,它的执行效率也是令人称赞的,是一种少有的兼顾开发效率和执行效率的语言。 Rust 语言由 Mozilla 开发,最早发布于2014年 9月。Rust 的编…

《ADC和DAC的基本架构》----学习记录(二)

2 模数转换器 2.1 ADC架构I:Flash转换器 2.1.1 比较器:1位ADC 转换开关是 1 位 DAC,而比较器是 1 位 ADC,如图所示。如果输入超过阈值,输出即会具有一个逻辑值,而输入低于阈值时输出又会有另一个值。此外…

寻找2020+跳蚱蜢(蓝桥杯JAVA解法)

目录 寻找2020:用户登录 题目描述 运行限制 跳蚱蜢:用户登录 题目描述 运行限制 寻找2020:用户登录 题目描述 本题为填空题,只需要算出结果后,在代码中使用输出语句将所填结果输出即可。 小蓝有一个数字矩阵&a…