(八)Pandas窗口数据与数据读写 学习简要笔记 #Python #CDA学习打卡

news2024/11/24 17:07:32

一. 窗口数据(Window Functions)

Pandas提供了窗口函数(Window Functions)用于在数据上执行滑动窗口操作,可以对数据进行滚动计算、滑动统计等操作。需要注意的是,在使用窗口函数时,需要根据实际需求选择合适的窗口大小和窗口函数,并确保数据的顺序和窗口大小的一致性。本文主要介绍滚动计算函数,以下是一些常用操作和示例代码。

1)滚动计算函数简介

滚动计算(Rolling Calculation)是一种数据处理技术,它在时间序列数据或数据框中执行基于移动窗口的计算。为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口。移动窗口就是窗口向一端滑行,默认是从右往左,每次滑行并不是区间整块的滑行,而是一个单位一个单位的滑行。

滚动统计函数rolling()又叫移动窗口函数,此函数可以应用于一系列数据,指定参数window=n,并在其上调用适合的统计函数。在Pandas中,要使用rolling方法,首先需要创建一个rolling对象。rolling对象可以应用于数据框的列,它表示一个窗口,用于滚动计算。

rolling_obj = df['column_name'].rolling(window=window_size)

其中:

  • df['column_name'] 是数据框列的选择,表示我们要在哪个列上执行滚动计算。
  • window_size 是窗口的大小,用于定义滚动窗口的大小。

滑动统计函数表达方式为:

rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)

其中参数包括:

  • window:可选参数,表示时间窗的大小,注意有两种形式(int或offset)。如果使用int,则数值表示计算统计量的观测值的数量即向前几个数据,如果是offset类型,表示时间窗的大小。
  • min_periods:每个窗口最少包含的观测值数量,小于这个值的窗口结果为NaN,用于处理边界效应。值可以是int,默认None,offset情况下,默认为1。
  • center:把窗口的标签设置为居中。布尔型,默认False,居右
  • win_type:窗口的类型,如矩形窗口或指数加权窗口。截取窗的各种函数,字符串类型,默认为None.
  • on:可选参数,对于dataframe而言,指定要计算滚动窗口的列,值为列名。
  • axis:int、字符串,默认为0,即对列进行计算
  • closed:定义区间的开闭,支持int类型的window。对于offset类型默认是左开右闭,默认为right,可以根据情况指定为left、both等。

2)滚动计算函数常用方法

滚动计算函数常用方法包括:

  • rolling_count():计算各个窗口中非NA观测值的数量
  • rolling_sum():计算各个移动窗口中的元素之和(按列计算)
  • rolling_mean():计算各个移动窗口中元素的均值
  • rolling_median():计算各个移动窗口中元素的中位数
  • rolling_var():计算各个移动窗口中元素的方差
  • rolling_std():计算各个移动窗口中元素的标准差
  • rolling_min():计算各个移动窗口中元素的最小值
  • rolling_max():计算各个移动窗口中元素的最大值
  • rolling_corr():计算各个移动窗口中元素的相关系数
  • rolling_corr_pairwise():计算各个移动窗口中配对数据的相关系数
  • rolling_cov():计算各个移动窗口中元素的的协方差
  • rolling_quantile():计算各个移动窗口中元素的分位数
  • rolling_skew():计算样本值的偏度(三阶矩)
  • rolling_kurt():计算样本值的峰度(四阶矩)

下面只详细介绍六个方法:

(a)移动平均值(Moving Average)

window=3表示窗口大小为3,即计算每3个数据的平均值。

(b)滚动求和(Rolling Sum)

window=5表示窗口大小为5,即计算每5个数据的和。

(c)滚动最大值(Rolling Maximum)

window=7表示窗口大小为7,即计算每7个数据的最大值。

(d)滚动最小值(Rolling Minimum)

window=7表示窗口大小为7,即计算每7个数据的最小值。

(e)滚动标准差(Rolling Standard Deviation)

window=5表示窗口大小为5,即计算每5个数据的标准差。

(f)自定义窗口函数:rolling().apply()方法

custom_function是自定义的窗口函数,data是窗口中的数据,result是窗口函数的计算结果。

二. 数据读写

Pandas提供了多种读取数据的方法,包括读取CSV、Ecel、SQL数据库等。

1)CSV

(a)写出csv文件

(b)读入刚写出的文件

2)EXCEL

(a)写出excel文件

(b)读取excel文件

3)HDF

(a)写出hdf文件

(b)读入刚刚写出的文件

4)SQL

(a)写出到mysql里

(b)读入刚列写出的文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1606468.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

硬件设备杂记——12G SDI及 AES67/EBU

常见的 SDI线缆规格,HD-SDI又被称为1.5G-SDI,具体参数以秋叶原的参数为例 AES67/EBU 目前音频网络标准主要集中在OSI网络体系的第二层和第三层。 第二层音频标准的弊端在于构建音频网络时需要专用的交换机,无法利用现有的以太网络&#xff0c…

布局香港之零售中小企篇 | 传承之味,迈向数字化经营的时代

随着内地与香港两地经贸合作日渐紧密,越来越多内地消费品牌将目光投向香港这片充满机遇的热土,纷纷入驻香港市场。「北店南下」蔚然成风,其中不乏已在内地市场深耕多年的传统老字号。数字化经营时代,老字号焕新刻不容缓&#xff0…

QoS流量整形

流量整形是一种带宽技术形式,它延迟某些类型的网络数据包的流动,以确保更高优先级应用程序的网络性能,它主要涉及调整数据传输速率,以确保网络资源以最佳容量得到利用。流量整形的目的是防止网络拥塞并提高网络的整体性能&#xf…

【Leetcode每日一题】 分治 - 排序数组(难度⭐⭐)(60)

1. 题目解析 题目链接:912. 排序数组 这个问题的理解其实相当简单,只需看一下示例,基本就能明白其含义了。 2.算法原理 算法思路: 快速排序作为一种经典的排序算法,其核心思想在于通过“分而治之”的策略&#xff…

C++:深入理解operator new/operator delete

动态内存管理 1.语法层面1.基本语法注意点 2.new/delete和malloc/free的区别3.operator new和operator delete函数(底层重点)1.operator new/delete原理2.图解1.new/new[]2.delete/delete[] 3.new[n]和delete[] 4.定位new1.定义2.使用格式 1.语法层面 1…

EPSON晶振应用到汽车电子产品上的型号有哪些?

EPSON品牌应用在汽车电子产品上的晶振.,当然也少不了晶振可能最熟悉的就是32.768K系列和26MHZGPS晶振用的多。 在汽车里每一个部件都应有的不一样,甚至多次使用到同一尺寸,不同频率的晶振.爱普生品牌晶振型号就有几百种,很容易混淆,要想记住汽车里所应用到的不是件…

python爬虫(Selenium案列)第二十四

🎈🎈作者主页: 喔的嘛呀🎈🎈 🎈🎈所属专栏:python爬虫学习🎈🎈 ✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天…

windows docker desktop==spark环境搭建

编写文件docker-compose.yml version: 3services:spark-master:image: bde2020/spark-master:3.1.1-hadoop3.2container_name: spark-masterports:- "8080:8080"- "7077:7077"- "2220:22"volumes:- F:\spark-data\m1:/dataenvironment:- INIT_D…

HiveSql中的函数家族(二)

一、窗口函数 1、什么是窗口函数 在 SQL 中,窗口函数(Window Functions)是一种特殊的函数,它允许在查询结果集的特定窗口(通常是一组行)上执行聚合、分析和计算操作,而无需聚合整个结果集。窗口…

Linux 2.进程(守护进程)

守护进程 何谓守护进程常见守护进程进程查看命令pskill命令编写简单守护进程守护进程的父进程 何谓守护进程 daemon,表示守护进程,简称为d(进程名后面带d的基本就是守护进程) 长期运行(一般是开机运行直到关机时关闭&…

Flask项目在Pycharm中设置局域网访问

打开PyCharm导入本应用。点击Run标签中的Edit Configurations 其中Target type选择Script path,Target填入本项目中app.py的路径,Additional optional填入--host0.0.0.0(不要有空格)。 再重新运行项目,会观察到除了原本的http://127.0.0.1:50…

java在线问卷调查系统的设计与实现(springboot+mysql源码+文档)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的在线问卷调查系统。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 基于java的在线问卷调查…

函数 基础知识

本笔记为观看 50 函数-函数的定义_哔哩哔哩_bilibili的学习笔记 1 函数概述 作用:将一段经常使用的代码封装起来,减少重复代码一个较大的程序,一般分为若干个程序块,每个块实现特定的功能。 2 函数的定义 eg: int max(int a,int b); {retu…

社交媒体数据恢复:钉钉

在数字化办公日益普及的今天,钉钉作为一款综合性的企业级通讯工具,已经深入到众多企业和个人的工作与生活中。然而,在日常使用过程中,我们难免会遇到一些意外情况导致数据丢失的问题。本文将针对钉钉数据恢复这一主题,…

windows下python opencv ffmpeg读取摄像头实现rtsp推流 拉流

windows下python opencv ffmpeg读取摄像头实现rtsp推流 拉流 整体流程1.下载所需文件1. 1下载rtsp推流服务器1.2 下载ffmpeg2. 开启RTSP服务器3. opencv 读取摄像头并调用ffmpeg进行推流4. opencv进行拉流整体流程 1.下载所需文件 1. 1下载rtsp推流服务器 下载 RTSP服务器 下…

pyqt+opencv+常用图像算法可视化[资源介绍]

包含的算法: 均值滤波高斯滤波中值滤波Sobel边缘检测Laplacian边缘检测Canny边缘检测膨胀腐蚀灰度化直方图均衡化 包含的功能: 从文件中打开图片返回上一张处理后的图像保存处理后的图像文件退出系统 系统界面: 见我的资源,ht…

大型网站系统架构演化实例_3.使用服务集群改善网站并发处理能力

1.使用服务集群改善网站并发处理能力 使用集群是网站解决高并发、海量数据问题的常用手段。当一台服务器的处理能力、存储空间不足时,不要企图去更换更强大的服务器,对大型网站而言,不管多么强大的服务器,对大型网站而言&…

数字零售力航母-看微软如何重塑媒体

数字零售力航母-看微软如何重塑媒体 - 从2024全美广播协会展会看微软如何整合营销媒体AI技术和AI平台公司 2024年,微软公司联合英伟达总司,赞助全美广播协会展会。本次展会微软通过搭建一个由全面的合作伙伴生态系统支持的可信和安全的平台,…

什么是301重定向,什么时候应该使用?301重定向详细说明

如果您将网站从一个URL移动到另一个URL,您需要采取必要的步骤来确保您的访问者被发送到正确的位置。在技术领域,这被称为301重定向。 在这里,我们将讨论什么是301重定向,何时需要使用,以及如何在网站或WordPress中重定…

【云计算】云计算八股与云开发核心技术(虚拟化、分布式、容器化)

【云计算】云计算八股与云开发核心技术(虚拟化、分布式、容器化) 文章目录 一、什么是云计算?1、云计算的架构(基础设施,平台,软件)2、云计算的发展 二、如何做云计算开发?云计算的核…