数据可视化(八):Pandas时间序列——动态绘图,重采样,自相关图,偏相关图等高级操作

news2024/11/17 0:06:52

Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!

喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!数据源存放在我的资源下载区啦!

数据可视化(八):Pandas时间序列——动态绘图,重采样,自相关图,偏相关图等高级操作

目录

  • 数据可视化(八):Pandas时间序列——动态绘图,重采样,自相关图,偏相关图等高级操作
    • 1. 时间序列分析1
      • 问题1:将列 date 转化为日期时间类型,并设置为索引
      • 问题2:按年份 统计开盘价(open列) 均值,并绘制直方图
      • 问题3:重采样,按月分析 open 列均值,并绘制折线图
    • 2. 时间序列分析2
      • 问题1:将列 Period 转化为 日期时间(datetime) 类型,并按列 Period 排序。
      • 问题2:将列 Period 转化为 时期(Period)类型,并设置为索引
      • 问题3:删除还有缺失值的行,绘制Sales_quantity列的自相关图和偏自相关图
      • 问题4:绘制收入(Revenue)和销售量(Sales_quantity)随Period变化的折线图
      • 问题5:通过3期滚动平均值和标准差,绘制收入和销售量数据折线图,判断其是否平稳
    • 时间序列分析3
      • 问题1:按日期统计销售量,绘制销售数量的折线图,观察是否具备周期性
      • 问题2:将Date列转换为datetime类型,并作为索引。
      • 问题3:对上一题生成dataframe重新采样(按月和按年)后计算number_sold总量,然后绘制number_sold总量的折线图。
    • matplotlib绘图题
      • 1. 仿照讲义中例子,采用calendar和matplotlib绘制月历,要实时获取当前年月。
      • 2. 采用matplotlib绘制动画,动态显示按月销量。

1. 时间序列分析1

股票(上证600519)分析

文件:assets/SH600519.csv

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt # 绘图使用
# 支持中文
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']  # SimHei 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
%matplotlib inline 

# 读取数据

df = pd.read_csv('SH600519.csv', index_col=0)  # 读取 上证600519 贵州茅台股票数据 index_col=0表示去掉自动增添的索引列
df.sample(5)

问题1:将列 date 转化为日期时间类型,并设置为索引

# 代码
# 转化 'date' 列为 datetime 类型  
df['date'] = pd.to_datetime(df['date'])  
  
# 设置 'date' 列为索引  
df.set_index('date', inplace=True)
df.head()

问题2:按年份 统计开盘价(open列) 均值,并绘制直方图

# 代码
# 提取年份  
df['year'] = df.index.year  
  
# 按年份分组并计算开盘价的均值  
mean_open_by_year = df.groupby('year')['open'].mean()  
  
# 但更常见的是使用条形图来展示每年的均值  
mean_open_by_year.plot(kind='bar')  
plt.xlabel('Year')  
plt.xticks(rotation=45)  # 如果年份标签太长,可以旋转显示  
plt.ylabel('Mean Opening Price')  
plt.title('Mean Opening Price by Year (Bar Chart)')  
plt.show()

问题3:重采样,按月分析 open 列均值,并绘制折线图

# 代码
# 重采样,按月计算 open 列的均值  
monthly_mean_open = df['open'].resample('M').mean()  
  
# 绘制折线图  
plt.figure(figsize=(10, 5))  # 设置图形大小  
plt.plot(monthly_mean_open.index, monthly_mean_open.values, marker='o')  
plt.xlabel('Date')  
plt.ylabel('Mean Opening Price')  
plt.title('Monthly Mean Opening Price')  
plt.xticks(rotation=45)  # 如果日期标签重叠,可以旋转显示  
plt.grid(True)  # 显示网格线  
plt.show()

2. 时间序列分析2

销售企业数据时间序列分析。

数据集合的列名含义:

数据:assets/Month_Value_1.csv

Period Revenue Sales_quantity Average_cost The_average_annual_payroll_of_the_region

时期 收入 销售量 平均成本 该地区每年的员工平均薪酬总额

#读取数据

df = pd.read_csv('Month_Value_1.csv')  # 读取数据
display( df.head(5) )
df.info()

问题1:将列 Period 转化为 日期时间(datetime) 类型,并按列 Period 排序。

# 编码
# 转化 'Period' 列为 datetime 类型  
df['Period'] = pd.to_datetime(df['Period'])
df = df.sort_values(by="Period",ascending=True).reset_index(drop=True)
df.head()

问题2:将列 Period 转化为 时期(Period)类型,并设置为索引

# 编码
# 将 'Period' 列转化为 Period 类型  
# 然后将 datetime 转换为 Period 类型(假设频率为日)  
df['Period'] = df['Period'].dt.to_period('d')   
  
# 将 'Period' 列设置为索引  
df.set_index('Period', inplace=True)  
  
# 查看结果  
df.head()

问题3:删除还有缺失值的行,绘制Sales_quantity列的自相关图和偏自相关图

  • 自相关图是一种展示时间序列数据与其自身过去值之间相关性的图形。在统计和数据分析中,自相关图常被用于识别序列中的周期性或趋势,以及评估数据的随机性。通过自相关图,可以观察到数据在不同时间间隔上的相关性程度,从而帮助理解和分析数据的特性。
  • 偏自相关图是一种用于展示时间序列数据中某一时刻的值与其之前时刻的值之间的直接(非间接)相关性的图形。与自相关图不同,偏自相关图在计算相关性时,会排除其他时间点上的值所带来的间接影响,从而更直接地反映两个时间点之间的相关性。
# 编码
# 删除缺失值的行
df = df.dropna()
df.info()

df.dtypes

from statsmodels.graphics.tsaplots import plot_acf, plot_pacf 
import warnings  
warnings.filterwarnings("ignore")

# 绘制 Sales_quantity 列的自相关图  
fig, ax = plt.subplots(figsize=(10, 5))  
plot_acf(df['Sales_quantity'], lags=40, ax=ax)  
plt.title('Autocorrelation Function of Sales_quantity')  
plt.show()  
  
# 绘制 Sales_quantity 列的偏自相关图  
fig, ax = plt.subplots(figsize=(10, 5))  
plot_pacf(df['Sales_quantity'], lags=40, ax=ax)  
plt.title('Partial Autocorrelation Function of Sales_quantity')  
plt.show()

问题4:绘制收入(Revenue)和销售量(Sales_quantity)随Period变化的折线图

#编码
df.dtypes

df.index

# 将索引转换为日期时间类型
df.index = df.index.to_timestamp()

# 确认索引已经转换为日期时间类型
df.index

# 然后再绘制折线图
plt.figure(figsize=(10, 6))
plt.plot(df.index, df['Revenue'], label='Revenue')
plt.plot(df.index, df['Sales_quantity'], label='Sales_quantity')
plt.xlabel('Period')
plt.ylabel('Amount')
plt.title('Revenue and Sales Quantity Over Time')
plt.legend()
plt.show()

问题5:通过3期滚动平均值和标准差,绘制收入和销售量数据折线图,判断其是否平稳

#编码
# 计算3期滚动平均值和标准差
rolling_mean = df.rolling(window=3).mean()
rolling_std = df.rolling(window=3).std()

# 绘制原始数据的折线图
plt.figure(figsize=(10, 6))
plt.plot(df.index, df['Revenue'], label='Revenue')
plt.plot(df.index, df['Sales_quantity'], label='Sales_quantity')

# 绘制滚动平均值和标准差的折线图
plt.plot(rolling_mean.index, rolling_mean['Revenue'], label='Rolling Mean (3 periods)', linestyle='--')
plt.plot(rolling_std.index, rolling_std['Revenue'], label='Rolling Std (3 periods)', linestyle='--')

plt.plot(rolling_mean.index, rolling_mean['Sales_quantity'], label='Rolling Mean (3 periods)', linestyle='--')
plt.plot(rolling_std.index, rolling_std['Sales_quantity'], label='Rolling Std (3 periods)', linestyle='--')

plt.xlabel('Period')
plt.ylabel('Amount')
plt.title('Revenue and Sales Quantity Over Time with Rolling Mean and Standard Deviation')
plt.legend()
plt.show()

时间序列分析3

销售数据分析。

数据:assets/sale_train.csv

数据列:

Date store product number_sold

日期 商店ID 产品ID 销售数量

# 读取数据

df = pd.read_csv('sale_train.csv')  # 读取数据
display( df.sample(5) )
df.info()

问题1:按日期统计销售量,绘制销售数量的折线图,观察是否具备周期性

# 编码
# 将日期列转换为日期时间类型,并将其设置为索引
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)
df.head()

df.dtypes

df.index

问题2:将Date列转换为datetime类型,并作为索引。

# 编码
# 按日期统计销售量
sales_by_date = df.groupby(df.index).sum()

# 绘制销售数量的折线图
plt.figure(figsize=(10, 6))
plt.plot(sales_by_date.index, sales_by_date['number_sold'], marker='o')
plt.xlabel('Date')
plt.ylabel('Number of Sales')
plt.title('Sales Quantity Over Time')
plt.grid(True)
plt.show()

问题3:对上一题生成dataframe重新采样(按月和按年)后计算number_sold总量,然后绘制number_sold总量的折线图。

# 编码
# 按月重新采样并计算每月的总销售量
sales_monthly = df.resample('M').sum()

# 按年重新采样并计算每年的总销售量
sales_annually = df.resample('Y').sum()

# 绘制总销售量的折线图
plt.figure(figsize=(8, 6))

# 绘制按月重新采样后的折线图
plt.subplot(2, 1, 1)
plt.plot(sales_monthly.index, sales_monthly['number_sold'], marker='o', color='b')
plt.xlabel('Date')
plt.ylabel('Total Number of Sales')
plt.title('Total Sales Quantity (Monthly)')
plt.grid(True)

# 绘制按年重新采样后的折线图
plt.subplot(2, 1, 2)
plt.plot(sales_annually.index, sales_annually['number_sold'], marker='o', color='g')
plt.xlabel('Year')
plt.ylabel('Total Number of Sales')
plt.title('Total Sales Quantity (Annually)')
plt.grid(True)

plt.tight_layout()
plt.show()

matplotlib绘图题

1. 仿照讲义中例子,采用calendar和matplotlib绘制月历,要实时获取当前年月。

如下图:

import calendar
import matplotlib.pyplot as plt

%matplotlib inline

# 编码
import calendar
import matplotlib.pyplot as plt
import datetime
# 获取 2024 年 4 ⽉的⽇历
cal = calendar.monthcalendar(2024, 4)
# 绘制⽇历
plt.figure(figsize=(12, 12))
plt.imshow(cal, cmap="rainbow")
plt.xlabel('星期')
plt.ylabel('日期')
# 获取当前时间的年和月  
# 获取当前时间  
current_time = datetime.datetime.now()  
  
# 格式化当前时间为“XXXX年XX月”的形式  
current_year_month = "{}年{:02d}月".format(current_time.year, current_time.month)  
  
# 使用格式化后的时间设置图表标题  
plt.title("当前时间: {}".format(current_year_month))
# 标记周末和⼯作⽇
for i in range(len(cal)):
    for j in range(len(cal[0])):
        if j in [0, 6]:
             plt.text(j, i, cal[i][j], color="red", ha='center', va='center')
        else:
             plt.text(j, i, cal[i][j], color="black", ha='center', va='center')
plt.show()

2. 采用matplotlib绘制动画,动态显示按月销量。

每秒更新一次,每次更新时显示下一个月的销售额。在动画中,折线图会随着时间的推移逐渐绘制出来,并在每个点上显示销售月份和销售额。

如下图:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation

%matplotlib notebook

# 生成日期范围
dates = pd.date_range('2020-01', '2024-04', freq='M')

# 生成销售数据
np.random.seed(2024)
sales_data = pd.DataFrame({
    '日期': dates,
    '销售额': np.random.randint(100, 201, size=len(dates))
})

# 绘制折线图
plt.figure(figsize=(15, 6))
plt.plot(sales_data["日期"], sales_data["销售量"])
plt.xlabel('日期')
plt.ylabel("销售量")
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1615341.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IPD集成产品开发(二)

时间:2024年04月21日 作者:小蒋聊技术 邮箱:wei_wei10163.com 微信:wei_wei10 音频地址:IPD集成产品开发(二)https://www.ximalaya.com/sound/724309598 大家好,欢迎来到小蒋聊技…

前端三剑客 HTML+CSS+JavaScript ③ HTML标准结构

生活没有任何意义&#xff0c;这就是活着的理由&#xff0c;而且是唯一的理由 —— 24.4.22 一、HTML注释 1.特点 注释的内容会被浏览器所忽略&#xff0c;不会呈现到页面中&#xff0c;但源代码中依然可见 2.作用 对代码进行解释和说明 3.写法 <!-- xxxxx --> <html&…

【Web】2022DASCTF X SU 三月春季挑战赛 题解(全)

目录 ezpop calc upgdstore ezpop 瞪眼看链子 fin#__destruct -> what#__toString -> fin.run() -> crow#__invoke -> fin#__call -> mix.get_flag() exp <?php class crow {public $v1;public $v2;}class fin {public $f1; }class what {public $a; }…

grafana安装篇(1)

目录 grafana概念&#xff1a; 它具有以下主要特点&#xff1a; Grafana 常用于以下场景&#xff1a; 环境介绍&#xff1a; 前置环境&#xff1a; (1)保证可以连接外网 (2)防火墙和selinux已关闭 1.下载安装grafana10.0.1-1rpm包 2.启动grafana 3.浏览器访问 3.设置…

android学习笔记(五)-MVP模式

1、MVP模式demo的实现&#xff0c;效果下&#xff1a; 2、创建一个Fruit类&#xff1a; package com.example.listview; //Fruit类就是Model&#xff0c;表示应用程序中的数据对象。 public class Fruit {private int imageId;private String name;private String price;publi…

TFTLCD原理硬件介绍

介绍 TFT LCD&#xff08;薄膜晶体管液晶显示器&#xff09;是一种广泛使用的显示技术&#xff0c;它结合了薄膜晶体管&#xff08;TFT&#xff09;和液晶显示&#xff08;LCD&#xff09;技术。TFT LCD的主要特点是使用TFT矩阵来控制施加到每个像素的电压&#xff0c;从而实现…

上位机图像处理和嵌入式模块部署(树莓派4b使用pcl点云库)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 图像处理&#xff0c;大家都知道它有显著的优点和缺点。优点就是分辨率高&#xff0c;信息丰富。缺点就是&#xff0c;整个图像本身没有深度信息。…

京东商品详情数据采集API接口|附京东商品数据返回PHP多语言高并发

京东获得JD商品详情 API 返回值说明 item_get-获得JD商品详情 API测试 注册开通 jd.item_get 公共参数 名称类型必须描述keyString是调用key&#xff08;必须以GET方式拼接在URL中&#xff09;secretString是调用密钥api_nameString是API接口名称&#xff08;包括在请求地址…

扫描工具nmap

介绍 说到黑客&#xff0c;知识就是力量。您对目标系统或网络的了解越多&#xff0c;可用的选项就越多。因此&#xff0c;在进行任何利用尝试之前&#xff0c;必须进行适当的枚举。 假设我们获得了一个 IP&#xff08;或多个 IP 地址&#xff09;来执行安全审计。在我们做任何…

Linux使用Docker部署DashDot访问本地服务器面板

文章目录 1. 本地环境检查1.1 安装docker1.2 下载Dashdot镜像 2. 部署DashDot应用 本篇文章我们将使用Docker在本地部署DashDot服务器仪表盘&#xff0c;并且结合cpolar内网穿透工具可以实现公网实时监测服务器系统、处理器、内存、存储、网络、显卡等&#xff0c;并且拥有API接…

牛客NC233 加起来和为目标值的组合(四)【中等 DFS C++、Java、Go、PHP】

题目 题目链接&#xff1a; https://www.nowcoder.com/practice/7a64b6a6cf2e4e88a0a73af0a967a82b 解法 dfs参考答案C class Solution {public:/*** 代码中的类名、方法名、参数名已经指定&#xff0c;请勿修改&#xff0c;直接返回方法规定的值即可*** param nums int整型…

【从浅学到熟知Linux】进程间通信之匿名管道方式(进程间通信方式汇总、匿名管道的创建、匿名管道实现进程池详解)

&#x1f3e0;关于专栏&#xff1a;Linux的浅学到熟知专栏用于记录Linux系统编程、网络编程等内容。 &#x1f3af;每天努力一点点&#xff0c;技术变化看得见 文章目录 进程间通信介绍如何实现进程间通信进程间通信分类 管道通信方式什么是管道匿名管道pipe匿名管道读写规则管…

TQZC706开发板教程:编译zynq linux内核2019_R1

您需要下载对应版本的Linux系统文件以及IMG1.3.1镜像文件。为了方便您的操作&#xff0c;本文所使用的所有文件以及最终生成的文件&#xff0c;我都已经整理并放置在本文末尾提供的网盘链接中。您可以直接通过该链接进行下载&#xff0c;无需在其他地方单独搜索和获取。希望这能…

spring aop介绍

Spring AOP&#xff08;面向切面编程&#xff09;是一种编程范式&#xff0c;它允许开发者将横切关注点&#xff08;cross-cutting concerns&#xff09;从业务逻辑中分离出来&#xff0c;从而提高代码的模块化。在传统的对象导向编程中&#xff0c;这些横切关注点&#xff0c;…

Vue2进阶之Vue2高级用法

Vue2高级用法 mixin示例一示例二 plugin插件自定义指令vue-element-admin slot插槽filter过滤器 mixin 示例一 App.vue <template><div id"app"></div> </template><script> const mixin2{created(){console.log("mixin creat…

MySql 安装教程+简单的建表

目录 1.安装准备 1.MySQL官方网站下载 2.安装步骤 3.测试安装 4.简单的建表 1.安装准备 1.MySQL官方网站下载 下载安装包或者压缩包都可以 选择相应版本&#xff0c;点击Download开始通过网页下载到本地&#xff08;压缩包下载快一些&#xff09; 2.安装步骤 双击此.exe…

c++ - 类与对象 - explicit关键字 | static成员 | 友元 | 内部类 | 匿名对象

文章目录 一、 explicit关键字二、static成员三、友元四、内部类五、匿名对象 一、 explicit关键字 1、隐式类型转换 再进行隐式类型转换是会产生一个临时变量tmp,再用临时变量进行赋值。 如&#xff1a; double d 1.2; //再用 d 给 i 进行赋值时&#xff0c;会进行隐式类型…

面向对象设计与分析40讲(25)中介模式、代理模式、门面模式、桥接模式、适配器模式

文章目录 门面模式代理模式中介模式 之所以把这几个模式放到一起写&#xff0c;是因为它们的界限比较模糊&#xff0c;结构上没有明显的差别&#xff0c;差别只是语义上。 这几种模式在结构上都类似&#xff1a; 代理将原本A–>C的直接调用变成&#xff1a; A–>B–>…

探索RadSystems:低代码开发的新选择(二)

系列文章目录 探索RadSystems&#xff1a;低代码开发的新选择&#xff08;一&#xff09;&#x1f6aa; 文章目录 系列文章目录前言一、RadSystems Studio是什么&#xff1f;二、用户认证三、系统角色许可四、用户记录管理五、时间戳记录总结 前言 在数字化时代&#xff0c;低…

HoloLens2的Unity应用在电脑上发布成安装包,然后通过wifi安装到设备

一、VS工程中的鼠标右键 二、发布——>创建应用程序包 三、选择【旁加载】 四、选择签名方法&#xff1a; 五、选择和配置包 六、创建完毕 七、网络连接设备 八、登录设备 九、安装app