【Python】家庭用电数据分析Prophet预测

news2024/9/22 1:26:45

数据集:Household Electricity Consumption | Kaggle

目录

数据集简介

探索性分析

Prophet预测

Prophet模型

Prophet理念

Prophet优点


数据集简介

240000-household-electricity-consumption-records数据集包含了一个家庭6个月的用电数据,收集于2007年1月至2007年6月。这些数据包括全球有功功率、全球无功功率、电压、全球强度、分项计量1(厨房)、分项计量2(洗衣房)和分项计量3(电热水器和空调)等信息。该数据集共有260,640个测量值。

列名说明
Date日期
Time时间
Globalactivepower该家庭所消耗的总有功功率(千瓦)
Globalreactivepower该家庭消耗的总无功功率(千瓦)
Voltage向家庭输送电力的电压(伏特)
Global_intensity输送到家庭的平均电流强度(安培)
Submetering1厨房消耗的有功功率(千瓦)
Submetering2洗衣房所消耗的有功功率(千瓦)
Submetering3电热水器和空调所消耗的有功功率(千瓦)

探索性分析

导入数据集并读取头部 

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data_path = "./household_power_consumption.csv"
df = pd.read_csv(data_path,index_col='index')
df.head()

面向特定客户时可将列名替换为中文

# # 将列名替换为中文
# df.rename(columns={
#     'Date': '日期',
#     'Time': '时间',
#     'Global_active_power': '有功功率',
#     'Global_reactive_power': '无功功率',
#     'Voltage': '电压',
#     'Global_intensity': '电流',
#     'Sub_metering_1': '厨房的有功功率',
#     'Sub_metering_2': '洗衣房的有功功率',
#     'Sub_metering_3': '电热水器和空调的有功功率',
#     },inplace=1)
# # 再次预览前5行数据
# df.head()  

对DataFrame 中的数值列进行统计

df.describe()

 查看DataFrame中各列的数据类型

df.dtypes

转换数据格式

from tqdm.auto import tqdm
from ipywidgets import HBox, FloatProgress, HTML
# 将'Date'列转换为日期时间格式
df['Date']=pd.DatetimeIndex(df['Date'])
# 定义需要转换为数字的列
make_em_num = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']
# 定义一个函数,将字符串转换为浮点数,如果转换失败则返回0
def floating(string):
    try:
        return float(string)
    except:
        return float(0)
# 遍历需要转换为数字的列
for column in tqdm(make_em_num):
    # 将列中的每个元素应用floating函数,转换为浮点数
    df[column] = df[column].apply(lambda item: floating(item))
# 创建一个水平布局,包含一个浮点进度条和一个HTML元素
HBox(children=(FloatProgress(value=0.0, max=7.0), HTML(value='')))

 查看转换效果,转换后的数据类型

df.dtypes

 查看转换效果,转换后的数据头部

df.head()

绘制相关系数热力图。使用Seaborn库中的heatmap函数来绘制一个热力图,展示数据框df中各列之间的相关性

  • df.drop表示删除名为index、Date和Time的列。axis=1表示按列删除。
  • annot=True,使得热力图上显示相关系数的具体数值。
import seaborn as sns
sns.heatmap(df.drop(['Date','Time'], axis=1).corr(), annot=True)

 

Prophet预测

https://github.com/facebook/prophet

Prophet是一种基于可加性模型预测时间序列数据的程序,其中非线性趋势可以按年度、每周和每日的季节性,以及假日效应进行拟合。它最适合于具有强烈季节效应的时间序列和有几个季节的历史数据。Prophet对于缺失的数据和趋势的变化是稳健的,并且通常能够很好地处理异常值。

获取DataFrame的形状 

from prophet import Prophet
df.shape

通过 Prophet 对有功功率和电压进行预测

# 从数据框中随机抽取10000行
df=df.sample(n=10000)
# 定义一个函数,用于使用Prophet模型进行预测
def prophet_forecaster(data, x, y, period=100):
    # 创建一个新的数据框,包含日期和目标变量
    new_df = pd.DataFrame(columns=['ds', 'y'])
    new_df['ds']= data[x]
    new_df['y'] = data[y]
    # 创建一个Prophet模型
    model = Prophet()
    # 使用新的数据框进行模型训练
    model.fit(new_df)
    # 创建未来日期的数据框
    future_dates = model.make_future_dataframe(periods=period)
    # 使用模型进行预测
    forecast = model.predict(future_dates)
    # 绘制预测结果
    model.plot(forecast)
    # 设置图表标题
    plt.title(f"Forecasting on the next {period} days for {y}")
# 使用Prophet模型对Global_active_power进行预测
prophet_forecaster(df, x='Date', y='Global_active_power', period=180)
# 使用Prophet模型对Global_reactive_power进行预测
prophet_forecaster(df, x='Date', y='Global_reactive_power', period=180)
# 使用Prophet模型对Voltage进行预测
prophet_forecaster(df, x='Date', y='Voltage', period=180)
# 使用Prophet模型对Global_intensity进行预测
prophet_forecaster(df, x='Date', y='Global_intensity', period=180)

未来半年有功功率预测结果:

未来半年无功功率预测结果 

未来半年电压预测结果:

未来半年电流预测结果

Prophet模型

  • g(t) 表示趋势函数,能够拟合非周期性变化;

  • s(s)表示周期性变化,例如每周,每年,每季节等;

  • h(t)表示假期变化,节假日通常为一天或多天;

  • ϵt为噪声项,表示随机无法预测的波动,通常假设ϵt是高斯的。

Prophet理念

  • 趋势中有两个增长函数,分别是分段线性函数(linear)和非线性逻辑回归函数(logistic)。通过从数据中选择变化点,Prophet自动探测趋势变化;

  • 使用傅里叶级数建模每年的季节分量;

  • 使用虚变量代表过去,将来的相同节假日,属于节假日就为1,不属于就是0;

  • 用户提供的重要节假日列表

  • Modeling:建立时间序列模型。分析师根据预测问题的背景选择一个合适的模型。

  • Forecast Evaluation:模型评估。根据模型对历史数据进行仿真,在模型的参数不确定的情况下,我们可以进行多种尝试,并根 据对应的仿真效果评估哪种模型更适合。

  • Surface Problems:呈现问题。如果尝试了多种参数后,模型的整体表现依然不理想,这个时候可以将误差较大的潜在原因呈现给分析师。

  • Visually Inspect Forecasts:以可视化的方式反馈整个预测结果。当问题反馈给分析师后,分析师考虑是否进一步调整和构建模型。

Prophet优点

  • 准确,快速,高效率地拟合,可以针对所需关键数据进行交互式探索
  • 集成全自动流程,无需人工操作就能对混乱的数据做出合理的预测
  • 可调整的预测,预测模型的参数非常容易解释,可用业务知识改进或调整预测
  • 对缺失值和变化剧烈的时间序列和离散值有很好的鲁棒性,不需要填补缺失值;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2072062.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vitepress打包异常 build error

今天给vitepress进行打包发布时出现了一个很奇怪的报错。 然后通过git版本回滚发现是正常发布的,说明环境是没有问题的 那么,就看看到改变了哪些文件。 环境版本 vitepress(^1.3.1) node(v18.19.0)猜测1 是文件的内容里面图片找不到导致的错误。猜测2 是…

Ps:首选项 - 历史记录

Ps菜单:编辑/首选项 Edit/Preferences 快捷键:Ctrl K Photoshop 首选项中的“历史记录” History选项卡允许用户更好地管理Photoshop中的编辑历史,确保在需要时能够回溯操作或提供详细的操作记录。 提示: 默认情况下,…

[数据集][目标检测]电力场景输电线防震锤检测数据集VOC+YOLO格式2721张2类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2721 标注数量(xml文件个数):2721 标注数量(txt文件个数):2721 标注…

Go语言操作文件上传和下载应用教程

Go语言操作文件上传和下载应用教程 我们在使用Go的日常开发中,经常会遇到对文件的处理,例如:上传、下载、读写等(详情见Go 文件操作基本方法大全),且我们在实际应用中,基本都是使用框架自带的文…

数据结构(Java实现):链表习题

文章目录 1. 题目列表及链接2. 题目解析及代码2.1 删除链表中等于给定值 val 的所有节点2.2 反转一个单链表2.3 给定一个带有头结点 head 的非空单链表,返回链表的中间结点。如果有两个中间结点,则返回第二个中间结点2.4 输入一个链表,输出该…

Edge浏览器:Github加速插件,让你在国内自由自在的访问Github!

你是否有访问GitHub要么超级慢,要么无法访问的时刻,是不是感觉痛苦不已; 现在给大家分享我解决问题的方法。 点击浏览器右上角的三个点【…】按钮,然后选择【扩展】 选择【管理扩展】 点击【获取 Miscrosoft Edge扩展】 在搜索框…

解决方案:在jupyter notebook环境下安装不了numpy

文章目录 一、现象二、解决方案 一、现象 平台:autodl 镜像:PyTorch 2.0.0 Python 3.8(ubuntu20.04) Cuda 11.8 GPU:RTX 4090(24GB) * 1 CPU:12 vCPU Intel Xeon Platinum 8352V CPU 2.10GHz 内存:90GB 安装numpy环…

推荐两款好用的录屏软件

Ocam oCam 是一款功能强大的屏幕录制软件,主要用于录制电脑屏幕上的活动。它支持多种视频格式,包括 AVI、MP4、FLV、MOV、TS 和 VOB,同时也支持多种音频格式,如 MP3。oCam 可以录制视频并保存为各种视频格式,还可以编辑…

绘剪批量软件——绘剪批量软件

批量软件是一种可以批量处理大量数据或操作的软件。它通常通过自动化的方式,快速高效地完成任务,减少人工操作的时间和工作量。批量软件可以用于数据处理、文件转换、批量重命名、批量下载等各种场景。 绘剪批量软件——绘剪TK批量软件 AIWYZ77 批量软…

前端JS——补充内容

这期是番外篇,主要是补充一下,之前没有说完整的内容。 后面两期太仓促了,一些值得注意的细节没有提到 之前的内容可以点击: JS总结上 JS总结中 JS总结下——DOM操作 JS总结下——事件操作 前面的两篇总结没什么好补充的&…

[Algorithm][综合训练][mari和shiny][重排字符串]详细讲解

目录 1.mari和shiny1.题目链接2.算法原理详解 && 代码实现 2.重排字符串1.题目链接2.算法原理详解 && 代码实现 1.mari和shiny 1.题目链接 mari和shiny 2.算法原理详解 && 代码实现 自己的版本:三层循环暴力枚举 --> 超时 --> 40% …

[项目]-通讯录的实现

前言 各位师傅大家好,我是qmx_07,今天来结合前面所学知识点,写一个能够增删改查,持久化数据的通讯录功能 准备工作 项目 一般会写成多个文件来实现,调用,接口声明,接口实现,这是一…

游戏开发设计模式之组件模式

目录 组件模式在游戏开发中的具体应用案例是什么? 如何在Unity引擎中实现和优化组件模式? 组件模式与其他设计模式(如观察者模式、状态模式)在游戏开发中的比较优势在哪里? 组件模式 观察者模式 状态模式 综合比…

【python】OpenCV—Single Human Pose Estimation

文章目录 1、Human Pose Estimation2、模型介绍3、基于图片的单人人体关键点检测4、基于视频的单人人体关键点检测5、左右校正6、关键点平滑7、涉及到的库函数scipy.signal.savgol_filter 8、参考 1、Human Pose Estimation Human Pose Estimation,即人体姿态估计&…

通过主成分分析实现检测金融中的异常交易模式

主成分分析(PCA)是一种在机器学习和数据科学中广泛使用的降维技术。它的主要目的是将高维数据转换为低维数据,同时尽可能保留原始数据中的信息。以下是PCA的一些关键点: 1. 基本概念:PCA的核心思想是将n维特征映射到k维…

5步实现猫眼电影爬虫与k-means算法可视化分析

🍊作者:计算机毕设匠心工作室 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目…

C#二叉搜索树算法

二叉搜索树算法实现原理 二叉搜索树(Binary Search Tree,简称BST)是一种节点有序排列的二叉树数据结构。它具有以下性质: 每个节点最多有两个子节点。 对于每个节点,其左子树的所有节点值都小于该节点值,…

MySQL数据库连接超时问题排查报告

1、问题描述 边端设备访问云端过程中有概率出现MySQL数据库连接超时报错,具体报错代码如下: [2024-08-13 13:47:44,036] ERROR in app: Exception on /est-tasks/start [POST] Traceback (most recent call last): File "/usr/local/lib/python3.1…

Java 入门指南:Map 接口

Map 接口是 Java 集合框架中的一个接口,它表示了一种键值对的映射关系。Map 接口提供了一种以键为索引的数据结构,通过键可以快速查找对应的值。在 Map 中,每个键只能对应一个值,键是唯一的,但值可以重复。 常用的实现…

在vscode上便捷运行php文件

目录 前言 1. 准备工作 2. 创建文件 3. 下载插件 4.设置访问配置文件 5. 配置默认浏览器 6. 进行验证 前言 对于学习安全的我们来说,部署环境,靶场,和配置环境都是习以为常的一件事情,平时访问靶场都是通过小皮来,今天突想着最近需要对一些漏洞的原理进行研究,所以需要能够…