机器学习/数据分析--用通俗语言讲解时间序列自回归(AR)模型,并用其预测天气,拟合度98%+

news2024/10/6 1:36:55
  • 时间序列在回归预测的领域的重要性,不言而喻,在数学建模中使用及其频繁,但是你真的了解ARIMA、AR、MA么?ACF图你会看么?? 时间序列数据如何构造???,我打过不少数学建模,但是都没有弄得很清楚;
  • 这篇将详细讲解了基础模型—AR的原理.

文章目录

  • 1、自回归(AR)详解
    • 1、简要说明
    • 2、原理讲解
    • 3、ACF图
  • 2、案例
    • 1、数据预处理
      • 1、导入库
      • 2、读取数据且预处理
    • 2、实现自回归模型
    • 3、模型预测
    • 4、数据分析和可视化
      • 1、原始数据时间序列图
      • 2、训练集和测试集的预测结构对比图
      • 3、残差分析
      • 4、正相关(ACF)
    • 5、结果分析

1、自回归(AR)详解

1、简要说明

  • 什么是自回归??

自回归:通过过去的数据预测当下的数据,是一个时间序列的基础模型,但是很有效,能够有效的捕捉数据随着时间的变化趋势。

  • 举例解释:

在日常生活中,我们知道一般情况下,当下的气温和前几天的温度是有关系的,比如说这3天很热,明天大概率也会很热,自回归(AR)就是这样的模型,通过前几天的气温预测今天的气温,如:

  1. 今天:20度,记为a,前天:18度,记为b,大前天:22度,记为c,需要预测明天的气温
  2. 明天气温 = k1 * a + k2 * b + k3* c + 随机误差, k1 、 k2 、k3 是权重,这个可以通过计算得出。

2、原理讲解

自回归公式(很像多元线性回归):

y t = c + ϕ 1 y t − 1 + ϕ 2 y t − 2 + ⋯ + ϕ p y t − p + ϵ t y_t=c+\phi_1y_{t-1}+\phi_2y_{t-2}+\cdots+\phi_py_{t-p}+\epsilon_t yt=c+ϕ1yt1+ϕ2yt2++ϕpytp+ϵt

  • ϕ p \phi_p ϕp这是自回归系数,表示当下p个时间点的数据对要预测的yt 这个时间点的重要程度;
  • c:常数项,就如我们一元回归方差,y = ax + b中的那个b
  • ϵ t \epsilon_t ϵt:误差项,用来随机生成数据,模拟波动,让预测效果更加贴近实际;
  • p:滞后阶数,表示用前p个数来预测当前的数据。

通过自回归公式,我当时一眼一看,这不就是多元线性回归么?实际也确实是,只是他添加类误差项而已,实际求解的时候,也是通过最小二乘回归求解系数的。

下面是一个用自回归去探究气温的一组案例,需要关注点有两个如下:

  • 怎么构造时间数据???
  • 怎么利用最小二乘回归去求解系数???

3、ACF图

通过查看数的ACF图,在不同用领域有不同的用处,如下:

  • 白噪声过程:时间序列是随机的,没有可预测的结构,即数据之间没有关系。
  • 模型拟合良好:模型已经很好地捕捉了数据中的所有相关信息,残差是随机的。
  • 数据本身没有自相关性:数据中的每个观测值都是独立的没有时间上的依赖关系。
  • 数据预处理的影响:预处理有效地去除了数据中的自相关性

2、案例

数据:该数据描述的是这几百年的地球平均气温,下载地址:kaggle;

目的:大陆平均气温数据的探究,更加理解AR原理以及数学公式。

1、数据预处理

1、导入库

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from sklearn.model_selection import train_test_split

2、读取数据且预处理

data_df = pd.read_csv('GlobalTemperatures.csv')
data_df
dtLandAverageTemperatureLandAverageTemperatureUncertaintyLandMaxTemperatureLandMaxTemperatureUncertaintyLandMinTemperatureLandMinTemperatureUncertaintyLandAndOceanAverageTemperatureLandAndOceanAverageTemperatureUncertainty
01750-01-013.0343.574NaNNaNNaNNaNNaNNaN
11750-02-013.0833.702NaNNaNNaNNaNNaNNaN
21750-03-015.6263.076NaNNaNNaNNaNNaNNaN
31750-04-018.4902.451NaNNaNNaNNaNNaNNaN
41750-05-0111.5732.072NaNNaNNaNNaNNaNNaN
..............................
31872015-08-0114.7550.07220.6990.1109.0050.17017.5890.057
31882015-09-0112.9990.07918.8450.0887.1990.22917.0490.058
31892015-10-0110.8010.10216.4500.0595.2320.11516.2900.062
31902015-11-017.4330.11912.8920.0932.1570.10615.2520.063
31912015-12-015.5180.10010.7250.1540.2870.09914.7740.062

3192 rows × 9 columns

# 只保留日期和LanAverageTemperatrue
data_df = data_df[['dt', 'LandAverageTemperature']]
# 查看数据信息
data_df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3192 entries, 0 to 3191
Data columns (total 2 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   dt                      3192 non-null   object 
 1   LandAverageTemperature  3180 non-null   float64
dtypes: float64(1), object(1)
memory usage: 50.0+ KB
# 缺失值较少,采用前置填充方法
data_df = data_df.fillna(method='ffill')
# 时间转化为datatime格式
data_df['dt'] = pd.to_datetime(data_df['dt'])
# 按照日期排序,确保日期按照顺序
data_df = data_df.sort_values(by='dt')
# 设置日期索引,方便快速查询
data_df.set_index('dt', inplace=True)

# 为了更方便后面展示,这里选取最近1000条数据,全部展示,后面绘图,全都堆到一起
data_df = data_df.tail(1000)

2、实现自回归模型

# 深刻理解代码
def create_lagged_features(data, lag):
    x = []
    y = []
    for i in range(lag, len(data)):
        x.append(data[i - lag : i])
        y.append(data[i])
    return np.array(x), np.array(y)
# 使用 5 阶(联系数学公式) 自回归模型
lag = 5
# 提取特征值,目标值(也就是自变量,因变量)
all_temperature_data = data_df['LandAverageTemperature'].values
# 获取自变量、因变量
X, Y = create_lagged_features(all_temperature_data, lag)
# 分割数据集
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

在实际应用中,我们通常会先添加常数项,然后再计算回归系数,因为这样可以保证模型能够捕捉到数据的全局趋势。

# 使用最小二乘法拟合 自回归 模型
def fit_regresiion(x_train, y_train):
    # 添加常数项, b(结合公式),添加一项,为了适应维度
    x_train = np.c_[np.ones(x_train.shape[0]), x_train]
    # 计算回归系数,结合公式 np.linalg.inv 求逆
    beta = np.linalg.inv(x_train.T @ x_train) @ x_train.T @ y_train
    return beta
# 拟合,得到回归系数
beta = fit_regresiion(x_train, y_train)
beta

输出:

array([ 5.07449781, -0.04255702, -0.22825367, -0.2961153 ,  0.06135681,
        0.93721175])

3、模型预测

def predict_ar_model(x, beta):
    # 添加常数项
    x = np.c_[np.ones(x.shape[0]), x]  # 添加常数项
    # 预测
    y_pred = x @ beta   # 自己相乘,结合公式
    return y_pred

# 测试集、训练集测试
y_pred_train = predict_ar_model(x_train, beta)
y_predict_test = predict_ar_model(x_test, beta)

4、数据分析和可视化

1、原始数据时间序列图

plt.figure(figsize=(10, 6))
plt.plot(data_df.index, data_df['LandAverageTemperature'], color='orange', label='Temperature')
plt.title('Global Land Average Temperature Over Time')
plt.xlabel('Year')
plt.ylabel('Temperature')
plt.legend()
plt.grid(True)
plt.show()


在这里插入图片描述

2、训练集和测试集的预测结构对比图

plt.figure(figsize=(10, 6))
plt.plot(y_train, label='Actual Train', color='blue')
plt.plot(y_pred_train, label='Predicr Train', color='red', linestyle='dashed')
plt.title('AR Model')
plt.xlabel('Time')
plt.ylabel('Temperature')
plt.grid(True)
plt.show()

plt.figure(figsize=(10, 6))
plt.plot(y_test, label='Actual Test', color='blue')
plt.plot(y_predict_test, label='Predicr Test', color='red', linestyle='dashed')
plt.title('AR Model')
plt.xlabel('Time')
plt.ylabel('Temperature')
plt.grid(True)
plt.show()


在这里插入图片描述

在这里插入图片描述

3、残差分析

残差图分析误差

residual = y_test - y_predict_test   # 残差计算
plt.figure(figsize=(10, 6))
plt.plot(residual, color='green', label='Residual')
plt.title('Residual of AR on Test Data')
plt.xlabel('Time')
plt.ylabel('Residual')
plt.legend()
plt.grid(True)
plt.show()


在这里插入图片描述

4、正相关(ACF)

检查残差的自相关性,查看是存在未捕捉时间特征

from statsmodels.graphics.tsaplots import plot_acf

plt.figure(figsize=(10, 6))
plot_acf(residual, lags=50)   # 展示前50个滞后
plt.title('ACF OF RESIDUAL')
plt.grid(True)
plt.show()
<Figure size 1000x600 with 0 Axes>

在这里插入图片描述

  • 默认置信区间,显著性水平是5%
  • acf图中,值接近为0,几乎全在置信区间内,说明残差数据之间没有关系,残差是随机的,模型有效的捕捉到了时间特征

5、结果分析

from sklearn.metrics import mean_squared_error, r2_score

mse = mean_squared_error(y_test, y_predict_test)
r2 = r2_score(y_test, y_predict_test)

print('mse: ', mse)
print('r2', r2)
mse:  0.19718326089184698
r2 0.9889418324562267
  • 综上说明模型有效挖掘了天气的规律

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2190899.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

提升客户满意度,数字化售后工单系统的实施策略

售后工单系统助企业优化运营&#xff0c;提升客户满意度。涵盖技术支持、维修服务、客户反馈管理等应用场景。ZohoDesk凭高效定制成企业首选。未来趋势包括AI、物联网、AR/VR技术集成&#xff0c;提升服务智能化水平。 一、售后工单系统的重要性 售后工单系统是企业用来管理和…

基于Java的GeoTools对Shapefile文件属性信息深度解析

目录 前言 一、Shapefile的属性列表信息 1、属性表格信息 2、属性表格包含的要素 二、GeoTools对属性表格的解析 1、常规解析方法 2、基于dbf文件的属性信息读取 三、总结 前言 ESRI Shapefile&#xff08;shp&#xff09;&#xff0c;或简称shapefile&#xff0c;是美…

SQL优化 - 排序

文章目录 排序和索引降序索引 FilesortORDER BY 顺序问题ORDER BY LIMIT 排序和索引 如果ORDER BY操作使用了索引&#xff0c;那么就可以避免排序操作&#xff0c;因为索引本身就是按索引 key 排好序的。那什么情况下&#xff0c;ORDER BY会走索引呢&#xff1f; 例如&#…

专题十_穷举vs暴搜vs深搜vs回溯vs剪枝_二叉树的深度优先搜索_算法专题详细总结

目录 搜索 vs 深度优先遍历 vs 深度优先搜索 vs 宽度优先遍历 vs 宽度优先搜索 vs 暴搜 1.深度优先遍历 vs 深度优先搜索(dfs) 2.宽度优先遍历 vs 宽度优先搜索(bfs) 2.关系图暴力枚举一遍所有的情况 3.拓展搜索问题全排列 决策树 1. 计算布尔⼆叉树的值&#xff08;medi…

CF2013E Prefix GCD

【题目大意】 给定一个长度为 n n n 的数列 a 1 … n a_{1 \dots n} a1…n​&#xff0c;你可以将 a 1 … n a_{1 \dots n} a1…n​ 按照任意顺序进行重排&#xff0c;使得&#xff1a; ∑ i 1 n gcd ⁡ { a 1 , a 2 , a 3 , … , a n } \sum\limits_{i1}^{n}\gcd\left \{…

10.5学习

1.GateWay GateWay⽬标是取代Netflflix Zuul&#xff0c;它基于Spring5.0SpringBoot2.0WebFlux等技术开发&#xff0c;提供统⼀的路由⽅式&#xff08;反向代理&#xff09;并且基于 Filter(定义过滤器对请求过滤&#xff0c;完成⼀些功能) 链的⽅式提供了⽹关基本的功能&…

探索 Python 虚拟环境的奥秘:virtualenv 的魔法世界

文章目录 探索 Python 虚拟环境的奥秘&#xff1a;virtualenv 的魔法世界背景&#xff1a;为何选择 virtualenv&#xff1f;虚拟环境的守护者&#xff1a;virtualenv 是什么&#xff1f;安装 virtualenv&#xff1a;简单几步&#xff0c;开启隔离之旅掌握 virtualenv 的基本用法…

Relu激活

ReLU&#xff08;Rectified Linear Unit&#xff09;激活函数 是卷积神经网络&#xff08;CNN&#xff09;以及许多深度学习模型中最常用的激活函数之一。它的主要作用是引入非线性&#xff0c;使模型能够学习和表达更复杂的特征。以下是对ReLU激活函数的详细解释。 1. ReLU的…

C语言进阶版第16课—自定义类型:结构体

文章目录 1. 结构体类型的声明和初始化2. 结构体自引用3. 结构体内存对齐3.1 结构体内存对齐规则3.2 修改默认对齐数 4. 结构体传参4. 结构体实现位段5. 位段使用的注意事项 1. 结构体类型的声明和初始化 结构体在使用之前都要对其类型进行声明&#xff0c;关键字是struct&…

15分钟学 Python 第36天 :Python 爬虫入门(二)

Python 爬虫入门&#xff1a;环境准备 在进行Python爬虫的学习和实践之前&#xff0c;首先需要准备好合适的开发环境。本节将详细介绍Python环境的安装、必要库的配置、以及常用工具的使用&#xff0c;为后续的爬虫编写奠定坚实的基础。 1. 环境准备概述 1.1 为什么环境准备…

mp4转gif在线转换怎么转?7个视频转动图方法不容错过!(超简单)

mp4转gif在线转换怎么转&#xff1f;如今&#xff0c;将mp4视频转换为gif动图格式&#xff0c;满足了人们对易于分享和网络传播内容的需求。与mp4视频相比&#xff0c;gif动图文件体积相对较小&#xff0c;几乎所有网络平台都支持这种格式&#xff0c;无需额外安装插件或软件。…

CSID-GAN:基于生成对抗网络的定制风格室内平面设计框架论文阅读

CSID-GAN: A Customized Style Interior Floor Plan Design Framework Based on Generative Adversarial Network 摘要前言II. CSID-GAN METHODA. Overall FrameworkB. Algorithm and Loss Function III. DATASETS AND EVALUATION METRICSA. DatasetsB. Evaluation Metrics IV.…

信息安全工程师(34)访问控制模型

前言 访问控制模型是实现访问控制的基础&#xff0c;不同的访问控制模型提供了不同的访问控制策略和机制&#xff0c;以适应不同的安全需求。 一、自主访问控制模型&#xff08;DAC&#xff09; 定义&#xff1a;指资源的所有者有权决定谁可以访问其资源以及访问的方式。资源的…

如何实现事件流操作

文章目录 1 概念介绍2 使用方法3 示例代码我们在上一章回中介绍了通道相关的内容,本章回中将介绍StreamProvider组件.闲话休提,让我们一起Talk Flutter吧。 1 概念介绍 在Flutter中Stream是经常使用的组件,对该组件的监听可void main() {///让状态栏和程序的appBar融为一体…

macos安装mongodb

文章目录 说明安装和配置安装mongodb配置PATH变量 验证日志及数据存放目录 mac启动和关闭mongodb后台启动失败问题mongodb-compass(GUI) 说明 Homebrew core 列表目前已经将 MongoDB 移除,不再为其提供支持。但是使用国内镜像的brew还是可以安装的&#xff01;这里直接从官网下…

使用 Python 代码连接 PostgreSQL

Python 是一个功能非常强大的编程语言&#xff0c;尤其在与数据库交互时&#xff0c;提供了丰富的解决方案。在实际项目中&#xff0c;我们经常需要通过 Python 连接并操作数据库。为了简化这种操作&#xff0c;ORM&#xff08;对象关系映射&#xff09;框架提供了便利。ORM 能…

aws(学习笔记第一课) AWS CLI,创建ec2 server以及drawio进行aws画图

aws(学习笔记第一课) 使用AWS CLI 学习内容&#xff1a; 使用AWS CLI配置密钥对创建ec2 server使用drawio&#xff08;vscode插件&#xff09;进行AWS的画图 1. 使用AWS CLI 注册AWS账号 AWS是通用的云计算平台&#xff0c;可以提供ec2&#xff0c;vpc&#xff0c;SNS以及clo…

灵足时代:具身智能核心部件的新秀崛起——解析数千万元天使轮融资

在智能科技日新月异的今天,具身智能作为连接物理世界与数字世界的重要桥梁,正逐步成为科技创新的前沿阵地。近日,具身智能核心部件领域的新锐公司——“灵足时代”宣布完成数千万元天使轮融资,这一消息无疑为行业内外带来了强烈的震撼与期待。本轮融资由雅瑞智友科学家基金…

多用户网页聊天室(测试报告)

一、项目背景 随着现代互联网的快速发展&#xff0c;实时通信系统&#xff08;如聊天应用&#xff09;已成为人们日常交流的重要工具。多用户网页聊天室项目旨在为用户提供一个基于Web的实时聊天平台&#xff0c;支持用户之间的即时通信、好友管理和历史消息记录查看。为了提升…

ModuleNotFoundError: No module named ‘package‘

报错&#xff1a; Traceback (most recent call last): File “”, line 198, in run_module_as_main File “”, line 88, in run_code File "D:\python\helloworld.venv\Scripts\pip.exe_main.py", line 4, in File "D:\python\helloworld.venv\Lib\site-pac…