ARIMA详细介绍

ARIMA（AutoRegressive Integrated Moving Average，自回归积分滑动平均模型）是一种用于时间序列分析和预测的统计模型。它结合了自回归（AR）、差分（I）和移动平均（MA）三种方法，适用于处理具有趋势成分或季节性成分的时间序列数据。

ARIMA模型的基本构成

ARIMA模型通常表示为ARIMA(p,d,q)，其中p、d和q分别是三个参数：

p：自回归项数，指的是使用过去多少个观测值来预测当前值。
d：差分次数，指的是为了使时间序列平稳所需进行的差分操作次数。
q：移动平均项数，指的是在预测方程中包含过去的预测误差的数量。

自回归（AR）部分

自回归模型假设当前时刻的值是基于过去若干个时刻的值加上一个随机扰动项得到的。具体来说，AR(p)模型可以表示为：

其中，Yt是当前时刻的值，c是常数项，ϕi是自回归系数，ϵt是白噪声误差项。

差分（I）部分

差分操作是为了消除时间序列中的趋势成分，使其变得平稳。对于非平稳时间序列，通过差分可以去除趋势，使得序列满足平稳性的要求。一阶差分即为相邻两个时刻的数据相减，二阶差分是对一阶差分的结果再次执行差分操作。

移动平均（MA）部分

移动平均模型假设当前时刻的值是基于过去若干个预测误差加上一个白噪声误差得到的。MA(q)模型可以表示为：

这里，μ是序列的均值，θi是移动平均系数，ϵt是白噪声误差项。

模型构建步骤

构建ARIMA模型一般遵循以下步骤：

数据预处理：检查时间序列是否平稳，如果不平稳，则需要进行适当的差分处理。
确定模型参数：根据自相关函数（ACF）和偏自相关函数（PACF）图来初步确定p和q的值。
估计模型参数：利用最小二乘法或其他方法估计模型参数。
模型诊断：检查残差是否为白噪声，并评估模型的整体拟合度。
预测未来值：使用拟合好的模型对未来值进行预测。

如何选择ARIMA模型的参数？

选择ARIMA模型的参数（p, d, q）是时间序列分析中的一个关键步骤。这些参数分别代表自回归项数、差分阶数和移动平均项数。以下是确定这些参数的一般步骤和方法：

确定差分阶数 dd

首先，需要确保时间序列是平稳的。如果原始序列不是平稳的，则需要通过差分操作将其转换为平稳序列。差分次数即为参数 dd。

单位根检验：可以使用ADF (Augmented Dickey-Fuller) 检验来判断时间序列是否平稳。如果p值大于0.05，则认为序列是非平稳的，需要进行差分。
目测法：绘制时间序列图，观察是否存在趋势或季节性成分。如果存在，则可能需要进行一阶或多阶差分以消除这些非平稳成分。

确定自回归项数 pp 和移动平均项数 qq

一旦得到了平稳的时间序列，接下来就可以确定自回归项数 pp 和移动平均项数 qq。

自相关函数 (ACF) 和偏自相关函数 (PACF) 图

ACF图：显示了当前观测与过去观测之间的相关性随滞后步长的变化情况。对于MA(q)模型，ACF图会在滞后 qq 后迅速趋于零（截尾），而PACF图则呈现拖尾现象。
PACF图：显示了在控制其他滞后的影响下，当前观测与特定滞后观测的相关性。对于AR(p)模型，PACF图会在滞后 pp 后迅速趋于零（截尾），而ACF图则呈现拖尾现象。

通过观察ACF和PACF图，可以初步确定 pp 和 qq 的值。

AIC/BIC准则

另外一种常用的方法是利用信息准则如AIC (Akaike Information Criterion) 或 BIC (Bayesian Information Criterion) 来选择最佳的 pp 和 qq 值。通常，我们会尝试一系列不同的 pp 和 qq 组合，并选择使得AIC或BIC最小的那个组合。

Python脚本

from statsmodels.tsa.arima.model import ARIMA

# 尝试多个p, d, q组合
best_aic = np.inf
best_order = None
best_model = None

for p in range(3):
    for d in range(2):
        for q in range(3):
            try:
                model = ARIMA(series, order=(p, d, q))
                model_fit = model.fit()
                if model_fit.aic < best_aic:
                    best_aic = model_fit.aic
                    best_order = (p, d, q)
                    best_model = model_fit
            except:
                continue

print('Best ARIMA%s AIC=%.3f' % (best_order, best_aic))

模型诊断

在选择了初步的 p,d,qp,d,q 参数后，还需要对拟合出的模型进行诊断检查：

残差分析：检查残差是否为白噪声。如果残差具有显著的自相关性，则说明模型未能完全捕捉数据中的信息。
Ljung-Box检验：用于检验残差的自相关性。如果p值较大，则说明残差接近于白噪声。

示例代码

使用statsmodels库来构建和拟合ARIMA模型，并进行预测。确保你已经安装了必要的库，如pandas、numpy、matplotlib和statsmodels。

首先，安装所需的库（如果尚未安装）：

pip install pandas numpy matplotlib statsmodels

代码示例

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.tsa.stattools import adfuller
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.arima.model import ARIMA

# 加载数据集（这里我们使用一个虚拟的数据集作为例子）
# 你可以替换为自己的时间序列数据集
np.random.seed(42)
data = pd.Series(np.cumsum(np.random.randn(100)) + 100)

# 绘制原始时间序列图
plt.figure(figsize=(10, 6))
plt.plot(data, label='Original')
plt.title('Time Series Data')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()

# 进行ADF检验以检查平稳性
result = adfuller(data)
print(f'ADF Statistic: {result[0]}')
print(f'p-value: {result[1]}')

# 如果数据非平稳，则进行差分处理
data_diff = data.diff().dropna()

# 绘制一阶差分后的时间序列图
plt.figure(figsize=(10, 6))
plt.plot(data_diff, label='Differenced', color='red')
plt.title('Differenced Time Series Data')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()

# 使用ACF和PACF图确定ARIMA模型参数(p,d,q)
plot_acf(data_diff)
plot_pacf(data_diff)
plt.show()

# 假设根据ACF和PACF图选择了以下参数：p=1, d=1, q=1
# 构建并拟合ARIMA模型
model = ARIMA(data, order=(1, 1, 1))
model_fit = model.fit()

# 打印模型摘要
print(model_fit.summary())

# 检查残差是否为白噪声
residuals = model_fit.resid
plt.figure(figsize=(10, 6))
plt.plot(residuals)
plt.title('Residuals from ARIMA Model')
plt.xlabel('Time')
plt.ylabel('Residuals')
plt.show()

# 进行预测
forecast_steps = 10  # 预测未来10个时间点
forecast = model_fit.forecast(steps=forecast_steps)

# 绘制预测结果
plt.figure(figsize=(10, 6))
plt.plot(data.index, data.values, label='Historical Data')
plt.plot(pd.date_range(data.index[-1], periods=forecast_steps+1, freq=data.index.freq)[1:], forecast, label='Forecast', color='green')
plt.title('Forecast using ARIMA Model')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()