用Python实现时间序列模型实战——Day 23: LSTM 与 RNN 模型的深入学习

news2025/7/14 17:16:29

一、学习内容

1. 深入理解 LSTM 和 RNN 模型的工作原理

LSTM 和 RNN 模型都擅长处理时间序列数据，但它们在处理长序列时遇到了一些问题，比如 梯度消失 和 梯度爆炸。LSTM 通过 门控机制 改进了传统 RNN 的缺陷，但在处理非常长的序列时仍可能遇到效率和性能问题。

2. 常见问题及解决方法

梯度消失：随着序列长度增加，反向传播时梯度逐渐变小，模型难以学习远端依赖关系。
长序列建模：LSTM 可以捕捉较长序列的依赖关系，但如果序列过长，LSTM 也会遇到性能瓶颈。

3. 高级技巧优化 LSTM 和 RNN 模型

双向 LSTM (Bidirectional LSTM)：

双向 LSTM 是一种改进的模型，它不仅考虑过去的状态，还同时考虑未来的状态。通过双向遍历序列，双向 LSTM 更好地捕捉全局信息。
堆叠 LSTM (Stacked LSTM)：

堆叠 LSTM 是指将多层 LSTM 堆叠在一起，增强模型的表达能力，适合处理复杂的时间序列问题。
注意力机制 (Attention Mechanism)：

注意力机制通过赋予输入序列中不同位置的权重，使得模型能够更加关注关键时间步长，特别适合处理长序列任务。

二、实战案例

我们将使用双向 LSTM 和堆叠 LSTM 来对时间序列数据进行建模。数据仍然使用航空乘客数据集。Python 代码如下：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM, Bidirectional
from tensorflow.keras.layers import Attention, TimeDistributed, RepeatVector

# 1. 数据加载与预处理
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/airline-passengers.csv'
data = pd.read_csv(url, header=0, parse_dates=['Month'], index_col='Month')

# 数据归一化处理
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = scaler.fit_transform(data[['Passengers']])

# 生成输入序列
def create_sequences(data, seq_length):
    X, y = [], []
    for i in range(len(data) - seq_length):
        X.append(data[i:i+seq_length])
        y.append(data[i+seq_length])
    return np.array(X), np.array(y)

seq_length = 10
X, y = create_sequences(scaled_data, seq_length)

# 将数据集分为训练集和测试集
train_size = int(len(X) * 0.8)
X_train, X_test = X[:train_size], X[train_size:]
y_train, y_test = y[:train_size], y[train_size:]

# 2. 双向 LSTM 模型
bidirectional_model = Sequential()
bidirectional_model.add(Bidirectional(LSTM(50, activation='relu'), input_shape=(X_train.shape[1], X_train.shape[2])))
bidirectional_model.add(Dense(1))
bidirectional_model.compile(optimizer='adam', loss='mse')

# 训练双向 LSTM 模型
bidirectional_model.fit(X_train, y_train, epochs=100, batch_size=32, verbose=0)

# 进行预测
bi_preds = bidirectional_model.predict(X_test)
bi_preds_rescaled = scaler.inverse_transform(bi_preds)

# 3. 堆叠 LSTM 模型
stacked_lstm_model = Sequential()
stacked_lstm_model.add(LSTM(50, activation='relu', return_sequences=True, input_shape=(X_train.shape[1], X_train.shape[2])))
stacked_lstm_model.add(LSTM(50, activation='relu'))
stacked_lstm_model.add(Dense(1))
stacked_lstm_model.compile(optimizer='adam', loss='mse')

# 训练堆叠 LSTM 模型
stacked_lstm_model.fit(X_train, y_train, epochs=100, batch_size=32, verbose=0)

# 进行预测
stacked_preds = stacked_lstm_model.predict(X_test)
stacked_preds_rescaled = scaler.inverse_transform(stacked_preds)

# 4. 结果可视化
plt.figure(figsize=(12, 6))
plt.plot(data.index[-len(y_test):], scaler.inverse_transform(y_test.reshape(-1, 1)), label='Actual Passengers')
plt.plot(data.index[-len(y_test):], bi_preds_rescaled, label='Bidirectional LSTM Predictions')
plt.plot(data.index[-len(y_test):], stacked_preds_rescaled, label='Stacked LSTM Predictions')
plt.title('Bidirectional LSTM vs Stacked LSTM Predictions')
plt.xlabel('Date')
plt.ylabel('Number of Passengers')
plt.legend()
plt.grid(True)
plt.show()