LSTM时间序列模型实战——预测上证指数走势
关于作者
作者:小白熊
作者简介:精通python、matlab、c#语言,擅长机器学习,深度学习,机器视觉,目标检测,图像分类,姿态识别,语义分割,路径规划,智能优化算法,数据分析,各类创新融合等等。
联系邮箱:xbx3144@163.com
科研辅导、知识付费答疑、个性化定制以及其他合作需求请联系作者~
前言
时间序列预测在金融市场的分析和建模中占有重要地位,尤其是在股票价格、指数的波动预测中。本文将带领大家从数据预处理、基于TensorFlow的LSTM模型构建与训练,到最终预测结果的可视化,深入探讨如何使用LSTM模型预测上证指数的收盘价走势。
一、环境配置
首先,需要确保安装以下python库。这些库可以通过以下命令进行安装:pip install numpy pandas matplotlib scikit-learn tensorflow openpyxl
- numpy:用于数值计算,支持多维数组和矩阵操作。
- pandas:数据处理工具,用于读取Excel、CSV等数据文件,并提供数据清洗、转换功能。
- matplotlib:用于绘制图形,可视化数据。
- scikit-learn:用于数据标准化、特征提取等机器学习操作。
- tensorflow:神经网络框架,支持深度学习模型的构建和训练。
- openpyxl:读取和操作表格文件。
在代码中,导入上述库:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dropout, Dense, Activation
# 正常显示中文
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
二、读取数据
在进行时间序列预测前,需要读取并预处理数据。其中数据文件名为data.xlsx
,其中包含了上证指数的历史数据(获取数据请私信博主)。
# 读取数据
data_all = pd.read_excel('data.xlsx', header=0, index_col=0)
# 检测缺失值
missing_values = data_all.isnull()
# 打印缺失值数量
print("缺失值的数量:")
print(missing_values.sum())
本文使用pandas
库读取数据文件,并通过isnull()
函数检查数据中的缺失值:
缺失值的存在可能会对模型的性能产生负面影响,在下一步骤中将会对其进行处理!
三、异常值处理与缺失值填充
为了确保数据的质量,需要去除异常值并填补缺失值。异常值指的是那些远离正常分布范围的数据点。缺失值使用interpolate()
函数对缺失值进行插值填充。
# 去除异常值:基于均值和标准差的阈值法
threshold = 5
data_new = data_all[(data_all > data_all.mean() - threshold * data_all.std()) & (
data_all < data_all.mean() + threshold * data_all.std())]
# 使用插值法填充缺失值
data_new = data_new.interpolate(limit=150)
本文定义了一个阈值 threshold
,基于均值和标准差去除偏离正常范围的异常值。当阈值 threshold
等于 5 时,则认为一个数据点如果偏离了数据均值 ±5倍标准差,就会被视为异常值。
四、特征提取与标准化
本文的LSTM模型是多输入模型,需要提供输入特征和对应的标签。我们将收盘价收盘价_Clpr
作为预测的标签,其他特征作为输入。同时,还需要对数据进行标准化处理,使其具有相同的尺度。
# 提取特征和标签
features = data_new.drop(['收盘价_Clpr'], axis='columns')
labels = data_new['收盘价_Clpr']
# 重组特征和标签
labels = labels.values.reshape(-1, 1)
features = features.values
# 对特征和标签进行标准化处理
scaler_x, scaler_y = StandardScaler(), StandardScaler()
features = scaler_x.fit_transform(features)
labels = scaler_y.fit_transform(labels)
本文使用StandardScaler
对特征和标签数据进行标准化处理,以消除特征间的量纲差异,确保模型在训练时不会偏向某些特征。
五、划分训练集与验证集
为了评估模型的性能,我们需要将数据集划分为训练集和验证集。通常情况下,我们使用80%的数据作为训练集,20%的数据作为验证集。
# 划分训练集和验证集
train_size = int(len(features) * 0.8)
val_size = len(features) - train_size
x_train, x_val = features[0:train_size, :], features[train_size:, :]
y_train, y_val = labels[0:train_size, :], labels[train_size:, :]
通过上述代码,我们将数据分为训练集(x_train
和y_train
)以及验证集(x_val
和y_val
)。
六、构建时间序列数据
由于LSTM模型适用于处理时间序列数据,因此我们需要将数据转换为时间序列格式。通过自定义get_data
函数,我们可以构建过去若干时间步的数据作为输入,未来若干时间步的数据作为目标标签。
def get_data(dataset_x, dataset_y, n_past, n_future):
dataX = []
dataY = []
for i in range(n_past, len(dataset_x) - n_future):
dataX.append(dataset_x[i - n_past:i, :])
dataY.append(dataset_y[i:i + n_future, 0])
return np.array(dataX), np.array(dataY)
# 定义过去和未来的时间步数
n_past = 20
n_future = 5
# 构建训练集和验证集的时间序列数据
x_train_lstm, y_train_lstm = get_data(x_train, y_train, n_past, n_future)
x_val_lstm, y_val_lstm = get_data(x_val, y_val, n_past, n_future)
在这个例子中,n_past=20
代表将过去20天的数据作为LSTM的输入,n_future=5
代表将未来5天的数据作为LSTM的输出。自定义函数get_data
会返回适合LSTM模型的时间序列格式数据。
七、LSTM模型的构建
LSTM(长短期记忆网络)是一种特殊的RNN(循环神经网络)。不同于传统RNN随着时间步长的增加,网络难以保持对早期输入信息的敏感性,导致梯度消失或爆炸问题。LSTM则通过引入以下三种门控机制来克服这些问题:
- 遗忘门:控制当前记忆单元应该保留多少信息。
- 输入门:决定当前时间步的输入有多少能被存储到记忆单元中。
- 输出门:控制记忆单元中多少信息将用于当前时间步的输出。
LSTM的记忆单元使其在处理长序列数据时效果尤为突出。LSTM模型结构通过以下代码实现:
# 初始化LSTM模型
model = Sequential()
# 第一层LSTM
model.add(LSTM(64, input_shape=(x_train_lstm.shape[1], x_train_lstm.shape[-1]), return_sequences=True))
model.add(Dropout(0.2)) # Dropout层,用于防止过拟合
# 第二层LSTM
model.add(LSTM(32, return_sequences=False))
model.add(Dropout(0.2))
# 全连接层
model.add(Dense(5)) # 输出维度为5,即预测未来5天的收盘价
model.add(Activation('linear')) # 使用线性激活函数
# 编译模型
model.compile(loss='mse', optimizer='rmsprop')
八、训练模型
利用编译好的LSTM模型进行训练。本文将模型训练300轮,并在每轮结束时通过验证集评估模型性能。
e# 训练模型
history = model.fit(x_train_lstm, y_train_lstm, epochs=300, batch_size=128, validation_data=(x_val_lstm, y_val_lstm))
在训练过程中,模型会记录每次迭代的训练误差和验证误差,这些数据可以用于后续的性能分析。
九、模型评估与预测
在训练完成后,我们可以通过绘制损失曲线来评估模型的收敛情况:
# 提取训练和验证损失值
loss = history.history['loss']
val_loss = history.history['val_loss']
# 绘制损失曲线
plt.plot(range(len(loss)), loss, 'b-', label='训练集损失')
plt.plot(range(len(loss)), val_loss, 'r-', label='验证集损失')
plt.legend(loc='best')
plt.title('LSTM模型损失曲线')
plt.xlabel('迭代次数')
plt.ylabel('均方误差 (MSE)')
plt.show()
结果如下:
接下来,使用训练好的LSTM模型进行预测:
# 进行预测
y_train_pred = model.predict(x_train_lstm)
y_val_pred = model.predict(x_val_lstm)
# 反标准化预测结果
y_train_pred = scaler_y.inverse_transform(y_train_pred)
y_val_pred = scaler_y.inverse_transform(y_val_pred)
# 绘制预测结果与真实值
plt.plot(np.arange(len(labels)), scaler_y.inverse_transform(labels), color='red', label='真实值')
plt.plot(np.arange(n_past, len(y_train) - n_future), y_train_pred[:, 0], color='green', label='训练集预测')
plt.plot(np.arange(len(y_train) + n_past, len(labels) - n_future), y_val_pred[:, 0], color='blue', label='验证集预测')
plt.title('上证指数-LSTM预测')
plt.xlabel('天数')
plt.ylabel('收盘价')
plt.legend()
plt.show()
结果如下:
结束语
本文详细介绍了如何使用LSTM模型预测上证指数收盘价。从数据预处理、特征提取、模型构建到预测和评估,逐步展示了时间序列预测的全过程。希望对你有所帮助!