机器学习实战 | 股票价格预测项目(深度学习初级)

news2024/11/25 13:50:19

目录

  • 简介
  • 技术流程
    • 1. 载入依赖包
    • 2. 读取数据集
    • 3. 从数据集中分析价格
    • 4. 对数据排序
    • 5. 数据标准化
    • 6. 创建、训练和保存LSTM网络
    • 7. 使用LSTM模型进行股票价格预测
    • 8. 可视化预测和实际结果
  • 完整程序

简介

准备写个系列博客介绍机器学习实战中的部分公开项目。首先从初级项目开始。


本文为初级项目第三篇:利用MNIST数据集训练手写数字分类。
项目原网址为:Stock Price Prediction – Machine Learning Project in Python。

第一篇为:机器学习实战 | emojify 使用Python创建自己的表情符号(深度学习初级)
第二篇为:机器学习实战 | MNIST手写数字分类项目(深度学习初级)

技术流程

项目构想

机器学习在股票价格预测中具有重要应用。在这个机器学习项目中,我们将讨论预测股票价格。这是一项非常复杂的任务,并且具有不确定性。
我们将学习如何使用 LSTM 神经网络预测股票价格。

1. 载入依赖包

import matplotlib
matplotlib.use('Qt5Agg')  # 防止画图时画图软件崩溃

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

from matplotlib.pylab import rcParams

rcParams['figure.figsize'] = 20, 10  # 设置画板尺寸
from keras.models import Sequential
from keras.layers import LSTM, Dropout, Dense

from sklearn.preprocessing import MinMaxScaler

项目中主要用了pandassklearnKerasTensorFlow包,pandassklearn安装命令为:

pip install pandas
pip install scikit-learn

KerasTensorFlow的安装命令为:

pip install keras==2.10.0
pip install TensorFlow==2.10.0

在最后输出结果的时候发现每次画图软件都崩溃导致程序中断,解决办法就是在前面加上这句话:matplotlib.use('Qt5Agg') ,防止画图时画图软件崩溃。

2. 读取数据集

df = pd.read_csv("NSE-TATA.csv")  # 读取.csv文件
df.head()  # 默认只读取dataframe数据表中前5行内容

为了构建股票价格预测模型,我们将使用 NSE-TATA数据集。这是来自印度国家证券交易所塔塔全球饮料有限公司的塔塔饮料数据集,官方网址可能不好下载,这里给出了数据集下载地址:NSE-TATA数据集。

  • df.head():读取dataframe数据表,默认只读取dataframe数据表中前5行内容

3. 从数据集中分析价格

df["Date"] = pd.to_datetime(df.Date, format="%Y-%m-%d")  # 将一个字符串解析为时间,并指定字符串的格式
df.index = df['Date']

plt.figure(figsize=(8, 4))  # 指定图片大小
plt.plot(df["Close"], label='Close Price history')  # 绘图展示历史数据
  • pd.to_datetime:将字符串解析为时间,并指定字符串的格式
  • plt.plot: 绘图展示历史数据,绘图结果为:
    在这里插入图片描述

4. 对数据排序

data = df.sort_index(ascending=True, axis=0)  # 索引排序:默认按行从小到大
new_dataset = pd.DataFrame(index=range(0, len(df)), columns=['Date', 'Close'])  # 创建新的数据集

for i in range(0, len(data)):
    new_dataset["Date"][i] = data['Date'][i]
    new_dataset["Close"][i] = data["Close"][i]
  • df.sort_index:对数据进行排序,默认按照从小到大、按行排序
  • pd.DataFrame:创建新的数据集,用object类保存数据。pandas(pd)数据类型,类似字典,可以直接按照名称、索引寻找数据。

5. 数据标准化

final_dataset = new_dataset.values  # 读取新数据的数值

train_data = final_dataset[0:987, :]
valid_data = final_dataset[987:, :]

new_dataset.index = new_dataset.Date
new_dataset.drop("Date", axis=1, inplace=True)  # 删除Date行头,只保留数据
scaler = MinMaxScaler(feature_range=(0, 1))  # 数据归一化,创建MinmaxScaler实例,归一化区间[0,1]
scaled_data = scaler.fit_transform(new_dataset)  # 执行数据归一化操作,输出归一化后的数据

x_train_data, y_train_data = [], []

for i in range(60, len(train_data)):
    x_train_data.append(scaled_data[i - 60:i, 0])
    y_train_data.append(scaled_data[i, 0])

x_train_data, y_train_data = np.array(x_train_data), np.array(y_train_data)

x_train_data = np.reshape(x_train_data, (x_train_data.shape[0], x_train_data.shape[1], 1))
  • drop:删除指定航头,只保留数据
  • MinMaxScaler:sklearn.preprocessing.MinMaxScaler(),将数据归一化,创建实例,括号中表示归一化区间
  • fit_transform:执行归一化操作,输入参数为待归一化数据

6. 创建、训练和保存LSTM网络

lstm_model = Sequential()
lstm_model.add(LSTM(units=50, return_sequences=True, input_shape=(x_train_data.shape[1], 1)))
lstm_model.add(LSTM(units=50))
lstm_model.add(Dense(1))

lstm_model.compile(loss='mean_squared_error', optimizer='adam')
lstm_model.fit(x_train_data, y_train_data, epochs=1, batch_size=1, verbose=2)
lstm_model.save("saved_model.h5")

经过机器学习实战初级项目第一课和第二课后,这段话就很好看懂了:编译-训练-保存权重的过程。输入参数细节这里就不再介绍了,下面只简单描述一下编译、训练和保存函数。

  • complie: 编译神经网络结构,参数包括:loss,字符串结构,指定损失函数(包括MSE等);optimizer,表示优化方式(优化器),用于控制梯度裁剪;metrics,列表,用来衡量模型指标,表示评价指标。
  • fit: 在搭建完成后,将数据送入模型进行训练。参数包括:
  1. x:训练数据输入;
  2. y:训练数据输出;
  3. batch_size: batch样本数量,即训练一次网络所用的样本数;
  4. epochs:迭代次数,即全部样本数据将被“轮”多少次,轮完训练停止;
  5. verbose:可选训练过程中信息是否输出参数,0表示不输出信息,1表示显示进度条(一般默认为1),2表示每个epoch输出一行记录;
  • save: 保存训练模型权重,训练成功后,会在源目录下保存saved_model.h5文件,即为权重文件。

7. 使用LSTM模型进行股票价格预测

inputs_data = new_dataset[len(new_dataset) - len(valid_data) - 60:].values
inputs_data = inputs_data.reshape(-1, 1)
inputs_data = scaler.transform(inputs_data)

X_test = []
for i in range(60, inputs_data.shape[0]):
    X_test.append(inputs_data[i - 60:i, 0])
X_test = np.array(X_test)

X_test = np.reshape(X_test, (X_test.shape[0], X_test.shape[1], 1))

predicted_closing_price = lstm_model.predict(X_test)
predicted_closing_price = scaler.inverse_transform(predicted_closing_price)

这段话的意思是首先筛选/构建测试数据集,保存在X_test中,接着利用predict函数对测试数据进行预测,预测结果保存在predicted_closing_price中。

  • predict:利用训练好的模型权重lstm_model,对测试数据进行预测。

8. 可视化预测和实际结果

train_data = new_dataset[:987]
valid_data = new_dataset[987:]
valid_data['Predictions'] = predicted_closing_price

plt.plot(train_data["Close"])
plt.plot(valid_data[['Close', "Predictions"]])
plt.show()

将训练数据和测试数据画到一幅图中,同时展示股票预测结果和真实结果。

完整程序

train.py: 训练程序,输出结果saved_model.h5保存在项目源目录下。

"""
stock price prediction
"""
"""
1. imports
"""

import matplotlib
matplotlib.use('Qt5Agg')  # 防止画图时画图软件崩溃

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

from matplotlib.pylab import rcParams

rcParams['figure.figsize'] = 20, 10  # 设置画板尺寸
from keras.models import Sequential
from keras.layers import LSTM, Dropout, Dense

from sklearn.preprocessing import MinMaxScaler

"""
2. read the dataset
"""
df = pd.read_csv("NSE-TATA.csv")  # 读取.csv文件
df.head()  # 默认只读取dataframe数据表中前5行内容

"""
3. analyze the closing prices from dataframe
"""
df["Date"] = pd.to_datetime(df.Date, format="%Y-%m-%d")  # 将一个字符串解析为时间,并指定字符串的格式
df.index = df['Date']

plt.figure(figsize=(8, 4))  # 指定图片大小
plt.plot(df["Close"], label='Close Price history')  # 绘图展示历史数据

"""
4. sort the dataset on data time and filter "data" and "close" columns
"""
data = df.sort_index(ascending=True, axis=0)  # 索引排序:默认按行从小到大
new_dataset = pd.DataFrame(index=range(0, len(df)), columns=['Date', 'Close'])  # 创建新的数据集

for i in range(0, len(data)):
    new_dataset["Date"][i] = data['Date'][i]
    new_dataset["Close"][i] = data["Close"][i]

"""
5. normalize the new filtered dataset
"""
final_dataset = new_dataset.values  # 读取新数据的数值

train_data = final_dataset[0:987, :]
valid_data = final_dataset[987:, :]

new_dataset.index = new_dataset.Date
new_dataset.drop("Date", axis=1, inplace=True)  # 删除Date行头,只保留数据
scaler = MinMaxScaler(feature_range=(0, 1))  # 数据归一化,创建MinmaxScaler实例,归一化区间[0,1]
scaled_data = scaler.fit_transform(new_dataset)  # 执行数据归一化操作,输出归一化后的数据

x_train_data, y_train_data = [], []

for i in range(60, len(train_data)):
    x_train_data.append(scaled_data[i - 60:i, 0])
    y_train_data.append(scaled_data[i, 0])

x_train_data, y_train_data = np.array(x_train_data), np.array(y_train_data)

x_train_data = np.reshape(x_train_data, (x_train_data.shape[0], x_train_data.shape[1], 1))

"""
6. build and train the LSTM model
"""
lstm_model = Sequential()
lstm_model.add(LSTM(units=50, return_sequences=True, input_shape=(x_train_data.shape[1], 1)))
lstm_model.add(LSTM(units=50))
lstm_model.add(Dense(1))

lstm_model.compile(loss='mean_squared_error', optimizer='adam')
lstm_model.fit(x_train_data, y_train_data, epochs=1, batch_size=1, verbose=2)

lstm_model.save("saved_model.h5")  # save the LSTM model

"""
7. take a sample of a dataset to make stock price predictions using the LSTM model
"""
inputs_data = new_dataset[len(new_dataset) - len(valid_data) - 60:].values
inputs_data = inputs_data.reshape(-1, 1)
inputs_data = scaler.transform(inputs_data)

X_test = []
for i in range(60, inputs_data.shape[0]):
    X_test.append(inputs_data[i - 60:i, 0])
X_test = np.array(X_test)

X_test = np.reshape(X_test, (X_test.shape[0], X_test.shape[1], 1))
predicted_closing_price = lstm_model.predict(X_test)
predicted_closing_price = scaler.inverse_transform(predicted_closing_price)

"""
8. visualize the predicted stock costs with actual stock costs
"""
train_data = new_dataset[:987]
valid_data = new_dataset[987:]
valid_data['Predictions'] = predicted_closing_price
plt.plot(train_data["Close"])
plt.plot(valid_data[['Close', "Predictions"]])
plt.show()

运行后测试结果为:

在这里插入图片描述
该图中左侧黄色曲线表示训练数据,右侧红色曲线和绿色曲线分别表示股票价格真实结果和预测结果。
从图中可以看出, LSTM 预测股票价格与实际股票价格基本一致。


如有问题,欢迎指出和讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/740667.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

面试题之spring源码

IOC的底层原理 : Spring是如何循环依赖的。(三级缓存,提前曝光): 循环依赖的定义:循环依赖就是循环引用,也就是两个或两个以上bean对象互相持有对方,最终形成闭环,比如A依赖B,B依赖C…

文件夹加密软件怎么选?文件夹加密软件盘点

文件夹是电脑储存数据的重要工具,那么该如何保护文件夹的数据安全呢?使用合适的文件夹加密软件可能是最简单的方法。那么文件夹加密软件该怎么选呢? 文件夹加密超级大师 文件夹加密超级大师可以说是最全能的文件夹加密软件,它拥有…

自己编写chrome插件

1.首先你需要一个menifest.json文件 {"manifest_version": 3,"name": "My Extension","version": "2.0","action": {"default_popup": "popup.html","default_icon": "icon.…

winform弹出消息自动消失

winform弹出消息自动消失 弹出消息后,在指定时间毫秒后消失.消息中包含异常消息,自动一直展示,点击关闭显示; 效果如图 using System; using System.Collections.Generic; using System.Text; using System.Threading.Tasks;usi…

保姆级系列教程-玩转Fiddler抓包教程(1)-HTTP和HTTPS基础知识

1.简介 有的小伙伴或者童鞋们可能会好奇地问,不是讲解和分享抓包工具了怎么这里开始讲解HTTP和HTTPS协议了。这是因为你对HTTP协议越了解,你就能越掌握Fiddler的使用方法,反过来你越使用Fiddler,就越能帮助你了解HTTP协议。 Fid…

全网最全,项目管理工具大合集!

早上好,我是老原。 很久没给大家更新工具,本以为之前更新的也够大家用了,没想到还是有很多小友来私信老原好用工具。 关注我比较久的粉丝都知道,我提倡的工具在精不在多,更多的把精力放在自身上,还有啥不…

Vue使用百度地图API详细教程

Vue使用百度地图详细教程 先提供几个文档 Vue-Baidu-map文档:https://dafrok.github.io/vue-baidu-map/#/zh/index 百度地图JavaScript文档:https://lbsyun.baidu.com/index.php?titlejspopularGL 1、申请百度API密钥 控制台->应用管理->我的应…

博途字符串和FIFO编程应用(SCL源代码)

FIFO的其它介绍请参看下面文章链接: PLC堆栈(FIFO)操作之栈级联_三菱plc控制系统的堆栈的工作原理_RXXW_Dor的博客-CSDN博客这篇博文主要讲下各种缓存栈的级联,提供一个分析问题的扩展思路,这个级联什么时候适合在项目里使用需要具体分析。级联实现数据队列的一级级递推传送…

Redis 安装

目录 1、准备安装环境 2、上传安装文件 3、解压安装文件 4、进入安装目录 5、运行编译命令 6、前台启动 ​编辑7、后台启动 8、验证服务 9、关闭服务 10、开启启动 1、准备安装环境 由于 Redis 是基于 C 语言编写的,因此首先需要安装 Redis 所需要的依赖…

Python(一):为什么我们要学习Python?

❤️ 专栏简介:本专栏记录了我个人从零开始学习Python编程的过程。在这个专栏中,我将分享我在学习Python的过程中的学习笔记、学习路线以及各个知识点。 ☀️ 专栏适用人群 :本专栏适用于希望学习Python编程的初学者和有一定编程基础的人。无…

星辰天合受邀参加 2023 全球数字经济大会

7 月 4 日至 7 日,以“数据驱动发展,智能引领未来”为主题的2023全球数字经济大会在北京隆重举办。作为国内技术领先的数据基础设施提供商,星辰天合以北京优秀信创企业代表的身份,受北京信息化协会邀请,参加了 2023 全…

ICC2:copy block方法

open_lib new.nlib open_lib old_lib copy_block -from_block old_block -to_block new.nlib:old_block save_lib new.nlib close_lib 如果是从同一个lib下的block copy到同个lib里,那就open_lib后直接copy就好了,操作时用current_block new_name_b…

多元回归预测 | Matlab基于高斯过程回归(GPR)的数据回归预测,matlab代码,多变量输入模型

文章目录 效果一览文章概述部分源码参考资料效果一览 文章概述 多元回归预测 | Matlab基于高斯过程回归(GPR)的数据回归预测,matlab代码,多变量输入模型 评价指标包括:MAE、RMSE和R2等,代码质量极高,方便学习和替换数据。要求2018版本及以上。 部分源码

STM32 Proteus仿真LCD12864俄罗斯方块-FZ0063

STM32 Proteus仿真LCD12864俄罗斯方块-FZ0063 Proteus仿真小实验: STM32 Proteus仿真LCD12864俄罗斯方块-FZ0063 功能: 硬件组成:STM32F103R6单片机 LCD12864显示器多个按键 1.标准俄罗斯方块经典游戏玩法,带计时&#xff0c…

计数排序 (Counting Sort)_20230709

计数排序(Counting Sort) 前言 计数排序的对象一般为分布在[0-k]范围内的非负整数,计数器类似哈希函数的线性映射,它确定了数值本身和它在序列中的总数量之间的基本关系。它的本质是计算某个数在临时序列中(原序列大小相同,但下…

零售业未来如何破局?抓住数智化经营的两把利刃!

导语 | 数字化转型浪潮席卷了千行百业,有人从中看出了汹涌的挑战,也有人从中嗅出了美妙的商机。对于零售企业而言,当前数智经营进入了哪个阶段?未来的破局之道又在何方?我们邀请到了广东省 CIO 协会消费品与零售行业分…

API接口知识小结(电商API接入)

应用程序接口API(Application Programming Interface),是提供特定业务输出能力、连接不同系统的一种约定。这里包括外部系统与提供服务的系统(中后台系统)或后台不同系统之间的交互点。包括外部接口、内部接口&#xf…

Redis专题学习(一)Redis核心数据结构实战与高性能原理剖析

redis是key-value的存储格式, key是string类型的, value可以有五种基本的数据结构:string、hash、list、set、zset 来看看 这5中基本数据类型的基本使用和应用 一.字符串string string是最常见和最基本的数据结构 基本使用: …

leetcode 501. 二叉搜索树中的众数

2023.7.10 这道题我的思路是适用于任意二叉树的思路&#xff1a; 先用任意一个遍历方法将节点保存至map<int,int>中&#xff0c;key为节点值&#xff0c;value为频率。由于map没有对value&#xff08;频率&#xff09;排序的方法&#xff0c;所以将map的键值对转移至vec…

TCP协议三次握手的抓包模拟

三次握手(Three-way Handshake)&#xff0c;是指建立一个 TCP 连接时&#xff0c;需要客户端和服务器总共发送3个包。 第一次握手([SYN], Seq x) 客户端发送一个SYN标记的包&#xff0c;Seq初始序列号x&#xff0c;发送完成后客户端进入SYN_SEND状态。 第二次握手([SYN,ACK]…