【量化交易笔记】7.基于随机森林预测股票价格

news2024/11/24 2:47:13

前言

机器学习在量化交易主要有两方面的应用,第一就是用时间序列的日频数据来预测未来的股价,第二 用截面数据来预测收益,现在量化基因的因子都基于这个模型。
接下来,我分别来说明,机器学习分成预测结果分成分类和回归。本章,就以随机森林来做未来某天的股价,是一种典型的回归分析方法,如果预测股价的涨跌就是分类问题。在这里有很多坑,我帮小伙伴一一填平。

获取数据

这部分内容,在之前的章节有详细说明,现以sh.60000为例,从2019年1月1日 到至今天(2023-5-31)。

# 加载相应的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus']=False
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import make_scorer,mean_squared_error,mean_absolute_error
# 加载数据
df=pd.read_csv("data/sh.600000.csv",parse_dates=["date"],index_col=[0])
df.head()
datecodeopenhighlowclosepreclosevolumeamountadjustflagturntradestatuspctChgisST
2019-01-02sh.6000008.0793118.1207857.9465918.0461318.12908023762822229625669.020.0845541-1.0204120
2019-01-03sh.6000008.0461318.1456708.0129518.1373758.04613118654262181975985.020.06637611.1340270
2019-01-04sh.6000008.0710168.2949808.0461318.2618008.13737527172844268964563.020.09668811.5290480
2019-01-07sh.6000008.3696358.3696358.2286208.2783908.26180023597376235440197.020.08396510.2007980
2019-01-08sh.6000008.3198658.3198658.2203258.2618008.27839015104933150501650.020.0537471-0.2003960

分离数据

由于是时间序列,特征选 'open','high','low','close','volume','turn',我们目标值(标签)需要进行一处理,我们就选用30天后的收盘价。利用shitt函数,即data.close.shift(-30)

cols=['open','high','low','close','volume','turn']
data=df[cols]
data['target']=data.close.shift(-30)

将数据集拆分为训练集、验证集和测试集。由于这个数据集是时间序列,决不能不能用train_test_split 进行分拆数据。

train=data[data.index<='2022-12-31']
vali=data[data.index>'2022-12-31'][:-30]
test=data[-30:]

建模

X_train,X_valid,y_train,y_valid=train.iloc[:,:-1],valid.iloc[:,:-1],train.target,valid.target
rfr=RandomForestRegressor()
rfr.fit(X_train,y_train)
y_pred = rfr.predict(X_train)
y_valpred=rfr.predict(X_valid)

评估

print('MSE:',mean_squared_error(y_train,y_pred),mean_squared_error(y_valid,y_valpred))
print('MAE:',mean_absolute_error(y_train,y_pred),mean_absolute_error(y_valid,y_valpred))

MSE: 0.024523304572707856 0.148004080839963
MAE: 0.11476424162232533 0.31643676975294

从MSE和 MAE来看,值并不大。但从最后一天的收盘价为7.39来看,0.316 这个偏差也算够大的了。

作图

plt.figure(figsize=(10, 8))
plt.title("股票收盘价格")
plt.xticks(y_valid.index)
plt.plot(y_valid.values, label="真实")
plt.plot(y_valpred, label="预测")
plt.legend()
plt.show()

在这里插入图片描述

预测

y_pred=rfr.predict(test.iloc[:,:-1])
y_pred

array([7.25712055, 7.40309288, 7.40801386, 7.43678256, 7.48561795,
7.45129724, 7.35071418, 7.41735554, 7.40655025, 7.5429179 ,
7.44490355, 7.45728217, 7.74914538, 7.54671586, 7.50899764,
7.4850967 , 7.42395024, 7.55281253, 7.48490723, 7.46983359,
7.47770723, 7.52752326, 7.39138246, 7.39152939, 7.44892407,
6.8768 , 7.23216313, 7.45918674, 7.47948684, 7.21223155])
这里的数据即预测未来30天的值。

小结

以上是用随机森林作的一个预测方法,仅此而以。上面的数据是用当天的6个特征值预测未来30天的结果,可想而知。下面在此基础上我们做如下修改,采用前面30天的部分数据来预测第二天的收盘价。

数据处理

原始数据还是与上面一样,在数据分离做进一步处理。
为了方便说明问题,简化部分数据处理,如想更加详细的说明,后继将有 LSTM 预测股票的价格的文章。
原来的数据只有6列特征,在此基本上增加29列之前每天的收盘价数据一起作为特征。

cols=['open','high','low','close','volume','turn']
data=df[cols]
# 添加前29天的收盘价数据
for i in range(1,30):
    data['R_%d'%i]=df.close.shift(i)
#第二收盘价作为目标
data['target']=data.close.shift(-1) 
#删除空缺值
data=data.dropna()

数据分离

train=data[data.index<='2022-12-31']
valid=data[data.index>'2022-12-31'][:-30]
test=data[-30:]
X_train,X_valid,y_train,y_valid=train.iloc[:,:-1],valid.iloc[:,:-1],train.target,valid.target

建模和评估

rfr=RandomForestRegressor()
rfr.fit(X_train,y_train)
y_pred = rfr.predict(X_train)
y_valpred=rfr.predict(X_valid)
print('MSE:',mean_squared_error(y_train,y_pred),mean_squared_error(y_valid,y_valpred))
print('MAE:',mean_absolute_error(y_train,y_pred),mean_absolute_error(y_valid,y_valpred))

MSE: 0.0018605951383111714 0.0029620773221556763
MAE: 0.0297794545549311 0.04252798919403008
MSE和MAE 已经很小了,很接近真实值

plt.figure(figsize=(10, 8))
plt.title("股票收盘价格")
plt.plot(y_valid.values, label="真实")
plt.plot(y_valpred, label="预测")
plt.legend()
plt.show()


从上图来看,预测值与真实值很接近

预测

y_pred=rfr.predict(test.iloc[:,:-1])
y_pred

array([7.2483 , 7.33919421, 7.50750781, 7.55087572, 7.58982307,
7.6044283 , 7.56227032, 7.57089137, 7.55753348, 7.5588598 ,
7.58131242, 7.57973364, 7.62280714, 7.812186 , 7.96168067,
7.62943871, 7.59097557, 7.57193348, 7.58140716, 7.58822821,
7.56501769, 7.58472294, 7.54284928, 7.52143876, 7.47868092,
7.38327099, 7.28360451, 7.28648865, 7.3997869 , 7.37405036])
er)

  如果不仔细看,小伙伴一定会有疑问,怎么会有真实值呢,其实,最先的数据是用当天的数据预测未来30天的值,而改进后的方案为前面30天的数据,预测第二天的值。

总结

这里只是预测的方法,想应用到真实的预测,以此来作股票买卖,我在这里说,别,千万别,…。
作为随机森林预测数据的一种方法,后继我将用 LSTM 和 CNN 以及 GAN 的深度学习方法来作进一步的使用说明。

在此警告:文章中的所有内容,不能给你构成投资的理由。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/595170.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MyBatis——MyBatis配置信息

1.MyBatis的日志配置 log4j1和log4j2的使用 在项目中添加依赖 log4j2 <dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-core</artifactId><version>2.12.1</version> </dependency>log4j1 <…

基恩士IV3工业相机的使用

注意&#xff1a;此教程仅为IV3相机分类模型教程&#xff0c;IV3还具有工件缺陷检测模型&#xff0c;即将工件分为NG/OK,为二分类 IV3相机注册分类程序 一、传感器设定 拍摄条件&#xff1a;调节亮度与焦点&#xff0c;一般选择自动调节&#xff0c;调节完成后可手动微调。触发…

Hudi(四)集成Flink(2)

6、读取方式 6.1、流读&#xff08;Streaming Query&#xff09; 当前表默认是快照读取&#xff0c;即读取最新的全量快照数据并一次性返回。通过参数 read.streaming.enabled 参数开启流读模式&#xff0c;通过 read.start-commit 参数指定起始消费位置&#xff0c;支持指定 …

基于双分支残差结构的低光照图像增强研究与应用实现

1.摘要 在低光条件下拍摄的照片会因曝光不足而产生一系列的视觉问题&#xff0c;如亮度低、信息丢失、噪声和颜色失真等。为了解决上述问题&#xff0c;提出一个结合注意力的双分支残差低光照图像增强网络。首先&#xff0c;采用改进InceptionV2提取浅层特征&#xff1b;其次&a…

AndroidStudio插件 - Json转Class、实体类(JSON To Kotlin Class)

Kotlin用挺长时间了&#xff0c;最近网络请求时因为接收、解析实体类的问题&#xff0c;后台直接给到了json文件&#xff0c;客户端可直接将json转为对应的model&#xff0c;故此我们需要用到一些插件来提升工作效率 为了提升工作效率&#xff0c;一键转换json为吾所需实体类是…

详解Comparable和Comparator

目录 Comparable接口 Comparator接口 Comparable接口 Comparable接口在源码中的声明&#xff1a; public interface Comparable<T> {public int compareTo(T o); } 可以看到&#xff0c;只要一个compareTo方法&#xff0c;也就是说&#xff0c;实现Comparable接口的类…

网站留言板的功能

开发环境&#xff1a;dreamweaverCC html jscirpt php 前置条件&#xff1a;1、一个简单的网站已经搭建完毕&#xff0c;支持用户登录网站。 2、用户已登录网站。 实现步骤&#xff1a; 一、新建留言板网页 1、新建网页&#xff1a;whiteboard.html 留言板&#xff08;j…

基于AT89C51单片机的十字路口交通灯设计

点击链接获取Keil源码与Project Backups仿真图&#xff1a; https://download.csdn.net/download/qq_64505944/87849986?spm1001.2014.3001.5503 源码获取 主要内容&#xff1a; 本项目中采用单片机 AT89C51为中心器件来设计交通信号灯控制器&#xff0c; 系统实用性强、操…

丢失mfc100u.dll修复,总结mfc100u.dll丢失的四个解决方法

mfc100u.dll是 Microsoft Visual C 2010 可再发行组件包的一部分系统文件。它通常位于 Windows 系统文件夹中&#xff0c;用于支持各种应用程序的运行时库。如果出现缺失或损坏的情况可能会影响应用程序的正常运行。打开软件或者游戏程序的时候&#xff0c;会提示‘由于找不到m…

[Java Web]Cookie,Session,Filter,Listener,Thymeleaf模板

文章目录 CookieSessionFilterListener了解JSP页面与加载规则使用Thymeleaf模板引擎Thymeleaf语法基础为标签添加内容 Thymeleaf流程控制语法Thymeleaf模板布局提取重复内容参数传递 探讨Tomcat类加载机制 Cookie 它可以在浏览器中保存一些信息&#xff0c;并且在下次请求时&a…

layui框架学习(26:弹出层模块_tips框输入框)

弹出层模块layer中的tips框和输入框函数也是其底层核心函数open的特定应用实现&#xff0c;其中tips框是可以将弹出层与具体元素绑定&#xff0c;能出现在指定元素周围&#xff0c;而输入框则是弹出信息框获取用户的输入&#xff0c;这两类弹出框的说明如下&#xff1a;   ti…

JAVA开发(如何学习一门IT技术)

无论是初学者还是有经验的专业人士&#xff0c;在学习一门新的IT技术时&#xff0c;都需要采取一种系统性的学习方法。那么作为一名技术er&#xff0c;你是如何系统的学习it技术的呢。 一、it技术介绍 IT技术包含了几个方向&#xff0c;一个是软件工程&#xff0c;一个网络工程…

怎么把老旧图片变清晰?分享三个方法给大家!

老旧照片常常因为时间的流逝而失去清晰度&#xff0c;给人们带来了遗憾。然而&#xff0c;随着图像处理技术的进步&#xff0c;我们现在有多种方法可以提高老旧照片的清晰度。本文将介绍三种常用的方法&#xff0c;帮助您使老旧照片焕然一新。 第一种方法&#xff1a;使用图像…

leetcode--N 皇后 II(java)

N 皇后 II leetcode 52 题 - N 皇后 II (困难)题目描述解题思路代码演示动态规划专题 leetcode 52 题 - N 皇后 II (困难) 原题链接: https://leetcode.cn/problems/n-queens-ii/ 题目描述 n 皇后问题 研究的是如何将 n 个皇后放置在 n n 的棋盘上&#xff0c;并且使皇后彼此之…

C++——菱形继承和虚继承

0.关注博主有更多知识 C知识合集 目录 1.什么是菱形继承和虚继承 2.菱形继承所带来的问题 3.虚继承的解决方案 3.1虚基表 4.继承与组合 菱形继承和虚继承本身就是一个"bug"&#xff0c;甚至在C程序员当中有"谁用谁尚阿比"的说法。至于为什么要谈菱…

[bugfix]解决visual studio installer双击后进度条一闪而过之后无反应的问题

问题描述&#xff1a; 源于跑一个神经网络代码&#xff0c;跑着跑着说需要microsoft visual C 14.0版本及其以上&#xff0c;然而我苦于根本下不了microsoft visuall C包的状态啊&#xff0c;而且点它没反应这件事已经持续了1年左右&#xff0c;因为没太耽误我做事我就一直没管…

21 条法则助你“玩转”分库分表

好好的系统&#xff0c;为什么要分库分表&#xff1f; 我们结合具体业务场景&#xff0c;以t_order表为例进行架构优化。由于数据量已经达到亿级别&#xff0c;查询性能严重下降&#xff0c;因此我们采用了分库分表技术来处理这个问题。具体而言&#xff0c;我们将原本的单库分…

java生成随机数

文章目录 java生成随机数导入包生成一个随机数生成一个 [ 0 , b o u n d ) \color{red}{[0,bound)} [0,bound)的随机数生成一个 20 \color{red}{20} 20到 90 \color{red}{90} 90的随机数总结现在尝试生成 − 10 \color{red}{-10} −10到 10 \color{red}{10} 10之间的随机数 ja…

《最新出炉》Python+Playwright自动化测试-2-playwright的API及其他知识

一.简介 上一篇我已经将PythonPlaywright的环境搭建好了&#xff0c;而且也简单的演示了一下三款浏览器的启动和关闭&#xff0c;是不是很简单啊。今天主要是把一篇的中的代码进行一次详细的注释&#xff0c;然后说一下playwright的API和其他相关知识点。那么首先将上一篇中的…

MyBatis——MyBatis注解开发

MyBatis编写SQL除了使用Mapper.xml还可以使用注解完成。当可以使用Auto Mapping时使用注解非常简单&#xff0c;不需要频繁的在接口和mapper.xml两个文件之间进行切换。但是必须配置resultMap时使用注解将会变得很麻烦&#xff0c;这种情况下推荐使用mapper.xml进行配置。 MyB…