【随即森林模型】

news2024/12/23 18:40:24

随机森林模型的基本原理和代码实现

集成模型简介

集成学习模型是机器学习非常重要的一部分。
集成学习是使用一系列的弱学习器(或称之为基础模型)进行学习,并将各个弱学习器的结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。

集成学习模型有两种常见的算法:

  • Bagging算法的典型机器学习模型为本次的随机森林模型
  • Boosting算法的典型机器学习模型为之后的AdaBoost、GBDT、XGBoost和LightGBM模型。

随机森林模型的基本原理

如下如所示,随机森林模型会在原始数据集中随机抽样,构成n个不同的样本数据集,然后根据这些数据集搭建n个不同的决策树模型,最后根据这些决策树模型的平均值(针对回归模型)或者投票(针对分类模型)情况来获取最终结果。
在这里插入图片描述
为了保证模型的泛化能力,随机森林在建立每棵树的时候,往往会遵循两个基本原则:

  • 数据随机:随机地从所有数据中有放回地抽取数据作为其中一棵决策树的数据进行训练。举例来说,有1000个原始数据,有放回地抽取1000次,构成一组新的数据(因为是有放回抽取,有些数据可能被选中多次,有些数据可能不被选上),作为某一个决策树的数据来进行模型的训练。
  • 特征随机:如果每个样本的特征维度为M,指定一个常数k<M,随机地从M个特征中选取k个特征,在使用Python构造随机森林模型时,默认取特征的个数k是M的平方根: M \sqrt M M

随机森林和决策树模型一样,可以做分类分析,也可以做回归分析。

代码实现

随机森林分类模型:
在这里插入图片描述
随机森林回归模型:
在这里插入图片描述

量化金融-股票数据获取

tushare库基本介绍

在这里插入图片描述
通过日期取历史某一天的全部历史
在这里插入图片描述
单只股票某日:
在这里插入图片描述

#多个股票
df = pro.daily(ts_code='000001.SZ,600000.SH', start_date='20180701', end_date='20180718')
    ts_code trade_date  open  high   low  close  pre_close  change  pct_chg  \
0   600000.SH   20180718  9.51  9.64  9.48   9.51       9.44    0.07     0.74   
1   000001.SZ   20180718  8.75  8.85  8.69   8.70       8.72   -0.02    -0.23   
2   000001.SZ   20180717  8.74  8.75  8.66   8.72       8.73   -0.01    -0.11   
3   600000.SH   20180717  9.41  9.48  9.38   9.44       9.41    0.03     0.32   
4   000001.SZ   20180716  8.85  8.90  8.69   8.73       8.88   -0.15    -1.69   
5   600000.SH   20180716  9.50  9.54  9.34   9.41       9.49   -0.08    -0.84   
6   600000.SH   20180713  9.57  9.58  9.46   9.49       9.47    0.02     0.21   
7   000001.SZ   20180713  8.92  8.94  8.82   8.88       8.88    0.00     0.00   
8   000001.SZ   20180712  8.60  8.97  8.58   8.88       8.64    0.24     2.78   
9   600000.SH   20180712  9.41  9.61  9.39   9.57       9.38    0.19     2.03   
10  000001.SZ   20180711  8.76  8.83  8.68   8.78       8.98   -0.20    -2.23   
11  600000.SH   20180711  9.37  9.44  9.32   9.38       9.57   -0.19    -1.99   
12  000001.SZ   20180710  9.02  9.02  8.89   8.98       9.03   -0.05    -0.55   
13  600000.SH   20180710  9.61  9.65  9.50   9.57       9.60   -0.03    -0.31   
14  000001.SZ   20180709  8.69  9.03  8.68   9.03       8.66    0.37     4.27   
15  600000.SH   20180709  9.37  9.63  9.37   9.60       9.37    0.23     2.45   
16  600000.SH   20180706  9.31  9.43  9.17   9.37       9.26    0.11     1.19   
17  000001.SZ   20180706  8.61  8.78  8.45   8.66       8.60    0.06     0.70   
18  600000.SH   20180705  9.26  9.35  9.22   9.26       9.31   -0.05    -0.54   
19  000001.SZ   20180705  8.62  8.73  8.55   8.60       8.61   -0.01    -0.12   
20  600000.SH   20180704  9.34  9.42  9.28   9.31       9.35   -0.04    -0.43   
21  000001.SZ   20180704  8.63  8.75  8.61   8.61       8.67   -0.06    -0.69   
22  000001.SZ   20180703  8.69  8.70  8.45   8.67       8.61    0.06     0.70   
23  600000.SH   20180703  9.29  9.38  9.20   9.35       9.29    0.06     0.65   
24  600000.SH   20180702  9.55  9.55  9.23   9.29       9.56   -0.27    -2.82   
25  000001.SZ   20180702  9.05  9.05  8.55   8.61       9.09   -0.48    -5.28   

           vol       amount  
0    189227.00   180858.003  
1    525152.77   460697.377  
2    375356.33   326396.994  
3    137134.95   129512.091  
4    689845.58   603427.713  
5    144141.19   135697.106  
6    150263.39   142708.347  
7    603378.21   535401.175  
8   1140492.31  1008658.828  
9    197048.37   188206.858  
10   851296.70   744765.824  
11   152039.33   142450.919  
12   896862.02   803038.965  
13   124028.37   118668.133  
14  1409954.60  1255007.609  
15   221725.65   212109.327  
16   225944.43   210564.106  
17   988282.69   852071.526  
18   164954.38   152978.661  
19   835768.77   722169.579  
20   144647.77   135000.876  
21   711153.37   617278.559  
22  1274838.57  1096657.033  
23   241235.51   224816.757  
24   226690.89   212743.905  
25  1315520.13  1158545.868

股票衍生变量生成

pro = ts.pro_api()
df = pro.query('daily', ts_code='000002.SZ', start_date='20180701', end_date='20180718')

在这里插入图片描述
简单衍生变量的计算:
在这里插入图片描述
通过如下代码可以先构造一些简单的衍生变量:

df['close-open']=(df['close']-df['open'])/df['open']
df['high-low']=(df['high']-df['low'])/df['low']

df['pre_close']=df['close'].shift(1)#该列所以往下移一行形成昨日收盘价
df['price-change']=(df['close']-df['pre_close'])
df['p_change']=(df['close']-df['pre_close'])/df['pre_close']*100

股票衍生变量生成

移动平均线指标MA值
通过如下代码可以获得股价5日移动平均值和10日移动平均值:

df['MA5']=df['close'].rolling(5).mean()
df['MA10']=df['close'].rolling(10).mean()

在这里插入图片描述
由于当我们在计算像MA5这样的数据时,数据前四天对应的平均值是无法计算出来的(因为最开始四天数据量不够去计算5日均值),所以会产生空值,通常会通过dropna()函数删除空值,以免在后续计算中出现空值造成的问题。
代码如下:

df.dropna(inplace=True) #删除空行,也可以写作df=df.dropna()

在这里插入图片描述

股票涨跌预测模型搭建

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/157827.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

嵌入式设备中可以使用SQLite3吗?

摘要&#xff1a;数据库是用来存储和管理数据的专用软件&#xff0c;使得管理数据更加安全&#xff0c;方便和高效。数据库对数据的管理的基本单位是表(table)&#xff0c;在嵌入式linux中有时候它也需要用到数据库&#xff0c;听起来好难&#xff0c;其实就是几个函数&#xf…

论文精读:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields ∗

姿态估计openpose系列算法解读 姿态估计任务 姿态估计任务首先需要检测出人体的各个关键点,将人体关键点进行拼接。 任务的困难有,首先,对于关键点检测任务,需要处理遮挡的问题,在拼接的过程中,需要处理多人的情况,即不能将不同人的关键点进行拼接。 标注数据信息 COCO…

linux系统中利用QT实现音乐播放器的功能

大家好&#xff0c;今天主要和大家聊一聊&#xff0c;如何使用QT中的音乐播放器的功能与方法。 目录 第一&#xff1a;音乐播放器基本简介 第二&#xff1a;应用具体代码实现 第三&#xff1a;在源代码mainwindow.cpp中的实现 第四&#xff1a;程序运行效果 第一&#xff…

1.1计算机工作过程(超详细)

文章目录一、计算机组成框图二、思维导图三、部件剖析&#xff08;1&#xff09;存储器&#xff08;2&#xff09;运算器&#xff08;3&#xff09;控制器四、案例剖析&#xff08;重点&#xff09;&#xff08;1&#xff09;a2&#xff08;2&#xff09;a*b&#xff08;3&…

关于 国产麒麟系统上长时间运行Qt程序.xsession-erros文件占满磁盘导致无法写入 的解决方法

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/128660728 红胖子(红模仿)的博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软…

[强网杯 2019]随便注

目录 信息收集 方法一&#xff1a;堆叠注入 方法二&#xff1a;MySQL预处理 语法 payload 方法三&#xff1a;handler 知识点 语法 payload 信息收集 1 You have an error in your SQL syntax; check the manual that corresponds to your MariaDB server version f…

开发中常用的Spring注解

一.IOC容器 Configuration ConpoentScan CompoentScans Bean Import DependsOn Lazy Compoent Repository Service Controller Autowired Qualifier 二.AOP切面 Aspect Pointcut Before After AfterReturning AfterThrowing Around 三.事务声明 Transac…

nacos一:服务注册

为什么用nacos: Eureka需要自己搭建项目&#xff0c;nacos下载后&#xff0c;就可以直接访问web界面,自带负载均衡 Nacos可以 1替代eureka做服务注册中心 2替代Config做服务配置中心 使用 一&#xff1a; 1 下载nacos,在bin目录下打开cmd窗口&#xff0c;输入startup.cmd -m s…

100 亿美元!微软豪赌 AI,OpenAI 渗透 GitHub、Office、Bing

OpenAI 这把 ChatGPT 的火还在持续地燃烧&#xff01;作者 | 唐小引出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;今天&#xff0c;据路透社援引 Semafor 消息报道&#xff0c;微软正在计划向 OpenAI 再次投资 100 亿美元&#xff0c;如果合作达成&#xff0c;微…

【STM32学习】SysTick定时器(嘀嗒定时器)

SysTick定时器一、参考资料二、时钟源选择与定时时间计算1、时钟源选择2、定时时间计算三、SysTick_Handler中断服务函数一、参考资料 嘀嗒定时器&#xff1a;时钟源、寄存器 二、时钟源选择与定时时间计算 结合正点原子的代码进行说明&#xff1a; 1、时钟源选择 从上图可以发…

通讯录的实现(详解)(后附完整源代码)

通讯录的实现一.所需要的功能二.大致菜单三.创建通讯录四.增加联系人五.显示联系人六.查找联系人七.删除联系人八.修改联系人一.所需要的功能 对于通讯录来说&#xff0c;我们需要它实现以下几个功能。 1.人的信息&#xff1a;姓名年龄性别电话地址。 2.可以存放100个人的信息…

VMware Workstation Pro 16安装Windows 11

1&#xff1a;首先在机器中安装VMware Workstation Pro。 2&#xff1a;准备Windows 11的安装镜像。 3&#xff1a;安装Windows 11的系统要求&#xff0c;这个很关键不满足条件无法安装&#xff0c;其中我们只需要注意系统固件和TPM这两项就行。 4&#xff1a;运行VMware Wor…

使用SQL4Automation让CodeSYS连接数据库

使用SQL4Automation让CodeSYS连接数据库 摘要&#xff1a;本文旨在说明面向CodeSYS的数据库连接方案SQL4Automation的使用方法。 1.SQL4Automation简介 1.1.什么是SQL4Automation SQL4Automation是一套工业用途的软件解决方案&#xff0c;它主要的功能就是为PLC和机器人控制提…

王道操作系统笔记(一)———— 计算机系统概述

文章目录一、操作系统基本概念1.1 基本概念1.2 四大特征1.3 目标和功能二、操作系统的分类与发展三、操作系统的运行环境3.1 运行机制3.2 中断和异常3.3 系统调用四、操作系统的体系结构4.1 宏内核与微内核4.2 分层结构4.3 模块化4.4 外核五、操作系统引导六、虚拟机一、操作系…

nacos2.x集群版搭建

1. 预备环境准备 请确保是在环境中安装使用: 64 bit OS Linux/Unix/Mac&#xff0c;推荐使用Linux系统。--这里使用linux系统64 bit JDK 1.8&#xff1b;下载. 配置。Maven 3.2.x&#xff1b;下载. 配置。3个或3个以上Nacos节点才能构成集群。官网地址:集群部署说明 2、服务器…

Android 深入系统完全讲解(12)

11 跟踪一个服务&#xff0c;直接找到驱动实现 如果说我自己学习整个系统&#xff0c;直到底层驱动的方法&#xff0c;我想说的就是我常用的就是跟踪震动这个模块&#xff0c;而为什么是这个&#xff0c;主要是简单&#xff0c;但是又是从上到下都具备&#xff0c;对于学习系统…

【OpenCV】拾遗

前言 本篇博客主要是总结OpenCV使用过程中遇到的一些问题&#xff0c;便于以后参考。 以下所有内容均基于VS2015 OpenCV_v4.5.1 及 VS Code MinGW_v4.3.5 CMake_v3.20.0 OpenCV_v4.5.1&#xff0c;前者的配置教程可以参考这个链接&#xff0c;后者的配置教程可以参考这个链…

2022年衣物清洁行业市场报告:洗衣液等四大高增长类目分析

随着人们经济水平的提高以及消费观念的升级&#xff0c;当前个护家清用品逐渐朝品质化、精细化、个性化的方向发展&#xff0c;类目衍生更替更频繁、迭代速度更快。 得益于庞大的人口规模&#xff0c;个护家清产品规模巨大&#xff0c;衣物清洁行业虽增速放缓但仍在个护家清行…

OpenFoam收缩扩张喷管(拉瓦尔喷管)边界条件的设置

简介 收缩扩张喷管&#xff08;也成拉瓦尔喷管&#xff09;广泛应用于火箭推进。将其流动特性定性描述如下&#xff1a; &#xff08;1&#xff09;当入口流量较小时&#xff0c;不出现雍塞&#xff0c;流速先增大后减小&#xff0c;全程为亚声速。出口压力即为大气压&#x…

金融数学建模——2022年大湾区杯金融数学建模B题(解题思路及部分python代码)

目录 一、概述 二、赛题及解读 1.赛题详情 2.赛题解读 三、解题方法 1.第一问 第一问部分代码 2.第二问 第二问部分代码 3.第三问&#xff1a; 第三问部分代码 4.第四问 三、总结 一、概述 这次比赛是我们队伍第一次参加金融数学建模&#xff0c;尽管在比赛前用2020年…