【机器学习(十三)】零代码开发案例之股票价格预测分析—Sentosa_DSML社区版

news2025/4/4 15:00:14

文章目录

  • 一、背景描述
  • 二、Sentosa_DSML社区版算法实现
    • (一) 数据读入
    • (二) 特征工程
    • (三) 样本分区
    • (四) 模型训练和评估
    • (五) 模型可视化
  • 三、总结

一、背景描述

  股票价格是一种不稳定的时间序列,受多种因素的影响。影响股市的外部因素很多,主要有经济因素、政治因素和公司自身因素三个方面的情况。自股票市场出现以来,研究人员采用各种方法研究股票价格的波动。随着数理统计方法和机器学习的广泛应用,越来越多的人将机器学习等预测方法应用于股票预测中,如神经网络预测、决策树预测、支持向量机预测、逻辑回归预测等。
  XGBoost是由TianqiChen在2016年提出来,并证明了其模型的计算复杂度低、运行速度快、准确度高等特点。XGBoost是GBDT的高效实现。在分析时间序列数据时,GBDT虽然能有效提高股票预测结果,但由于检测速率相对较慢,为寻求快速且精确度较高的预测方法,采用XGBoost模型进行股票预测,在提高预测精度同时也提高预测速率。可以利用XGBoost网络模型对股票历史数据的收盘价进行分析预测,将真实值和预测值进行对比,最后通过评估算子来评判XGBoost模型对股价预测的效果。
  数据集通过爬虫获取从2005年开始到2020年的股票(代码为 510050.SH)历史数据,下表展示了股票在多个交易日内的市场表现,主要字段包括:

字段含义
ts_code股票代码
trade_date交易日期
pre_close前一个交易日的收盘价
open开盘价
high当日最高价
low当日最低价
close当日收盘价
change收盘价变化值(与前一日相比的差值)
pct_chg收盘价变化百分比
vol成交量
amount成交金额
label标记某日涨跌情况

  这些字段全面记录了股票每天的价格波动和交易情况,用于后续分析和预测股票趋势。

二、Sentosa_DSML社区版算法实现

(一) 数据读入

  首先,利用文本算子从本地文件读入股票数据集。
在这里插入图片描述

(二) 特征工程

  移动平均线是一种常用的技术指标,通过计算移动平均来分析股票的价格走势,帮助识别市场趋势,并为交易决策提供参考。根据不同的窗口大小(5天、7天、30天)来计算股票的收盘价的移动平均线,移动平均线可以平滑股价的短期波动,从而更好地识别股票的长期趋势。短期的 5 日、7 日移动平均线通常用来捕捉股票的短期趋势,帮助交易者快速做出买入或卖出的决策。30 日移动平均线则代表中长期趋势,帮助识别更广泛的市场方向。通过绘制图表,可以直观地看到收盘价格及其对应的移动平均线,方便观察价格变化和趋势。
  利用生成列算子,通过设定的生成列表达式计算的新列的值,并设置列名,这里生成列分别为 moving_avg_5d、 moving_avg_7d、 moving_avg_30d,分别表示不同周期(5天、7天、30天)的移动平均线。
在这里插入图片描述
  表达式为SQL窗口函数,

AVG(`close`) OVER ( ROWS BETWEEN 4 PRECEDING AND CURRENT ROW)
AVG(`close`) OVER ( ROWS BETWEEN 4 PRECEDING AND CURRENT ROW)
AVG(`close`) OVER ( ROWS BETWEEN 4 PRECEDING AND CURRENT ROW)

在这里插入图片描述
  连接折线图算子,选择收盘价实际值和移动平均线,进行图表展示。
在这里插入图片描述
  得到结果如下,可以直观地看到收盘价格及其对应的移动平均线,方便观察价格变化和趋势。
在这里插入图片描述
  再利用生成列算子,计算股票价格与不同周期的移动平均线的偏差的绝对值,得出当前价格偏离移动平均线的程度,观察偏离水平。偏差值越大,意味着价格波动越剧烈,可能处于较强的上涨或下跌趋势中。偏差值越小,意味着价格与均值靠近,波动较小,市场可能处于震荡或横盘阶段。
  如果偏差持续扩大,说明价格远离均值,可能面临较大的回调风险或即将突破某个方向。
  如果偏差开始收窄,说明价格回归均值,可能表明市场趋势趋于稳定或发生反转。
  这里设置生成列列名分别为deviation_MA5、 deviation_MA7、deviation_MA30,分别表示不同周期得偏差。
  生成列值得表达式如下:

abs(`close`-` moving_avg_5d`)
abs(`close`-` moving_avg_7d`)
abs(`close`-` moving_avg_29d`)

在这里插入图片描述
  右键生成列算子预览可以得到数据展示。
在这里插入图片描述
  或者利用图表算子对偏差值进行可视化图表展示,通过对偏差值进行可视化展示,绘制偏差曲线,可以直观呈现实际收盘价格与移动平均线之间的偏离趋势,不仅有助于揭示市场波动的幅度,还能为识别潜在的价格反转或趋势变化提供重要依据,能够更精准地判断市场的动向,从而优化决策流程并降低交易风险。
在这里插入图片描述
  然后,基于交易量计算加权平均价格,反映特定时间段内股票的平均成交价格,考虑成交量的影响。计算公式是用股票的收盘价(close)乘以交易量(vol),然后计算加权收盘价的累积和,除以交易量的累积和。
  利用生成列算子设置列名,并构造生成列表达式计算成交量加权平均值。
在这里插入图片描述
  当股票的收盘价(close)大于成交量加权平均值时,signal 设置为 1,表示一个买入信号,股票价格处于强势。
  当股票的收盘价小于等于成交量加权平均值时,signal 为 0,表示弱势,可以用于做空或保持观望。这个信号可以作为简单的策略来指导交易决策。
  利用选择算子,对数据按照表达式trade_date;close>成交量加权平均对数据进行选择。
在这里插入图片描述
  并连接删除和重命名算子将进行条件判断后得列修改列名为signal,表示交易决策的指导信号。
在这里插入图片描述
  再连接合并算子,将数据利用关键字trade_date将特征列进行合并。
在这里插入图片描述
  右键预览,可观察合并后的数据情况,也可以连接表格算子对数据进行表格输出。
在这里插入图片描述

(三) 样本分区

  在处理数据时,将trade_date列从int类型转换为datetime 类型,可以连接两个格式算子完成,首先将int类型的日期转换为字符串,然后再将字符串转换为datetime类型。
在这里插入图片描述在这里插入图片描述
  对数据输出类型进行格式化后,连接类型算子,设置数据的测量类型和模型类型。这里修改模型类型,设置建模算子输入数据需要的标签列和特征列等属性。
在这里插入图片描述
  然后,连接样本分区算子,利用时间序列对数据进行分区,训练集和测试集比例为8:2。在这里插入图片描述

(四) 模型训练和评估

  首先,选择XGBoost回归算子,并设置了相关参数用于模型训练,使用均方根误差(RMSE)作为评估模型表现的指标。构建了一个XGBoost预测模型,并将其应用于股票收盘价预测。也可以连接其他回归模型进行训练,将XGBoost模型的预测结果与其他模型的预测结果进行比较,并通过模型评价指标(如R²、MAE、RMSE等)对各个模型的表现进行验证和评估。
在这里插入图片描述
  执行后可以得到训练完成的XGBoost回归模型,右键可进行查看模型信息和预览结果等操作。
在这里插入图片描述
  连接评估算子对XGBoost模型进行评估。股票预测模型的预测性能评价指标采用R²、MAE、RMSE、MAPE、SMAPE和MSE,分别用于评估模型的拟合优度、预测误差的平均绝对值、均方根误差、绝对百分比误差、对称百分比误差和均方误差,用于衡量预测的准确性和稳定性。
在这里插入图片描述
  得到训练集和测试集的评估结果如下所示:
在这里插入图片描述在这里插入图片描述
  该XGBoost股票预测模型在训练集上表现优异,误差较小,表明模型能够很好地拟合训练数据。在测试集上的评估结果也较为理想,MAE为0.054,RMSE为0.093,MAPE和SMAPE分别为1.8%和1.7%,说明模型在测试集上的预测误差较小,具有良好的泛化能力,能够较为准确地预测股票收盘价,该模型在平衡训练集拟合和测试集泛化上表现稳定。

(五) 模型可视化

  右键模型信息可以查看特征重要性图、残差直方图等信息。
在这里插入图片描述
在这里插入图片描述
  连接时序图算子,用于将XGBoost模型预测的股票收盘价与实际收盘价进行可视化对比,将每个序列单独显示,生成时序对比曲线图,通过这种方式可以直观地看到模型预测与实际数据的差异,从而评估模型的性能和可靠性。这在数据预测中非常重要,因为它有助于识别模型是否能够准确捕捉市场趋势。
在这里插入图片描述
  得到时序图算子的执行结果如下所示:
在这里插入图片描述
  这张图包含两条时间序列曲线,分别展示了模型预测值(Predicted_close)和实际值(close)在一段时间内的走势对比,显示的是模型预测的股票收盘价随时间变化的趋势。两条曲线的整体趋势相似,尤其是在大的波动区域(如2008年左右的高峰期和之后的下降期),表明模型的预测效果与实际值接近。这张图直观地展示了模型预测值与实际值的时间序列对比,帮助评估模型的表现是否符合实际市场走势。

三、总结

  相比传统代码方式,利用Sentosa_DSML社区版完成机器学习算法的流程更加高效和自动化,传统方式需要手动编写大量代码来处理数据清洗、特征工程、模型训练与评估,而在Sentosa_DSML社区版中,这些步骤可以通过可视化界面、预构建模块和自动化流程来简化,有效的降低了技术门槛,非专业开发者也能通过拖拽和配置的方式开发应用,减少了对专业开发人员的依赖。
  Sentosa_DSML社区版提供了易于配置的算子流,减少了编写和调试代码的时间,并提升了模型开发和部署的效率,由于应用的结构更清晰,维护和更新变得更加容易,且平台通常会提供版本控制和更新功能,使得应用的持续改进更为便捷。

  Sentosa数据科学与机器学习平台(Sentosa_DSML)是力维智联完全自主知识产权的一站式人工智能开发部署应用平台,可同时支持零代码“拖拉拽”与notebook交互式开发,旨在通过低代码方式帮助客户实现AI算法模型的开发、评估与部署,结合完善的数据资产化管理模式与开箱即用的简捷部署支持,可赋能企业、城市、高校、科研院所等不同客户群体,实现AI普惠、化繁为简。
  Sentosa_DSML产品由1+3个平台组成,以数据魔方平台(Sentosa_DC)为主管理平台,三大功能平台包括机器学习平台(Sentosa_ML)、深度学习平台(Sentosa_DL)和知识图谱平台(Sentosa_KG)。力维智联凭借本产品入选“全国首批人工智能5A等级企业”,并牵头科技部2030AI项目的重要课题,同时服务于国内多家“双一流”高校及研究院所。
  为了回馈社会,矢志推动全民AI普惠的实现,不遗余力地降低AI实践的门槛,让AI的福祉惠及每一个人,共创智慧未来。为广大师生学者、科研工作者及开发者提供学习、交流及实践机器学习技术,我们推出了一款轻量化安装且完全免费的Sentosa_DSML社区版软件,该软件包含了Sentosa数据科学与机器学习平台(Sentosa_DSML)中机器学习平台(Sentosa_ML)的大部分功能,以轻量化一键安装、永久免费使用、视频教学服务和社区论坛交流为主要特点,同样支持“拖拉拽”开发,旨在通过零代码方式帮助客户解决学习、生产和生活中的实际痛点问题。
  该软件为基于人工智能的数据分析工具,该工具可以进行数理统计与分析、数据处理与清洗、机器学习建模与预测、可视化图表绘制等功能。为各行各业赋能和数字化转型,应用范围非常广泛,例如以下应用领域:
  金融风控:用于信用评分、欺诈检测、风险预警等,降低投资风险;
  股票分析:预测股票价格走势,提供投资决策支持;
  医疗诊断:辅助医生进行疾病诊断,如癌症检测、疾病预测等;
  药物研发:进行分子结构的分析和药物效果预测,帮助加速药物研发过程;
  质量控制:检测产品缺陷,提高产品质量;
  故障预测:预测设备故障,减少停机时间;
  设备维护:通过分析机器的传感器数据,检测设备的异常行为;
  环境保护:用于气象预测、大气污染监测、农作物病虫害防止等;
  客户服务:通过智能分析用户行为数据,实现个性化客户服务,提升用户体验;
  销售分析:基于历史数据分析销量和价格,提供辅助决策;
  能源预测:预测电力、天然气等能源的消耗情况,帮助优化能源分配和使用;
  智能制造:优化生产流程、预测性维护、智能质量控制等手段,提高生产效率。

  欢迎访问Sentosa_DSML社区版的官网https://sentosa.znv.com/免费下载使用。同时,我们在B站、CSDN、知乎等平台有技术讨论博客和应用案例分享,欢迎广大数据分析爱好者前往交流讨论。

  Sentosa_DSML社区版,重塑数据分析新纪元,以可视化拖拽方式指尖轻触解锁数据深层价值,让数据挖掘与分析跃升至艺术境界,释放思维潜能,专注洞察未来。

社区版官网下载地址:https://sentosa.znv.com/
B站地址:https://space.bilibili.com/3546633820179281
CSDN地址:https://blog.csdn.net/qq_45586013?spm=1000.2115.3001.5343
知乎地址:https://www.zhihu.com/people/kennethfeng-che/posts

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2214693.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开源:轻量级异步编排框架

前言 为了更快、更方便的对方法实现异步并排调用,因此实现了一个通过注解就可对方法/类进行异步调用的轻量级异步并排框架。 项目地址:https://gitee.com/madaoEE/my-async 介绍 一个简单实现的异步框架,通过注解对方法、类对象添加异步操…

SpringBoot实现的人事信息管理平台:技术与应用

1系统概述 1.1 研究背景 如今互联网高速发展,网络遍布全球,通过互联网发布的消息能快而方便的传播到世界每个角落,并且互联网上能传播的信息也很广,比如文字、图片、声音、视频等。从而,这种种好处使得互联网成了信息传…

MATLAB代码解析:利用DCGAN实现图像数据的生成

摘要 经典代码:利用DCGAN生成花朵 MATLAB官方其实给出了DCGAN生成花朵的示范代码,原文地址:训练生成对抗网络 (GAN) - MATLAB & Simulink - MathWorks 中国 先看看训练效果 训练1周期 训练11周期 训练56个周期 脚本文件 为了能让各位…

数据库初体验

这两天我学习了数据库的一点知识,我觉得最大的不同就是数据库的代码只能一行一行的运行。 接下来记录我学的东西吧。 第一步 肯定是一些定义知识啦,就不记录了 有一些写一下,数据库的分类为关系型数据库和非关系型数据库 关系型数据库是把复…

Firefox火狐浏览器打开B站视频时默认静音

文章目录 环境问题解决办法 环境 Windows 11家庭版Firefox浏览器 131.0.2 (64 位) 问题 用Firefox浏览器打开B站的视频时,默认是静音播放的: 而其它浏览器,比如Chrome和Edge,默认是带声音播放的。 虽然不是什么大问题&#xf…

工具篇:(一)MacOS 下使用 Navicat 管理 MySQL 数据库:详细图文教程与常见问题解决

MacOS 下使用 Navicat 管理 MySQL 数据库:详细图文教程与常见问题解决 在这篇文章中,我将分享如何在 macOS 上使用 Navicat 来管理 MySQL 数据库。这是一份详细的教程,包括 Navicat 的下载、安装、配置以及使用步骤,并附上亲测的…

优化UVM环境(二)-将error/fatal红色字体打印,pass绿色字体打印

书接上回: 优化UVM环境(一)-环境结束靠的是timeout,而不是正常的objection结束 将error/fatal红色字体打印,pass绿色字体打印 红色字体的error: 31表示字体颜色是红色 1m表示加粗 绿色字体的pass&#…

高可用之限流-05-slide window 滑动窗口

限流系列 开源组件 rate-limit: 限流 高可用之限流-01-入门介绍 高可用之限流-02-如何设计限流框架 高可用之限流-03-Semaphore 信号量做限流 高可用之限流-04-fixed window 固定窗口 高可用之限流-05-slide window 滑动窗口 高可用之限流-06-slide window 滑动窗口 sen…

ReferenceError: MutationEvent is not defined

解决:关闭tampermonkey(篡改猴)插件后也不可以,移除tampermonkey(篡改猴)插件仔刷新就可以了

Linux:Ubuntu系统开启SSH服务

在Ubuntu上开启SSH服务,可以按照以下步骤进行: 1.安装OpenSSH服务 如果你还没有安装OpenSSH服务,可以使用以下命令安装: sudo apt update sudo apt install openssh-server2. 启动SSH服务 安装完成后,启动SSH服务&a…

Leetcode 721 账户合并

Leetcode 721 账户合并 给定一个列表 accounts,每个元素 accounts[i] 是一个字符串列表,其中第一个元素 accounts[i][0] 是 名称 (name),其余元素是 *emails * 表示该账户的邮箱地址。 现在,我们想合并这些账户。如果两个账户都…

jmeter在beanshell中使用props.put()方法的注意事项

在jmeter中,通常使用beanshell去处理一些属性的设置和获取的操作,而这些操作也是有一定的规则的。 1. 设置属性时,在属性名上要加双引号,这代表它不是一个需要用var去声明的变量 这种设置属性的方式才是有效可行的,在…

[权威出刊|稳定检索]2024年云计算、大数据与计算机应用技术国际会议(CCBDCAT 2024)

2024年云计算、大数据与计算机应用技术国际会议 2024 International Conference on Cloud Computing, Big Data, and Computer Application Technology 【1】大会信息 会议名称:2024年云计算、大数据与计算机应用技术国际会议 会议简称:CCBDCAT 2024 大…

【算法设计与分析】第2关:背包问题

任务描述 设有编号为0、1、2、…、n-1的n个物品,它们的重量分别为w0、w1、…、wn-1,价值分别为p0、p1、…、pn-1,其中wi、pi(0≤i≤n-1)均为正数。  有一个背包可以携带的最大重量不超过W。求解目标:在不…

C++类和对象——第三关

在阅读此篇文章之前,请先阅读博主之前的文章: C类和对象第一关-CSDN博客 C类和对象——第二关-CSDN博客 以便更好的理解本文章。 目录 运算符重载 (一)运算符重载 (二)赋值类运算符函数的重载&#x…

基于EBAZ4205矿板的图像处理:16基于小波变换的图像分解及其重建

基于EBAZ4205矿板的图像处理:17基于小波变换的图像分解及其重建 特别说明 这个项目的代码不会开源,因为这个项目的一大部分是在实习的公司做的,所以仅提供思路和展示,展示一下我的能力。 先看效果 这次让小牛和小绿做模特 经过…

C++模板初阶,只需稍微学习;直接起飞;泛型编程

🤓泛型编程 假设像以前交换两个函数需要,函数写很多个或者要重载很多个;那么有什么办法实现一个通用的函数呢? void Swap(int& x, int& y) {int tmp x;x y;y tmp; } void Swap(double& x, double& y) {doubl…

胤娲科技:AI短视频——创意无界,即梦启航

在这个快节奏的时代,你是否曾梦想过用几秒钟的短视频,捕捉生活中的每一个精彩瞬间?是否曾幻想过,即使没有专业的摄影和剪辑技能,也能创作出令人惊艳的作品? 现在,这一切都不再是遥不可及的梦想。…

微前端学习以及分享

微前端学习以及分享 注:本次分享demo的源码github地址:https://github.com/rondout/micro-frontend 什么是微前端 微前端的概念是由ThoughtWorks在2016年提出的,它借鉴了微服务的架构理念,核心在于将一个庞大的前端应用拆分成多…

从MySQL到OceanBase离线数据迁移的实践

本文作者:玉璁,OceanBase 生态产品技术专家。工作十余年,一直在基础架构与中间件领域从事研发工作。现负责OceanBase离线导数产品工具的研发工作,致力于为 OceanBase 建设一套完善的生态工具体系。 背景介绍 在互联网与云数据库技…