【高频】基于GBDT-FM模型的level-2高频数据实证研究(二)

news2025/1/12 9:50:19

【高频】基于GBDT-FM模型的level-2高频数据实证研究(二)

原创 Yud. 2AMquant 2024-04-04 11:30 广东

       

上一篇中初步提及了Level2数据中常见变量指标的构建方式,以及其带来的价格冲击。此篇将使用GBDT-LM模型对短程价格走势进行简单预测。

ps:此篇创作内容已于2020年10月9日发布在https://zhuanlan.zhihu.com/p/260959965

目录

  • 前言

  • 模型简介(GBDT-FM)

  • 样本选择

  • 实证研究

  • 结论

  • 参考文献

          

一、前言

订单簿揭示了资产交投的详细过程,在高频交易中,对股票进场和离场点的精确定位可以为长线交易者增厚收益,而越来越多的资管机构通过结合T0策略与alpha策略或者beta策略以增强收益。

图片

    

市场流动性图(Bervas,2006);图来源:High-Frequency Trading

Aspects of market liquidity(Bervas,2006);图来源:High-Frequency Trading

       短期价格走势的预测可以为高频交易者提供一个关于资产价格的粗略预期,可以对盘口未来的供需状况有一个初步的了解。上一篇研究中将定义了大量描述订单簿状态和盘口情况的指标,本文将根据这些指标对资产价格的短期走势进行预测。除了走势预测,一般进行高频交易中还会涉及走势持续的时长、概率(置信度)、信号强度等均是进行高频交易必须考虑的因素,在该系列中将持续从不同维度进行研究。

          

二、模型简介

机器学习模型在金融领域上最初的应用是预测。本文首先利用GBDT较强的学习能力对变量进行特征转换,随后再使用FM模型对资产的价格进行预测。价格走势的粗略预测是进行高频交易的不可缺少的一步。

图片

基于机器学习的Level-2数据研究流程

模型介绍

GBDT+LR是Facebook提出的CTR(click through rate)的预测模型,先使用GBDT进行特征转换(features transformation),随后再使用LR(Logistic Regression)训练模型。下文使用的GBDT-FM模型是2014年kaggle竞赛Display Advertising Challenge中第一名使用的机器学习算法;

          

图片

GBDT+LR混合模型结构

GBDT(Gradient Boosting Decision Tree,梯度提升决策树)    

GBDT梯度提升决策树是一种采用预剪枝的迭代型决策树算法,广泛应用于分类、排序和各种机器学习竞赛中,通过学习率learning rate控制纠正前一颗树的强度,一般学习率越高,模型越复杂。同类boosting算法中的Xboosting适用于大规模数据中,adaboost使用FSAM进行优化,而GBDT始终在业界是很经典的集成算法。

GBDT+LR广泛应用与CTR预测,并且具有良好的解释能力,在Kaggle中很受欢迎,因此本文依旧选择GBDT进行特征转换,再基于新特征训练模型,缓解过拟合的问题。

GBM的通用算法:

图片

GBM

FM(Factorization Machine,因子分解机)

图片

FM

其中x为特征,w为权重,v为表征向量

LR和FM可以处理离散数据,而FM适合处理交叉特征,DNN则可以处理更高阶和一些非线性的特征。有些研究报告使用SVM进行训练,SVM引入核函数的概念学习交叉项特征。SVM和FM的区别在于FM可以处理稀疏矩阵,而SVM泛化能力不足,在交叉项乘积为0时无法更新权重交叉项的权重。

量价之间的交互项影响了未来资产的买卖压力,因此本文使用LR而非LM。由于未进行特征选择会引入噪音,因此进行FM训练之前先进行特征选择。    

同样,GBDT-FM广泛用于在电商中CRM的广告推荐中。

          

三、样本选择

本文所使用数据样本的level-2数据,包括十档交易数据、下单数据和成交数据。特征变量有上一篇中定义的各种买卖失衡指标和各种订单簿形态的描述性变量:订单不平衡、深度不平衡、宽度不平衡、买卖压力指标,各类价差、2-4档加权价、5-10档加权价、2-10档加权价、中间价等加权价格等。

四、实证部分

          

特征工程(Features Engineering)

本文中的特征工程仅指特征的生成、清洗、选择和转换。一些特定因子机器学习的挖掘项目中的特征工程部分还包括一些因子标准化、中性化等特定的操作。

特征选择(Selector)

使用迭代特征消除(Recursive feature elimination,RFE)进行特征选择,结果如下;可以看出压力指标、和深度和宽度的不平衡指标、价差和成交量对预期价格走势有决定性作用。

              

图片

RFE;Recursive feature elimination

特征转换(Tranformer)

本文通过带交叉验证的网格搜索对GBDT进行调参,提升模型的泛化能力,根据所得参数后进行特征转换。为避免过拟合,本文定义模型的学习率为0.1。

图片

通过网格搜索和交叉检验,当梯度提升的迭代次数,即弱分类器的个数为100时,决策树最大深度为2时,GBDT模型的效果较好,因此使用learning_rate=0.1,n_estimators = 100,max_depth=2作为参数对特征变量进行转换。

构建模型

下图展示了样本外该只股票某一天的测试结果,囿于篇幅限制,仅展示以下一个tick为预测目标的结果。红色和绿色标记点分别为预测下一个tick涨跌大于0和小于0的时刻,准确率达87.6%。    

根据当前盘口的信息仅可以较好分析下一个tick的涨跌,但是当选择日内交易时,需要充分考虑当前订单簿中未成交订单中对未来价格产生影响的冲击与可能性。

图片

通过观察其他时间段的预测结果,部分预测结果显示,部分标记点密集的区域,价格却未给出明确的走势,在下一段时间出现震荡,意味着市场买卖双方存在博弈,一种解释是订单簿只显示了未成交订单的情况,而市价单对价格的走势更具有决定性作用,其次,通过阅读国外文献,本文认为冰山订单与探针类订单干扰了限价订单簿传递信息的作用,一些交易者为了试探“冰山订单”的存在或出于其他目的,会抛出大量订单然后撤回,这导致了订单簿上的信息并不能完全反应市场的真实需求,最后经分析发现当天的撤单量占总订单量的46%。

意味着在选择进场点和离场时需要结合其他分析指标。

五、结论

1.GBDT-FM对于预测下一个tick的价格走势有较好的预测能力,集成模型GBDT在特征工程中有较好效果

2.由于限价订单簿仅呈现了未成交订单,当选择日内交易时,需要充分考虑当前订单簿中未成交订单中对未来价格产生影响的冲击与可能性。

          

六、参考文献

1.限价订单市场价格发现动态过程研究

2.Modeling high frequency limit order book dynamics with support vector machines

3.Practical Lessons from Predicting Clicks on Ads at Facebook

4.Factorization Machines

5.Greedy function APPROXIMATION:A Gradient Boosting Machine

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1623819.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端css中的transform(转换)的使用

前端css中的transform的使用 一、前言二、流程图三、举例(一)、平移1.平移,源码12.源码1运行效果(1).视频效果(2).截图效果 3.平移3d效果,源码24.源码2运行效果(1)、视频效果(2)、截…

【C语言】红黑树详解以及C语言模拟

一、红黑树的性质二、红黑树的旋转操作三、红黑树的插入操作四、红黑树的删除操作五、红黑树的应用六、C语言模拟红黑树七、总结 红黑树是一种自平衡二叉查找树,它能够保持树的平衡,从而确保查找、插入和删除的最坏情况时间复杂度为O( l o g n log_n log…

41-数组 _ 数组作为函数参数

41-1 冒泡排序函数的设计 数组传参的时候,形参有2种写法: 1、数组 2、指针 往往我们在写代码的时候,会将数组作为参数传个函数 如:实现一个冒泡排序,将数组的数据排成升序 冒泡排序的核心思想: 1、两…

新能源汽车小米su7

小米su7汽车 function init() {const container document.querySelector( #container );camera new THREE.PerspectiveCamera( 20, window.innerWidth / window.innerHeight, 1, 50000 );camera.position.set( 0, 700, 7000 );scene new THREE.Scene();scene.background ne…

kubebuilder(4)部署测试

将crd部署到k8s make install 日志: kustomize build config/crd | kubectl apply -f - customresourcedefinition.apiextensions.k8s.io/demoes.tutorial.demo.com created 查看下[rootpaas-m-k8s-master-1 demo-operator]# kubectl api-resources | grep demo de…

yolov8 区域声光报警+计数

yolov8 区域报警计数 1. 基础2. 报警功能2. 1声音报警代码2. 2画面显示报警代码 3. 完整代码4. 源码 1. 基础 本项目是在 yolov8 区域多类别计数 的基础上实现的,具体区域计数原理可见上边文章 2. 报警功能 设置一个区域region_points,当行人这一类别…

【AIGC调研系列】Phi-3 VS Llama3

2024-04-24日发布的Phi-3系列模型在多个方面展现出了对Llama-3的性能优势。首先,Phi-3-small(7B参数)在MMLU上的得分高于Llama-3-8B-Instruct模型,分别为75.3%和66%[1]。此外,具有3.8B参数的Phi-3 Mini在性能上优于Lla…

解密Java多线程同步:掌握线程间同步与互斥技巧

哈喽,各位小伙伴们,你们好呀,我是喵手。 今天我要给大家分享一些自己日常学习到的一些知识点,并以文字的形式跟大家一起交流,互相学习,一个人虽可以走的更快,但一群人可以走的更远。 我是一名后…

JavaScript:js实现在线五子棋人机(人人)对弈

在线五子棋人机对弈 全部使用前端技术,使用HTML,CSS以及JS进行实现. 棋盘在后端就是一个15*15的二维数组 页面设计 页面设计的比较粗糙 主要使用js自带的canvas画布进行绘画 HTML代码如下: <div class"outer"><canvas id"canvas" height&qu…

linux权限维持(四)

6.inetd服务后门 inetd 是一个监听外部网络请求 ( 就是一个 socket) 的系统守护进程&#xff0c;默认情况下为 13 端口。当 inetd 接收到 一个外部请求后&#xff0c;它会根据这个请求到自己的配置文件中去找到实际处理它的程序&#xff0c;然后再把接收到的 这个socket 交给那…

B2B企业如何做好谷歌Google广告推广营销布局?

当今全球化的商业环境中&#xff0c;B2B企业要想在激烈的市场竞争中脱颖而出&#xff0c;拓展海外市场成为了必经之路。而谷歌Google广告&#xff0c;作为全球最大的在线广告平台&#xff0c;无疑是企业触达全球潜在客户的黄金钥匙。云衔科技通过专业服务助力企业轻松开户与高效…

CST初级教程 二

本教程将讲解CST Studio的视窗操控的基本操作. 3D视窗的快捷操作 动态放大与缩小&#xff08;Dynamic Zoom&#xff09; 将鼠标指针移动到CST Studio图形视窗中&#xff0c;向上滚动鼠标滚轮&#xff0c;可动太放大图形视窗中的显示内容&#xff0c;向下滚动鼠标滚轮即可动态缩…

非对称渐开线齿轮学习笔记分享

最近有小伙伴遇到了非对称渐开线齿轮的加工问题,花了些时间学习了解一下,下面是总结的学习笔记,有兴趣的朋友可以瞅瞅: 目录: 为什么要采用非对称? 非对称有什么优点? 非对称齿形如何加工? 非对称齿轮怎么测量? 非对称齿轮建模 为什么要采用非对称? 现在的传动要求…

Linux:进程创建 进程终止

Linux&#xff1a;进程创建 & 进程终止 进程创建fork写时拷贝 进程终止退出码strerrorerrno 异常信号exit 进程创建 fork fork函数可以用于在程序内部创建子进程&#xff0c;其包含在头文件<unistd.h>中&#xff0c;直接调用fork()就可以创建子进程了。 示例代码&…

【C语言】深入理解KMP算法及C语言实现

一、KMP算法简介 KMP算法&#xff08;Knuth-Morris-Pratt算法&#xff09;是一种高效的字符串匹配算法&#xff0c;由Donald Knuth、James H. Morris和 Vaughan Pratt共同发明。KMP算法的核心思想是当一次字符比较失败时&#xff0c;利用已经得到的部分匹配信息&#xff0c;将模…

JVM虚拟机监控及性能调优实战

目录 jvisualvm介绍 1. jvisualvm是JDK自带的可以远程监控内存&#xff0c;跟踪垃圾回收&#xff0c;执行时内存&#xff0c;CPU/线程分析&#xff0c;生成堆快照等的工具。 2. jvisualvm是从JDK1.6开始被继承到JDK中的。jvisualvm使用 jvisualvm监控远程服务器 开启远程监控…

【Java框架】SpringMVC(三)——异常处理,拦截器,文件上传,SSM整合

目录 异常处理解释局部异常处理全局异常 拦截器拦截器介绍作用:拦截器和过滤器之间的区别拦截器执行流程代码实现补充 文件上传依赖配置MultipartResolver编写文件上传表单页APIMultipartFileFile.separator必须对上传文件进行重命名代码示例 SpringMVC文件上传流程多文件上传 …

mybatis中<if>条件判断带数字的字符串失效问题

文章目录 一、项目背景二、真实错误原因说明三、解决方案3.1针对纯数字的字符串值场景3.2针对单个字符的字符串值场景 四、参考文献 一、项目背景 MySQL数据库使用Mybatis查询拼接select语句中进行<if>条件拼接的时候&#xff0c;发现带数字的或者带单个字母的字符串失效…

Coursera: An Introduction to American Law 学习笔记 Week 03: Property Law

An Introduction to American Law 本文是 https://www.coursera.org/programs/career-training-for-nevadans-k7yhc/learn/american-law 这门课的学习笔记。 文章目录 An Introduction to American LawInstructors Week 03: Property LawKey Property Law TermsSupplemental Re…

LM324的输出VOL与IOL你注意过吗?

电路图 途中LMC6084 更改为LM324 故障现象 这个电路的输入输出表达式为 R30 两端电压等于0V 当J16 的4脚与2脚相等&#xff0c;等于5V&#xff08;或者4脚略大于2脚时&#xff09;7脚输出 约 500mV&#xff1b; 实际应该为0V左右才对.见下图 故障原因 上图运放输出低电平…