量化择时——SVM机器学习量化择时（第1部分—因子测算）

news2026/2/16 13:02:03

文章目录

机器学习在量化模型上的应用
- 机器学习量化应用场景
- 量化模型有效性的思考
机器学习模型在量化择时中的应用
- 训练与预测流程
- 训练数据特征构造
SVM模型与测算
- SVM训练与预测
- 效果测算
- 效果分析

最近ChatGPT比较火，NLP的同学们感触肯定会更深。NLP的应用为人所知并积极部署是一件好事，但是应用层面上的每个应用场景都是过去的领域内SOTA模型不断攻克的任务。但是可惜的是，近年来，解决单一任务在算法层面的突破明显减速，应用层面却在加速推广。

ps：目前资讯里还没有见到提到“天网”这个词，hhhhhhh，当年VR，AR啥啥都没有的时候，漫山遍野的提“天网”要来啦，不知道这次的爆点又是什么

这里我们使用一个较为简单且常用的机器学习模型SVM，对择时提供帮助，以获得超额回报

在这里插入图片描述

机器学习在量化模型上的应用

机器学习量化应用场景

博主总结的机器学习应用与量化策略有以下三种场景：

构造胜率大于50的量化策略，无论模型是否可解释，通过增加交易次数，使综合收益向均线附近偏移，获取预期超额回报
在一个可能获取超额回报的逻辑框架上，使用机器学习模型优化细节，使预期收益均值在模型的加持下，向更高的回报偏移
以定价模型为基础，赚取修正市场的超额收益

而每一种场景都对应了不同的量化思路，同时也对应了不同的研究人员的知识体系：

第一种适合专业度足够高的工科背景，难点在于“历史不会重演”的前提下，论证模型可以获取超额回报，且获取超额回报也是大概率事件，以高频交易为主
第二种适合有编程能力的金融人员，难点在于论证可以取得超额回报的逻辑链条
第三种适合有编程能力，且富有经验的金融人员，难点在于识别并排除市场的噪声信息，或是对定价模型的修正与优化

量化模型有效性的思考

目前的共识是：投资任务的复杂性远远超出了机器学习能够处理的范围，因此通常需要在人为的框定一个逻辑框架内，用机器学习的模型来优化。

学习到现在，看了很多量化方面的书籍与策略，博主有些思考想和大家分享一下：

其实有很多同学和博主一样是计算机大类转到金融的，所以“量化”是我们一个不错的切入点，越偏向数据分析，也越是我们的舒适圈。但是人与算法相比：
- 人的优点是：剥离噪声，总结归纳，能把书越读越少
- 机器的优点是：统计、推理，能把书越读越厚

发展了半个多世纪的计量经济学模型已经说明金融、定价这些“结果数据”，它们的信息构成是混沌且带有随机性的，因此，在出策略的时候，最好不要让机器“替代自己思考”，算法的结果最多只能给与一些启发，远达不到辅助思考的程度。同时也不要“特征多多益善”，垃圾特征就是噪声源，而机器是无法自己筛选的，所以首先要“人”是懂金融有逻辑的，然后“人”去构造算法。

除了调参外，提升机器学习模型的效果一般有两种：
- 人为构造经得起逻辑推敲的特征序列
- 不要预先按照数据分析的固有规则剔除特征

经验哈，比如博主常用的随机森林模型，在不做调参的情况下，想要只通过调整特征与数据提升效果时，首先，不要根据有偏分布什么的，把这个特征剔除。因为每一个特征都是一个视角，有的视角比较准确，但是有的视角思路清奇。但是每个视角都是有价值的，这时我们需要人为的参与，构造一些合适的视角来配合这些特征，对特征做再次的加工。越是没有重要性的特征，越是灵感的来源，提升的空间也越大！而预先剔除掉就亏大了。