收益率16.6%！超越ChatGPT的股票预测模型来了，还能给出合理解释

股市变换莫测，任何一点风吹草动都可能影响股票的走势，面对这种不确定性，投资者们常常感到无所适从。

于是研究者们盯上了如今大火的大模型技术，试图通过高效地处理和分析海量的股市数据，挖掘出其中的隐藏规律和趋势，快速捕捉到新信息对市场的即时影响，预测未来股价的走势，为投资者提供决策支持。

例如，前不久小瑶就跟大家分享过一篇论文《碾压华尔街，GPT-4 选股收益超40%》。

今天再跟大家分享一篇近期发表在信息检索顶级会议WWW2024上的一篇论文，不仅收益率达到恐怖的16.6%，超越了ChatGPT，而且还能给出合理的决策解释！

论文标题：
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models

论文链接为：
https://arxiv.org/pdf/2401.18058.pdf

这篇论文提出了一个“总结-解释-预测”Summarize-Explain-Predict (SEP)的框架，该框架利用了一种模型自反思思想和近端策略优化（PPO），使LLM能够自主学习如何生成可解释的股票预测。

通过自反思过程，模型学习如何解释过去的股票波动。PPO训练过程中的训练样本来自反思过程中生成的响应，无需人工标注，极大得节省了人力，增大了生成的解释质量，并进一步提高股票预测的正确性。

任务定义：可解释的股票预测

给定一只股票及其过去天的相关文本语料库，目标是为下一个交易日生成一则股票预测，其中包括了一个二进制价格变动和一个可读的解释。

Summarize-Explain-Predict（SEP）框架

SEP框架包含三个主要组件,如下图所示：

总结：从非结构化文本输入中生成事实信息的摘要；
解释：通过迭代的自反思过程生成股票预测的解释并进行改进；
预测：:通过微调语言模型后使用自动生成的注释样本生成基于置信度的预测。

1. 自我总结模块：从海量文本中提取关键信息

鉴于𝑇天的原始文本中的信息会超过字符限制，自我总结模块利用LLMs强大的摘要能力，将大量文本输入数据转换为事实信息的要点摘要。提示包过两个可变输入：指定的股票，和每天的非结构化文本输入。然后LLM 生成影响股票的新闻摘要，例如“包括苹果（AAPL）、谷歌、亚马逊和Facebook在内的大型科技股票超出了盈利预期”。可以表示为：

2. 自我解释模块：通过自反思过程生成股价解释

自我解释模块的目标是双重的：一方面生成清晰的股票预测解释，另一方面通过迭代的自反思过程改进LLM自身的预测。

解释模块的提示包含两个变量输入：指定的股票和前一个模块生成的一系列提取信息的序列。给定这些输入，LLM 生成响应，其中应包含下一交易日的价格变动和一个可读的解释。形式化为：

在此过程中，还加入了自我反思循坏迭代改进回复，如下图所示:

从生成的价格变动中，通过评估其与实际情况的一致性获得二进制反馈。对于错误的样本，引入LLM 为每一次迭代生成一个口头反馈。

对于每一次迭代，每个反思代表LLM从失败中学到的教训，将其表示为一组反思，连同原始输入再次输入LLM ，以生成下一次迭代的价格变动和解释。

通过这个过程，能够获得每个成功的反思所对应的正确和错误回答的一对。分别将其定义为和，用于后续模块预测股票走势。

3. 自我预测模块：利用PPO训练优化预测能力

自我预测模块使用自我解释模块构建的数据样本微调LLM，以便在测试期间生成最可能的股票预测和解释。具体流程如图所示：

收集演示数据：从初始迭代中的正确预测中获取的,没有相应的“错误”回答。这些样本用于使用监督微调（SFT）方法训练一个监督策略。
收集比较数据：其中包含每个结构化输入的配对正确和错误回答和。是模型成功反思的正负样本对，用于训练一个奖励模型，为正确的回答给予更高的奖励分数。
使用有监督的策略初始化模型，然后利用它为整体数据集中随机选择的样本生成预测。接下来，奖励模型用于为每个回复生成奖励。通过最大化总体奖励来优化PPO模型。

在推理过程中，首先使用预训练的LLM对无结构化输入文本进行总结。然后，使用训练好的策略从总结的事实生成下一天的预测。对于生成预测，使用一个最佳采样器，在生成个响应之后，使用奖励模型的分数选择最佳响应。

实验设计

1. 数据集构建

本文遵循ACL18 StockNet数据集的收集方法，原始数据集的持续时间跨越2014年至2016年，作者又采集了2020年至2022年的更新版本。选择了11个行业中市值最高的前5只股票，共计55只股票。股价数据从Yahoo Finance收集，而推文数据则通过Twitter API获取。由于每天的推文数量庞大，作者采用了BERTopic聚类来识别每天的代表性推文，这些推文将作为所有模型的文本输入。

2. 评估指标

本文采用预测准确性和Matthews相关系数（MCC）作为评估指标，用于二元股票分类任务。准确性指标衡量模型预测的准确度，而MCC则考虑了真正例和假正例的比率，是一个更全面的性能指标。此外，还通过定性分析来评估模型生成解释的质量。