【量化交易、股票预测】MASTER:以市场为导向的股票价格预测变压器

简单概括
1 背景知识
2 详细方法
- 定义1：股价预测
- 2.1 概述
- 预测
- 2.2 Market-Guided Gating
- - 市场状况表示
- 定义2 ：市场导向的股价预测
- 2.3 门机制
- 2.4 Intra-Stock聚合
- 2.5 Inter-Stock聚合
- 2.6 Temporal Aggregation
- 2.7 预测与训练
- 2.8 讨论
- - 与现有工作的关系
- 2.9 复杂度分析
3 实验
- 3.1 数据集
- 3.2 Baselines
- 3.3 评价
- 3.4 实现
- 3.5 整体表现(RQ1)
- 3.6 Transformer结构(RQ2)
- 3.7 消融研究(RQ3)
- 3.8 注意图的可视化(RQ4)}
4 结论

简单概括

股价预测一直是一个长期以来的挑战性问题，这主要是由于股市的高波动性。最近的研究已经致力于建模复杂的股票相关性，以实现联合股价预测。现有的研究共享一个共同的模型架构，该架构学习来自个别股票序列的时间模式，并混合时间表示以建立股票相关性。然而，它们仅考虑时间对齐的股票相关性，这些相关性源自所有输入股票特征，这受到两个限制。首先，股票相关性通常是瞬时和跨时间的，其次，特征的有效性会随着市场变动而动态变化，这影响了股票序列模式及其相关性。为了解决这些限制，这篇文章引入了MASTER，一个市场引导的股票Transformer，它模拟了瞬时和跨时间的股票相关性，并利用市场信息进行自动特征选择。MASTER优雅地解决了复杂股票相关性问题，通过交替进行股票内部和股票间信息的汇总。实验表明，与先前的工作相比，MASTER的优越性，并可视化捕捉到的现实股票相关性，以提供有价值的见解。

论文题目：MASTER: Market-Guided Stock Transformer for Stock Price Forecasting
作者：Tong Li 1*, Zhaoyang Liu 2, Yanyan Shen 1†, Xue Wang 2, Haokun Chen 2, Sen Huang 2
单位：上海交通大学、阿里巴巴
代码：https://github.com/SJTU-Quant/MASTER

关注微信公众号，获取更多资讯
在这里插入图片描述

1 背景知识

股票价格预测是利用从股票市场收集的历史数据来预测未来趋势，是股票投资盈利的一项重要技术。不像固定时间序列通常表现出规律的模式，如周期性和稳定的趋势，股票价格序列的动态是复杂的，因为股票价格波动受多种因素的影响，包括宏观经济因素，资本流动，投资者情绪和事件。各种因素的混合将股票市场交织成一个相互关联的网络，这使得在不考虑其他股票的情况下，很难准确预测股票的个别行为。

之前的大部分作品(Feng et al. 2019;许等人2021;Wang等人2021,2022;Wang, Qu, and Chen(2022)在股票相关性领域依赖于预定义的概念、关系或规则，建立了静态相关性图，即同一行业的股票相互连接。虽然这些方法提供了股票之间关系的见解，但它们不能解释实时股票相关性。例如，同一行业内的不同股票在某一天可能会经历相反的价格变动。此外，预定义的关系可能不能推广到一个不断变化的市场中的新股，在这个市场中，公司上市、退市或主营业务变化等事件通常会发生。另一项研究(Yoo et al. 2021)遵循Transformer架构(Vaswani et al. 2017)，并使用自关注机制来计算动态股票相关性。这种数据驱动的方式更加灵活，适用于市场中时变的股票集。

尽管建立股票相关性的方案不同，但现有的方法通常遵循共同的两步计算流程。如图1所示，第一步是使用顺序编码器总结股票特征的历史序列并获得股票表示，第二步是通过使用图编码器或注意机制聚合来自相关股票的信息来细化每种股票表示。然而，这种流动受到两个限制。
在这里插入图片描述

图1:现有工作的架构。虚线表示潜在的瞬时和跨时间股票的相关性，它们位于一些(stock1, time1)、 (stock2, time2)对之间。

首先，现有的研究提炼了一个整体的股票表示，模糊了股票序列的时间特定细节，导致对事实上的股票相关性建模的弱点，这种相关性通常以瞬时和跨时间的方式发生 (Bennett, Cucuringu, and Reinert 2022)。具体来说，股票相关性是高度动态的，可能存在于不一致的时间步长，而不是通过整个回顾期。这是因为股票价格的主导因素是不断变化的，不同的股票对同一因素的反应可能有不同的延迟。例如，上游公司的股价对原材料短缺的反应可能比下游公司更快，个别股票表现出许多追赶和落后行为。

由于股票相关性可能存在于每个股票对和时间对之间，因此模拟瞬时和跨时间相关性的一种直接方法是收集 t x |S|特征向量进行成对关注计算，其中t为回顾窗口长度，S为股票集。然而，除了计算复杂度增加之外，这种方法还面临着实际困难，因为股票预测任务处于强烈的数据饥饿状态。直观地说，每年只有大约250个交易日，对股票的观察有限 (个人理解：数据量很小)。当模型采用如此大的关注域，而训练样本又不足时，往往难以优化，甚至可能陷入次优解。虽然聚类方法如局部敏感散列(Kitaev, Kaiser和Levskaya2020)已经被提出来减少注意力字段的大小，但它们对初始化很敏感，这是一个致命的问题在像股票预测这样的数据饥渴领域。为了解决这些挑战，我们提出了一种专门为股票价格预测设计的新型股票Transformer架构。我们的模型不是直接使用基于聚类的近似方法对τ x |S|注意力场或进行建模，而是交替地聚合来自不同时间步长和不同股票的信息，以模拟真实的股票相关性并促进模型学习。

现有工作的另一个局限是它们忽略了不同市场状况的影响。在市场变化的长期实践中，投资者观察到的一个重要特征是动态生效和失效的。特征的有效性影响股票内部序列模式和股票相关性。例如，在牛市中，由于投资者的乐观情绪，股票之间的相关性更加显著。传统的投资者通过反复的统计检验来选择有效特征，在与基于学习的方法相结合时，统计检验过于详尽，存在一定的差距。为了节省人力，我们为库存Transformer配备了一种新颖的门控机制，该机制结合了市场信息来执行自动特征选择。我们将提议的方法命名为MASTER，代表市场导向股票Transformer。总的来说，我们的主要贡献如下：

我们提出了一种新的股票价格Transformer预测，以有效地捕捉股票相关性。就我们所知，我们是第一个用基于学习的方法挖掘瞬时和跨时间股票相关性的。
我们引入了一种新的门控机制，该机制集成了市场信息，以自动选择相关特征，并适应不同的市场场景。
我们进行了实验来验证我们提出的方法的设计，并证明了其与基线相比的优越性。可视化结果为股票相关性的实时动态提供了有价值的见解。

2 详细方法

在每个时间步 $t\in[1,\tau]$ 收集每个股票的指标 $u\in \mathcal{S}$ ，形成特征向量 $x_{u,t} \in \mathbf{R}^F$ 。继现有的股票市场分析{feng2018enhancing, sawhney2020spatiotemporal, huynh2023efficient}的工作，我们的重点是股票价格的变化，而不是绝对价值的预测。收益率为 $d$ 天内相对收盘价变化，为 $\tilde{r}_{u}=(c_{u,\tau+d}-c_{u,\tau+1})/c_{u,\tau+1}$ ，其中 $c_{u,t}$ 为时间步长 $t$ 时股票 $u$ 的收盘价， $d$ 为预先确定的预测区间。与绝对价格变化相比，回报率使不同股票之间的市场价格变化正常化。由于股票投资是为了对最赚钱的股票进行排名和选择，我们对回报率进行每日Z-score归一化，用排名来编码标签 $r_{u}={\rm Norm}_\mathcal{S}(\tilde{r}_{u})$ ，就像之前的工作{yang2020qlib}一样。

定义1：股价预测

给定股票特征 $\{x_{u,t}\}_{u\in \mathcal{S}，t\in [1， \tau]}$ ，股票价格预测就是共同预测未来归一化收益率 $\{r_{u}\}_{u\in \mathcal{S}}$ 。

2.1 概述

图2描述了我们提出的方法MASTER的体系结构，它由五个步骤组成。

(1)市场导向门控。我们构建了一个代表当前市场状态的向量mτ，并利用它通过门控机制重新缩放特征向量，实现市场导向的特征选择。
(2)股内聚集。在每只股票的序列中，在每个时间步，我们聚合来自其他时间步的信息以生成一个局部嵌入，该嵌入保留股票的时间局部细节，同时沿时间轴收集所有重要信号。本地嵌入的 $h_{u,t}$ 将作为继电器，将采集到的信号传输到后续模块的其他库存。
(3)股间聚集。在每个时间步，我们使用注意机制计算股票相关性，并且每个股票进一步聚集其他股票的局部嵌入。聚集的信息 $z_{u,t}$ ，我们称之为时间嵌入，它不仅包含t时刻相关的股票的信息，还保留了 $u$ 的个人信息。
(4)时间聚集。对于每只股票，最后的时间嵌入查询所有历史时间嵌入来产生一个综合的股票嵌入 $e_{u}$ 。
(5)预测。综合的股票嵌入被发送到预测层进行标签预测。我们将在以下小节中逐步详细说明MASTER的细节。

预测

综合的股票嵌入被发送到预测层进行标签预测。我们将在以下小节中逐步详细说明MASTER的细节。

2.2 Market-Guided Gating

市场状况表示

首先，我们建议将两个方面的信息组合成一个向量 $m_\tau$ ，以对当前市场状况进行丰富的描述。

(1)市场指数价格。市场指数价格是一组股票的价格按其市值份额的加权平均值。 $\mathcal{S'}$ 通常由市值最高的顶级公司组成，代表特定的市场或部门，在投资 $\mathcal{S}$ 时可能与用户感兴趣的股票不同。我们既包括 $\tau$ 的当前市场指数价格，也包括历史市场指数价格，历史市场指数价格用过去 $d^{'}$ 天的平均值和标准差来描述，以揭示价格波动。这里， $d^{'}$ 指定在应用程序中引入历史市场信息的可参考间隔长度。
(2)市场指数交易量。 $\mathcal{S'}$ 的交易量揭示了投资者的参与，反映了市场的活跃程度。我们将过去 $d^{'}$ 天的市场指数交易量的平均值和标准差纳入其中，以揭示市场的实际规模。 $\mathcal{S'}$ 和 $d^{'}$ 与上述定义相同。现在我们提出了市场导向的股价预测任务。

定义2 ：市场导向的股价预测

给定 $\{x_{u,t}\}_{u\in \mathcal{S}，t\in [1， \tau]}$ 和构造的市场状态向量 $m_\tau$ ，市场导向股价预测就是共同预测未来归一化收益率 $\{r_u\}_{u\in \mathcal{S}}$ 。

2.3 门机制

门控机制为每个特征维度产生一个缩放系数，以放大或缩小特征的大小，从而强调或减少从特征流向后续模块的信息量。
通过模型训练学习门控机制，并根据特征对预测性能的贡献程度来优化系数，从而反映特征的有效性。

给定市场状态表示 $m_\tau, |m_\tau|=F'$ ，我们首先使用单个线性层将 $m_\tau$ 转换为特征维度 $F=|x_{u,t}|$ 。然后，我们沿着特征维度执行Softmax以获得分布。 $\alpha(m_\tau) = F\cdot {\rm softmax}_{\beta}(W_{\alpha}m_\tau+b_{\alpha}),$ 其中 $W_{\alpha}$ , $b_{\alpha}$ 为可学习矩阵和偏置， $\beta$ 为控制输出分布锐度的温度超参数。

Softmax迫使功能之间进行竞争，以区分有效和无效的功能。
这里，较小的温度 $\beta$ 促使分布集中于某一维度，门效应较强;较大的温度 $\beta$ 使分布趋于均匀，门效应较弱。
注意，我们将每个维度上的值放大 $F$ 倍作为缩放系数。该操作将生成的分布与每个维度为 $1/ F$ 的均匀分布进行比较，以确定值是放大还是缩小。

从 $m_\tau$ 产生系数的直觉是，特征的有效性受到市场状况的影响。例如，如果模型学习到移动平均线(MA)因素在波动的市场时期是有用的，那么当市场再次波动时，它将强调移动平均线。在相同的 $m_\tau$ 下， ${x_{u,t}\}$ , $u\in \mathcal{S}$ , $t\in [1, \tau]$ 共享 $\alpha$ ，因为我们合并了最新的市场状态来执行统一的特征选择。重新缩放的特征向量为 $\tilde{x}_{u,t} = \alpha(m_\tau) \circ x_{u,t}$ ，其中 $\circ$ 为Hadamard积。

2.4 Intra-Stock聚合

在MASTER中，我们先使用库存内聚合，再使用库存间聚合来分解庞大而复杂的注意力场。虽然整个市场是复杂的，单个股票的行为各异，但特定股票的模式往往是相对连续的。因此，由于其关注范围较小，分布更简单，我们首先进行股内聚合。在我们提出的股票内部聚合中，每个时间步长的特征聚合来自其他时间步的信息并形成局部嵌入。与现有的将特征序列混合到一个表示{yoo2021accurate}的方法相比，我们保留了一个局部嵌入序列，并通过库存内聚合的方式将重要信号序列告知，同时保留了局部细节。

我们首先将重新缩放的特征向量发送到特征编码器，并将其转换为嵌入空间 $y_{u,t}=f(\tilde{x}_{u,t})$ , $y_{u,t}|=D$ 。我们简单地使用一个线性层 $f(\cdot)$ 。然后，我们应用双向顺序编码器来获得每个时间步 $t$ 的本地输出。受基于Transformer的模型成功建模顺序模式的启发，我们用单层Transformer编码器{vaswani2017attention}实例化了顺序编码器。在特定时间步长的每个特征向量被视为一个标记，并且我们添加了一个固定的 $D$ -维正弦位置编码 $p_{t}$ 来标记回望窗口中的长期顺序。 $Y_u=||_{t\in[1,\tau]}\textsf{LN}(f(\tilde{x}_{u,t})+p_t),$ 其中 $∣∣$ 表示向量的拼接，LN表示层的归一化。然后，在每个时间步上嵌入的特征向库存序列中的所有时间步进行查询。我们引入多头注意机制，表示为MHA $(\cdot)$ ，使用 $N_1$ 头并行执行不同的聚合。我们还利用前馈层FFN $(\cdot )$ 来融合从多头注意中获得的信息。 $Q^1_u=W^1_QY_u,\quad K^1_u=W^1_KY_u,\quad V^1_u=W^1_VY_u,$ $H^1_u=||_{t\in[1,\tau ]} h_{u,t} =\textsf{FFN}^1(\textsf{MHA}^1(Q^1_u,K^1_u,V^1_u)+Y_u),$ 其中FFN是具有ReLU激活和剩余连接的两层MLP。因此，局部嵌入 $h_{u,t}$ 既保留了局部细节，又编码了来自其他时间步长的指示信号。

2.5 Inter-Stock聚合

然后，我们考虑从相关股票中汇总信息。与现有提取整体股票相关性的工作相比，我们建立了一系列对应于每个时间步长的瞬时股票相关性。与其使用与实时股票走势不匹配的预定义关系，我们建议通过注意机制挖掘不对称和动态的股票间相关性。相关性的质量将通过其对提高预测性能的贡献来衡量，并通过模型训练过程自动优化。

具体而言，在每个时间步，我们收集所有股票 $H^2_t=||_{u\in\mathcal{S}} h_{u,t}$ 的局部嵌入，并使用 $N_2$ 头部执行多头关注机制。 $Q^2_t = W^2_QH^2_t,\quad K^2_t=W^2_KH^2_t, \quad V^2_t=W^2_VH^2_t,$ $Z_t=||_{u\in\mathcal{S}} z_{u,t} =\textsf{FFN}^2(\textsf{MHA}^2(Q^2_t,K^2_t,V^2_t)+H^2_t).$ 通过FFN的残差连接，将瞬时相关股票的信息和股票 $u$ 本身的个人信息同时编码到时间嵌入 $z_{u,t}$ 中。

我们的股票转换器能够对股票的跨时间相关性进行建模，如图2(右)所示。首先通过股票 $v$ 的股票内部聚合将 $y_{v,j}$ 的局部详细信息传递到 $h_{v,i}$ ，然后在时间步长 $i$ 处通过股票间聚合将其传递到 $z_{u,i}$ ，从而对任意 $(v, j)$ 到 $(u, i)$ 的相关性进行建模。我们将在实验部分进一步可视化和解释捕获的跨时间相关性。

2.6 Temporal Aggregation

与现有的在股票相关性{feng2019temporal}建模后为每个股票获得一个嵌入的工作相比，我们的方法涉及产生一系列时间嵌入 $z_{u,t}, t\in[1,\tau].$ 每个 $z_{u,t}$ 都用与 $(u, t)$ 暂时相关的股票信息编码。为了总结获得的时间嵌入并获得全面的股票嵌入 $e_u$ ，我们沿时间轴采用了时间关注层。我们使用最新的时间嵌入 $z_{u,\tau}$ 作为查询向量，用变换矩阵 $W_{\lambda}$ 在隐藏空间中计算注意力得分 $\lambda_{u,t}$ 。 $\lambda_{u,t}=\frac{\exp(z^T_{u,t}W_{\lambda}z_{u,\tau})}{\sum_{i\in [1,\tau]} \exp(z^T_{u,i}W_{\lambda}z_{u,\tau})}, \quad e_u=\sum_{t\in[1,\tau]}\lambda_{u,t} z_{u,t}.$

2.7 预测与训练

最后，将股票嵌入 $e_u$ 输入预测器 $g(\cdot)$ 进行标签回归。我们使用单个线性层作为预测器，并通过MSE损失来衡量预测质量。在每个批次中，MASTER在特定的预测日期对所有 $u\in \mathcal{S}$ 进行联合优化。训练历元由多个批次组成，这些批次对应于训练集中不同的预测日期。 $\hat{r}_u=g(e_u), \quad L=\sum_{u\in \mathcal{S}}\textsf{MSE}(r_u, \hat{r}_u).$

2.8 讨论

与现有工作的关系

股票相关性建模一直是股票价格预测不可缺少的研究方向。今天，许多研究人员和定量分析师仍然选择线性模型、支持向量机和基于树的股票价格预测方法{nugroho2014decision,chen2016xgboost,kamble2017short,xie2013semantic,li2015tensor, piccolo1990distance}。股票内部和股票之间的相关信息的聚合通常是通过特征工程来实现的，这在很大程度上依赖于人工专业知识，并且经常面临因子衰减的风险。

受神经序列数据分析成功的启发，研究人员开始考虑库存特征序列并自动学习时间相关性。他们设计了各种序列模型，如基于rnn的{feng2019temporal, sawhney2021stock, yoo2021accurate, huynh2023efficient}，基于cnn的{wang2021hierarchical}和基于注意力的模型{liu2019transformer, ding2020hierarchical}，以挖掘股票的内部时间动态。最近的研究集中在股票相关性的建模上，在序列模型的后验中增加了一个相关模块，如图1所示。他们提出使用基于图的{feng2019temporal, xu2021hist,wang2021hierarchical, wang2022adaptive}、基于超图的{sawhney2021stock,huynh2023efficient}和基于注意力的{yoo2021accurate, xiang2022temporal}模块来构建整体股票相关性并进行联合预测。我们的MASTER致力于瞬时和跨时间股票相关性挖掘。为此，我们开发了一个新的模型体系结构，如图2所示，它与所有现有的方法完全不同。此外，MASTER专门用于股票价格预测，它在数据形式和任务属性上不同于现有的基于时空数据{bulat2021space, cong2021spatial, xu2020spatial,li2023memory}或多变量时间序列域{zhang2022crossformer, nie2022time}的基于变压器的模型。

2.9 复杂度分析

现在我们分析了我们提出的方法的计算复杂度。让 $M=|\mathcal{S}|$ ，市场导向门控重新缩放维度 $F$ 的 $\times \tau$ 特征向量。在股票内部聚合中，每只股票在每个关注头的成对关注计算量为 $\tau^2$ 。在股票间聚合中，每个时间步和每个关注头的计算量为 $M^2$ 。在时间聚合中，我们为每个股票计算 $\tau$ 注意力分数。总体计算复杂度为 $O(FM\tau+N_1M\tau^2D^2+N_2M^2\tau D^2+M\tau D^2)$ ，其中 $M\gg \tau$ 。因此，\frameworkname的时间复杂度为 ${\rm O}(N_2M^2\tau D^2)$ 。与直接在O $(NM^2\tau^2D^2)$ 中使用 $N$ 关注头对 $\times \tau$ 关注场进行操作相比，我们将计算成本降低了约 $\tau$ 倍，并且更有效地实现了股票间跨时间相关性的建模。MASTER中需要训练的整体参数为变换矩阵 $W^1_Q, W^1_K, W^1_V, W^2_Q, W^2_K, W^2_V, W_\lambda$ ，形状为 $D\times D$ , MLP层中的参数为 $\alpha, f, \textsf{FFN}^1, \textsf{FFN}^2$ 和 $g$ 。

3 实验

在本节中，我们通过实验来回答以下四个研究问题:

RQ1 与最先进的方法相比，MASTER的整体性能如何?
RQ2 建议的股票变压器架构对股票价格预测有效吗?
RQ3 超参数配置如何影响MASTER的性能?
RQ4 通过注意图的可视化，我们可以对股票相关性有什么见解?

3.1 数据集

我们用沪深300指数和沪深800指数对中国股票市场进行了评估。CSI300和CSI800是上交所和深交所市值最高的两组股票，分别包含300只和800只股票。数据集包含CSI300和CSI800从2008年到2022年的日常信息。我们使用2008年第一季度到2020年第一季度的数据作为训练集，2020年第二季度的数据作为验证集，并保留最近十个季度，即2020年Q3到2022年Q4 作为测试集。我们使用公开的Alpha158指标(Yang et al. 2020)从收集的数据中提取股票特征。设置回溯窗长度 $\tau$ 为8，预测区间 $d$ 为5。对于市场表征，我们以CSI300、CSI500和CSI800市场指数构建了63个特征，参考区间 $d^{'} = 5, 10, 20, 30, 60$ 。

3.2 Baselines

我们比较了MASTER与几个不同类别的股票价格预测基线的表现。

XGBoost (Chen and Guestrin 2016):基于决策树的方法。根据Qlib平台的排行榜(Yang et al. 2020)，它是最强的基线之一。
LSTM (Graves and Graves 2012)， GRU (Cho et al.2014)，
TCN (Bai, Kolter, and Koltun 2018)和Transformer (Vaswani et al. 2017): 利用vanilla LSTM/GRU/时间卷积网络/-Transformer沿着时间轴进行股票价格预测的顺序基线。
GAT (Velickovi等人，2017):基于图的基线，’ 首先使用顺序编码器获得股票演示，然后通过图注意力网络聚合信息1。
DTML (Yoo et al. 2021):一种最先进的股票相关挖掘方法，它遵循图1中的框架。DTML采用关注机制挖掘股票之间的动态相关性，并将市场信息纳入建模中。

3.3 评价

我们采用排名指标和基于投资组合的指标来对模型的性能进行全面的评估。排名指标包括信息系数(IC)、排名信息系数(RankIC)、信息比率IC (ICIR)和信息比率RankIC(RankICIR)。IC和RankIC是Pearson系数和Spearman系数在每日频率上的平均值。ICIR和RankICIR是IC的归一化指标和RankIC除以标准差。这些指标通常用于文献(例如，Xu et al. 2021和Yang et al. 2020)，从价值和排名角度描述预测结果的表现。此外，我们采用两个基于投资组合的指标来比较每种方法的投资利润和风险。我们使用一个简单的策略模拟每日交易，选择回报率最高的前30只股票，并报告超额年化回报率(AR)和信息比率(IR)指标。AR衡量投资产生的年度预期超额回报，而IR衡量风险调整后的投资绩效。

3.4 实现

我们使用PyTorch实现MASTER，并基于开源量化投资平台Qlib {yang2020qlib}构建我们的方法。对于DTML，我们基于原始论文来实现它，因为没有公开的官方实现。对于其他基线，我们使用它们的Qlib实现。对于每个基线方法的超参数，分别从 ${1,2,3\}$ 和 ${128, 256, 512\}$ 调整层数和模型大小。在 $\{10^{-i}\}_{i\in\{3,4,5,6\}}$ 之间调整学习率 $l r$ ，并根据验证阶段的IC性能选择最佳超参数。对于MASTER的超参数，我们在与基线相同的范围内调整模型大小 $D$ 和学习率 $l r$ ，最终选择所有数据集为 $D$ = $256$ , $l r$ = $10^{-5}$ ;我们对所有数据集设置 $N_1$ = $4$ , $N_2$ = $2$ ，对CSI300和CSI800分别设置 $\beta$ = $5$ 和 $\beta$ = $2$ 。在补充材料中总结了基线方法的更多实现细节。每个模型最多训练 $40$ 个提前停止的时代。所有实验均在Intel® Xeon® Platinum 8163 CPU、128GB内存、Tesla V100-SXM2 GPU (16GB内存)的服务器上进行。每个实验随机初始化，重复5次，报告平均性能。

3.5 整体表现(RQ1)

总体性能如表1所示，MASTER在6/8的排名指标上取得了最好的成绩，并且始终优于
组合来自指标。特别是MASTER实现
与平均意义上的第二好的结果相比，排名指标提高了13%，基于投资组合的指标提高了47%。请注意，排名指标是用整个组合来计算的，基于投资组合的指标主要考虑30只表现最好的股票。这两种指标的成就表明MASTER在不牺牲重要股票的准确性的情况下，对整个股票集具有良好的预测能力。显著的改进说明了股票相关建模的重要性，因此每只股票也可以从其他瞬时相关股票的历史信号中受益。我们还观察到所有方法在CSI300上比CSI800上获得更好的性能。我们认为，这是因为上证300指数由市值较大的公司组成，这些公司的股票价格更容易预测。与现有的股票相关方法(即DTML)相比，MASTER在所有6个指标上都表现出色，这表明所提出的MarketGuided Gating和aggregation技术在挖掘交叉股票信息方面比现有文献更有效。
在这里插入图片描述

表1：整体性能比较。最好的结果用粗体表示，次好的结果用下划线表示。*表示在所有基线上有统计学显著改善(通过t检验，p值< 0.01)。

3.6 Transformer结构(RQ2)

通过四种设置下的实验，验证了我们的专用变压器结构的有效性。(1)(MA)STER，这是我们不带门控的Transformer。(2) (MA)STER-Bi，其中我们用双向LSTM代替单层Transformer编码器，以证明我们提出的架构的有效性不与强顺序编码器耦合。(3) Naive，直接对 $\tau \times |\mathcal{S}|$ 令牌进行信息聚合。(4)聚类，其中我们采用局部敏感哈希(Kitaev, Kaiser, and Levskaya 2020)，通过相似性将所有令牌分配到10个桶中，并在每个组内执行聚合，这是一个经典的任务不可知减小注意场规模的技术。为了公平的比较，在(3)和(4)中，我们首先使用相同的变压器编码器来提取令牌嵌入，然后使用与我们的备用变压器相同的多头注意机制，因此唯一的区别是注意字段。由于资源的限制，我们只在CSI300数据集上进行实验。表2中的结果说明我们量身定制的股票变压器架构的有效性，该架构可执行股票内部聚合和股票之间的聚合。
在这里插入图片描述

表2：在CSI300上进行了实验，验证了所提变压器结构的有效性。最好的结果以粗体显示，第二好的结果以下划线显示。

3.7 消融研究(RQ3)

首先，我们对(N1, N2)组合进行消融研究。CSI300的结果如图3所示，CSI800的结果也类似。与各设置下的固有方差相比，不同头像组合间的差异不显著。在研究范围内，大多数设置始终优于基线。
在这里插入图片描述

图3:CSI300上不同 $N_1, N_2)$ 组合下指标的平均值和标准差。

其次，我们研究了温度 $\beta$ 对浇注机理的影响。如前所述，较小的 $\beta$ 强制更强的特征选择，而较大的 $\beta$ 关闭门控效应。图4显示了 $\beta$ 变化时的性能。CSI300是一个相对简单的数据集，其中大多数特征都很有效，因此期望温度更大以放松特征选择，而复杂的CSI800数据集需要更强大的特征选择干预，其 $\beta$ 的最佳性能较小。
在这里插入图片描述

图4:随β变化的MASTER性能。水平虚线是没有市场导向门控的表现。

3.8 注意图的可视化(RQ4)}

我们展示了MASTER如何捕获以前的方法不足以表达的瞬时和跨时间股票相关性。图5显示了回顾窗口中不同时间步长的股票间注意力图。我们选择三个代表性股票作为目标，样本 $100$ 随机股票作为源进行可视化。突出显示的部分是分散的，而不是整齐的条状，这意味着相关性是短暂的，而不是长期的。此外，股票间的相关性是稀疏的，只有少数股票与目标股票有很强的相关性。图\ref{fig:stock2stock}显示了股票对之间的相关性，以显示相关性如何驻留在时间上。从源股 $v$ 到目标股 $u$ ，我们计算 $I_{u\leftarrow v}[i,j]=\mathrm{S}^1_v[i,j]\mathrm{S}^2_i[u,v]$ 为 $\tau\times\tau$ 相关图， $\mathrm{S}^1$ 和 $\mathrm{S}^2$ 为股票内和股票间的关注图。首先，突出显示的块不在对角线的中心，因为股票相关性通常是跨时间的，而不是时间对齐的。第二，左边的两个图完全不同，说明 $u\leftarrow v$ 和 $v\leftarrow u$ 之间的相关性是高度不对称的。第三，当回顾窗口滑动到不同日期的预测时，挖掘的相关性的重要性变化缓慢。如右两图中的闭塞区域对应不同预测日期的相同绝对时间范围，其模式有一定的相似性。

在这里插入图片描述

图5:2022年8月 19日三只目标股的相关性。y轴是回顾窗口中的时间步长，x轴是源股。Avg.为均匀分布值。

在这里插入图片描述

图6:2022年8月19日和25日股票对的跨时间相关性。x轴是源时间步长， y轴是目标时间步长。

4 结论

本文提出了一种新的股票价格预测方法MASTER，该方法对真实的股票相关性进行建模，并结合市场信息指导特征选择。MASTER由五个步骤组成:市场导向门控、股内聚集、股间聚集、时间聚集和预测。在中国市场进行的2个股票宇宙的实验表明，与所有基线相比，MASTER在排名指标上平均提高了13%，在基于投资组合的指标上平均提高了47%。注意力图的可视化揭示了事实上的瞬时和跨时间股票相关性。综上所述，我们为研究股票相关性提供了一个更加粒度的视角，同时也表明了市场信息的有效应用。未来的工作可以探索挖掘更高质量的股票相关性，并研究市场信息的其他用途。