论文标题:
Triformer: Triangular, Variable-Specific Attentions for Long Sequence Multivariate Time Series Forecasting
论文链接:
https://arxiv.org/abs/2204.13767v1
代码链接:
https://github.com/razvanc92/triformer
摘要
各种现实应用依赖于遥远未来的信息来进行决策,因此需要高效和准确的长序列多元时间序列预测。尽管最近的基于注意力的预测模型在捕捉长期依赖性方面表现出很强的能力,但它们仍然受到两个关键限制。首先,典型自注意的复杂度基于输入时间序列长度是二次的,因此效率较低。其次,不同变量的时间序列往往具有不同的时间动态,而现有的研究由于对所有变量的时间序列使用相同的模型参数空间(如投影矩阵)而未能捕捉到这一点,因此准确性不足。为了确保高效率和准确性,我们提出了Triformer,一种三角形的、变量特定的注意。(i)线性复杂度:我们引入了一种具有线性复杂度的新的小区域注意。当多层小区域注意叠加时,提出了一种三角形结构,使层尺寸呈指数递减,从而保持线性复杂度。(ii)变量特定参数:我们提出了一种轻量级方法,为不同变量的时间序列启用不同的模型参数集,以提高精度,而不影响效率和内存使用。来自多个领域的4个数据集的强有力的经验证据证明了我们的设计选择,并证明Triformer在准确性和效率方面都优于最先进的方法。
(抽象的看,有点类似于填数字的游戏,相邻数字做差法来预测未来的数字序列)
主要贡献
(i)提出了一种新颖的、有效的注意机制,即小区域注意及其三角形的多层结构。这确保了一个整体的线性复杂性,从而实现了很高的效率。(ii)提出了一种轻量级的方法来实现可变特定的模型参数,使从不同的变量中捕获不同的时间模式成为可能,从而提高准确性。(iii)对来自不同领域的四个公共的、常用的多元时间序列数据集进行了广泛的实验,证明了设计选择的合理性,并证明了该方案优于最先进的方法。
方法
线性小区域注意
循环连接中的门控规则
三角堆叠
当使用PAs时,只将小区域的伪时间戳提供给下一层,这使得层的大小以指数级缩小。更具体地说,(x+1)层的大小只有第1层的1/Sx,其中Sx是第x层的小区域大小。
在多层三角机中,每一层由不同数量的小区域组成,因此具有不同数量的输出,即伪时间戳。不是只使用每层的最后一个伪时间戳,而是将每层的所有伪时间戳聚合到一个聚合的输出中。
最后,将来自所有层的聚合输出连接到预测器上。这比使用最后一层的聚合输出带来两个好处。首先,聚合输出代表了来自不同时间尺度的特征,从而导致不同的时间视图。其次,它提供了多条梯度反馈短路径,从而简化了学习过程。
变量特异性模型
通过为每个变量引入不同的投影矩阵,可以实现一种简单的变量特殊建模,从而得到一个非常大的参数空间。图4 (a)显示,朴素方法需要学习每个投影矩阵的Ndd参数。这可能会导致过度转换,导致高内存使用,并且不能很好地扩展w.r.t.变量的数量为N。
为了应对上述挑战,提出了一种轻量级的方法来生成可变的特殊参数。此外,该方法是纯粹的数据驱动的,只依赖于时间序列本身,而不需要任何额外的先验知识。整个过程如图4 (b).所示首先,我们为每个变量引入一个m维内存向量M (i)∈Rm和i∈[1,N]。内存是随机初始化的和可学习的。这使得该方法纯粹是数据驱动的,并可以学习每个变量最突出的特征。
实验
效果还是很不错的。
总结
提出了三角结构,三角结构采用新的小区域注意,确保了线性复杂度。此外,提出了一种轻量值的方法来生成可变特定的投影矩阵,该矩阵可以捕获每个变量的时间序列的不同时间模式。