1. 模型索引及其关键点
- Autoformer - NeurIPS 2021:
周期项和趋势项分解——解耦不同时间模式,提高对时域依赖关系的提取能力
自相关机制——降低计算复杂度,实现子序列级的连接 - FEDformer - ICML 2022:
频域关系的提取——频域信息的稀疏性和紧凑性,便于建模,并降低计算复杂度 - DLinear - 2022:
质疑Transformers的有效性 - PatchTST - ICLR 2023:
Patch——计算逐片段的嵌入和注意力
通道独立策略——单通道预测单通道的数据,不同通道共享相同参数。 - iTransformer - ICLR 2024:
显示建模跨变量依赖关系——计算不同变量之间的注意力
series-wise 表示——对输入每个变量的整段序列进行嵌入 - TimesNet - ICLR 2023:
使用二维卷积对同一周期内与相同周期间依赖关系提取 - TSMixer - KDD 23:
时间混合和变量混合交替的范式
纯MLP的特征提取 - TimeMixer - ICLR 2024 :
多尺度分解——将输入序列通过下采样得到不同时间细粒度的子序列
多尺度混合——分别采用自上而下和自下而上的混合方式对不同尺度的趋势项和季节项进行混合 - TimeXer - 2024:
内生变量的自相关机制和外生变量的交叉注意力机制
全局Token的使用——内生变量全局Token与内生变量的局部信息交互和与外生变量全局 Token(全局信息)的交互 - xLstm:
新的骨干模型包含sLSTM、mLSTM两个变体 - MICN - ICLR 2023 notable top 5%:
基于等距卷积的全局信息建模——通过普通卷积提取局部信息,得到的下采样序列,接着使用等距卷积提取全局信息
多尺度分支混合预测 - SCINet - NeurIPS 2022:
递归式的下采样-卷积-交互结构——保证分解的每一个子序列都具有全局信息 - ModernTCN - ICLR 2024:
跨时间、跨变量、跨变量维度的全CNN建模
使用大卷积核,提高有效感受野 - CARD - ICLR 2024
跨时间、跨变量、跨变量维度的Attention——相同时间(patch-token)不同变量之间和不同隐藏维度之间的注意力 + 相同变量不同token之间和不同隐藏维度之间的注意力
平滑化的注意力
使用动态投影的降维
信号衰减的鲁棒损失函数
融合多尺度混合的多头合并方法 - PRformer 2024-08
金字塔RNN嵌入——使用卷积的自下而上的尺度提取,使用上采样的自上而下的尺度信息转移,两个过程相同尺度合并,用RNN提取混合后不同尺度的信息,获得模型的嵌入(transformer输入) - Crossformer - ICLR 2023 notable top 5%:
数据分段——和PatchTST不同角度
两阶段注意力层——捕获跨变量和跨时间的依赖关系
采用分层编码器-解码器结构——在不同层次(尺度)上利用信息进行预测
“路由器”结构的Attention,降低计算参数 - FiLM - NeurIPS 2022:
时间序列历史信息的紧凑表示
降低原始输入序列的噪声
2. 发展趋势
依赖关系的提取
Dlinear之前,模型主要探讨在时域和频域依赖关系的提取,计算输入嵌入不同时间步之间的相关性,或者在频域提取周期性依赖关系,利用频域信息的紧凑性降低计算复杂度。
这一时期的挑战是:时域复杂时间模式的提取困难;原始Transformer自回归式的逐点预测的局限性以及注意力机制带来的计算复杂度问题。
Dlinear之后,面对对Transformers有限性的质疑,不同模型从不同角度做出了改进总的来说有以下几个点:
- Transformer对时间序列顺序性提取的不足
PRformer认为其过分依赖位置嵌入,于是引入PRE,利用RNN对顺序性的捕获能力来弥补不足 - 外生变量对内生变量预测的作用被夸大,产生过拟合等问题
PatchTST直接引入了通道独立的策略,忽视外生变量的作用;同时不同通道的预测使用共享权重来提高泛化能力;使用patch降低计算复杂度,避免过拟合。
TimeXer使用Cross-attention与外生变量建立series级的交互,适度引入外生变量。 - 使用Transformer存在过度建模的问题
MLP,RNN等其他网络被关注起来,用于特征提取;并使用了大量的残差进行建模(如TiDE,过于保守)
但随之而来的是分Patch会出现信息不对齐的问题,iTransformer 将输入改为serie
级的表示;Sageformer提出Series-aware
,为每个序列添加Global token
,以此来增强模型对序列的感知能力,而后的TimeXer、CARD等模型也用到类似了Global token
的设计来实现历史信息与子序列间的交互。信息不对齐也可以是不同隐藏维度之间,后续CARD同时也计算了不同隐藏维度之间的注意力。
而时间序列的多尺度特性也被关注起来,即:时间序列在不同的采样尺度上呈现出不同的时间变化,而在时间细粒度上,细尺度和粗尺度往往反映不同维度的变化趋势(如宏观和微观)。因此呈现了多尺度分解和多尺度混合的建模策略,既可以先通过下采样分解序列,然后将不同尺度的数据送入相似的多尺度分支,将不同分支的结果混合,如TimeMixer、MICN;也可以在时间嵌入阶段提取多尺度信息,如PRformer;此外也有像CARD模型在多头拼接时融合相邻位置的信息,来混合多尺度信息。
此外,iTransformer证明了跨变量建模的有效性,随后越来越的模型使用PatchTST+iTransformer
模式,计算不同patch_embedding(时间上) 的注意力和不同变量间的注意力,最有名的是Crossformer(出现时间较早),它还是用到分层的encoder-decoder模式,不同层级代表不同的时间尺度。
12.5 更新分界线,持续更新优化中…