如何处理多频段时序特征？这个Transformer变体显著提升预测效果

Transformer 模型已在时间序列预测中展现了卓越的性能。然而，在一些复杂场景中，它倾向于学习数据中的低频特征，而忽略了高频特征，表现出一种频率偏差。这种偏差阻碍了模型准确捕捉重要的高频数据特征。

本文介绍一篇来自 KDD 2024 的论文，这是首篇研究时间序列预测中频率偏差问题的文章。其研究者通过实证分析来理解这种偏差，并发现频率偏差源于模型不成比例地关注具有更高能量的频率特征。基于分析，研究者提出了 Fredformer，这是一个基于 Transformer 的框架，旨在通过在不同频率带之间均衡地学习特征来减轻频率偏差。这种方法防止了模型忽视对准确预测至关重要的低幅特征。广泛的实验表明了这种方法的有效性，在实现了可比性能的同时，参数规模更少，计算成本更低。

【论文标题】

Fredformer: Frequency Debiased Transformer for Time Series Forecasting

【论文地址】

https://arxiv.org/abs/2406.09009

【论文源码】

https://github.com/chenzRG/Fredformer

论文背景

现有的 Transformer 模型在时间序列预测任务中，倾向于捕捉低频特征而忽略高频特征，这种频率偏差问题会导致模型无法准确捕捉重要的高频数据特征。而在复杂的时间序列预测场景中，准确捕捉各种时间变化（如趋势、季节性和波动）对于提高预测准确性至关重要。现有的方法在处理这些复杂变化时存在局限性。

图1：模型效果对比

从模型的角度来看，研究者注意到 Transformer 中普遍存在的一种学习偏差问题，即自注意力机制通常会优先考虑低频特征，而忽视高频特征。这种微妙的问题也可能出现在时间序列预测中，可能会偏向模型结果并导致信息丢失。

研究者探索了通过频率域建模来捕获复杂变化以进行准确时间序列预测的一个方向，进而提出了 Fredformer，这是一个去偏的 Transformer 模型。Fredformer 继承了频率分解的思路，且进一步研究了如何促进 Transformer 在学习频率特征时的使用。为了提高模型方法的有效性，研究者提供了对时间序列预测中频率偏差的全面分析以及去偏策略。该工作的主要贡献在于三个方面：

**问题定义：**研究者进行了实证研究，以调查这种偏差是如何被引入到时间序列预测 Transformer 中的。文中观察到，主要原因是关键频率成分之间的比例差异。值得注意的是，这些关键成分在预测的历史数据和真实数据中应该是一致的。此外，研究者还调查了影响去偏的目标和关键设计。
**算法设计：**Fredformer 有三个关键组件：用于频率带的补丁操作、用于减轻比例差异的子频率独立归一化，以及每个子频率带内的通道注意力，用于公平学习所有频率和注意力去偏。
**适用性：**Fredformer 采用 Nyström 近似来降低注意力图的计算复杂性，从而实现了具有竞争性能的轻量级模型。这为高效的时间序列预测开辟了新的机会。

理论分析

研究者通过两个案例研究来展示时间序列数据的频率属性如何导致 Transformer 模型的预测偏差，以及对潜在去偏策略的实证分析。如下图所示：