论文笔记-时序预测-Informer

news2025/7/3 3:34:39

在这里插入图片描述
论文标题：
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
论文链接：
https://arxiv.org/abs/2012.07436
源码链接：
https://github.com/zhouhaoyi/ETDataset

摘要

许多实际应用都需要对长序列时间序列进行预测，例如电力消耗规划。长序列时间序列预测(LSTF)要求模型具有较高的预测能力，即能够有效地精确捕捉输出与输入之间的长期依赖关系。最近的研究表明，Transformer具有提高预测能力的潜力。然而，Transformer存在一些严重的问题，这些问题使它不能直接应用于LSTF，包括二次时间复杂度、高内存占用和编码器-解码器架构的固有局限性。为了解决这些问题，我们设计了一个高效的基于Transformer的LSTF模型，命名为Informer，它有三个显著的特点:(i) ProbSparse自我注意机制，在时间复杂度和内存使用方面达到O(L log L)，在序列依赖对齐方面具有相当的性能。(ii)自注意力蒸馏通过将级联层输入减半来突出注意力，并有效地处理极长的输入序列。(iii)生成式解码器虽然概念简单，但对长时间序列的预测进行一次正向操作，而不是step-by-step地进行，大大提高了长序列预测的推理速度。在4个大规模数据集上的大量实验表明，Informer方法明显优于现有方法，为LSTF问题提供了一种新的解决方案。

三个主要问题：1.计算复杂度，2.内存，3.推理速度

主要贡献：
1.概率稀疏自注意力（ProbSparse self-attention），通过“筛选”Query 中的重要部分，减少相似度计算；
2.自注意力蒸馏（Self-attention distilling），通过卷积和最大池化减少维度和网络参数量；
3.生成式解码器（Generative style decoder），一次前向计算输出所有预测结果。