时序必读论文14|VLDB24 TFB:全面且公平的时间序列预测方法框架

news2024/10/2 0:25:24

图片

论文标题:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods

论文链接:https://arxiv.org/pdf/2403.20150.pdf

代码链接:https://github.com/decisionintelligence/TFB

前言

五一过后读的第一篇文章,质量非常高。与以往对时序模型修补、改进类的算法论文不同,TFB这篇文章关注的是整个时间序列领域更高的层面的问题。其实从我开始写文章以来,就陆续收到私信,询问:为什么论文中SOTA的模型,放到我的数据集不work /效果不好/不如线性模型?包括我在kaggle社区也发现,几乎所有的业界时序预测竞赛,大家用XGboost类算法,而非深度学习。

这说明:不同应用领域的数据集与不同时序模型之间其实存在一个内在的Gap,本篇文章就通过对当前时序研究“不规范”、不全面的地方进行系统分析,从数据集、对比方法、评估流程三个方面,构造了一个可插拔的自动化基准。为时序研究人员提供了更全面可用的基准工具集。

当前时序研究框架存在的不足

现有时序研究在整个评估框架上存在的三方面问题:

问题1:数据领域覆盖不足。

不同领域的时间序列可能会表现出多样化的特征。图1a是环境领域的时序数据,呈现出明显的季节性模式。图1b展示了一个经济领域的时间序列,具有明显的增长趋势。图1c是电力领域时序,可以看到在某个时间点数据发生了显著变化,这可能是一个突发事件等。以上这些简单模式只是冰山一角,不同领域的时序可能具有更复杂的模式。因此,仅使用有限的领域会导致时间序列特征的覆盖范围有限,无法提供一个完整的视角。

图片

图2总结了现有预测基准测试中使用的多变量数据领域。可以观察到TSlib、LTSF-Linear、BasicTS和BasicTS+只包含了大约10个数据集,覆盖的领域少于或等于5个。而且这些数据集主要集中在交通和电力这两个领域。由于TSlib中的多变量时间序列数据集是最常用的,作者调查了TSlib和TFB中数据集特征值的变化——如下右图。可以观察到TFB数据集在六个特征上的分布比TSlib更加多样化。由此可以认为:扩大领域覆盖范围是有益的,这有助于对方法性能进行更广泛的评估

图片

问题2:对传统方法的刻板偏见。

作者在不同领域(股票市场、能源、健康)的三个数据集上对VAR、PatchTST、线性回归(LR)、NLinear、FEDformer和Crossformer等方法进行了实验,结果如下表。令人惊讶的是,VAR在股票数据上超越了所有最近提出的最新技术(SOTA)方法,在ILI上也优于FEDformer和Crossformer。此外,LR在Wind上的表现也优于最近提出的最新技术方法。

然而,原始论文的实验却并没有将VAR和LR纳入基线比较,而是假设传统方法无法获得有竞争力的性能!通过比较广泛的方法范围,消除对传统方法的刻板偏见是有益的。

图片

问题3:缺乏一致且灵活的流程。

不同方法的性能会随着实验设置的变化而变化,例如,在训练/验证/测试数据之间的划分、归一化方法的选择以及超参数设置的选择。这一部分就是我的上一篇文章想讲的“drop last”的影响,作者详细讨论了当前时序研究"Drop last"带来的对比误差,结果如下图,具体可参考原论文。此外,大多数基准测试中的流程缺乏灵活性,不支持统计学习、机器学习和深度学习方法的同时评估。而确保一个一致且灵活的流程至关重要,这样就可以在相同的设置下进行评估,从而提高发现的公平性。

图片

本文工作

围绕以上问题,作者提出时间序列预测基准(Time series Forecasting Benchmark,TFB),以更全面地跨应用领域和方法对时间序列预测(TSF)方法进行实证评估和比较,并提高评估的公平性。

解决问题1:

根据数据集特征分类方法进行全面的数据集收集,提供多样化的特征,涵盖来自多个领域和复杂设置的时间序列。包含25个多变量和8,068个单变量数据集,其数据格式都是一致的,涵盖了广泛的领域和特性。这一部分作者对单变量、多变量数据集进行细致分析,具体可看原文。

特别是还对数据集的全面性进行讨论。考虑数据的五个特征值:趋势性、季节性、平稳性、漂移性和转移。采用PCA将维度从五维降低到二维,并可视化了八个单变量时间序列数据集。可以看到,TFB和M4覆盖的单元格最多,而其他所有基准相对于TFB都较小。这说明数据集在特征分布多样性方面的覆盖了更广泛的领域。

图片

解决问题2:

如下图,TFB框架扩展了评估策略和指标:包括统计学习、机器学习和深度学习方法,引入多种评估策略和指标,使其更全面地评估模型。

图片

解决问题3:

设计灵活且可扩展的评估流程框架,通过统一的流程进行评估,采用一致且标准化的评估策略。包括:固定预测和滚动预测。以及包括MAE、MSE等在内的八种误差度量指标。

图片

最后,如下图:作者引入了一个统一的评估流程,分为数据层、方法层、评估层和报告层。用户只需在方法层部署他们的方法架构,并选择或配置配置文件,然后TFB就可以自动运行图中的流程。

图片

实验和总结

作者对TFB中包含的所有数据集,包括25个多变量数据集和8,068个单变量时间序列,以及前文提到的所有baseline方法,进行细致的实验分析,限于篇幅不在展示。

我比较关心的一些结论:

  • 线性模型在数据集呈增长趋势或具有显著漂移时表现出色。这可以归因于线性模型的线性建模能力,使其能够很好地捕捉线性趋势和漂移。

  • Transformer方法在展现明显季节性、平稳性和非线性模式,以及更明显模式或内在相似性的数据集上优于线性方法。这种优越性可能源于Transformer方法增强的非线性建模能力。

Anaway,没有适合所有数据集的模型,要根据具体情况选择。本文给出的数据集,以及构建的一整套训练框架对于模型效果评估验证是很好的。


大家一定要关注我的公众号【科学最top】,第一时间follow时序高水平论文解读!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2183451.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL 大数据量导入与导出全攻略

《MySQL 大数据量导入与导出全攻略》 在实际的数据库应用中,我们经常会遇到需要处理大数据量的导入和导出的情况。无论是数据迁移、备份恢复,还是数据共享,高效地处理大数据量都是至关重要的。那么,MySQL 是如何应对大数据量的导…

深度学习 Transformer 的标签平滑(Label Smoothing)

01 引言 标签平滑(Label Smoothing)是一种正则化技术,用于深度学习中的分类任务,尤其是在Transformer模型中。它的目的是减少模型对于训练数据中硬标签(hard labels,即标准的one-hot编码)的过…

期权卖方怎么选择权利金高的品种,期货VIX高低对行情有什么影响

VIX指数——全称为芝加哥期权交易所市场波动率指数,俗称恐慌指数。 是衡量波动性的重要指标。VIX指数上升,预期未来市场波动性会增加。VIX指数下降,预期未来市场波动性会降低。 期货VIX指数最新价格排序 期权卖方尽量选择期货VIX指数在25以…

【亲测】windows快捷键冲突检测(可删除)-OpenArk

官方下载链接:Releases BlackINT3/OpenArk (github.com) CSDN下载链接:【免费】windows快捷键冲突检测:OpenArk-v1.3.6.zip资源-CSDN文库 内核 -> 系统热键 -> 进入内核模式

10.2 Linux_并发_进程相关函数

创建子进程 函数声明如下: pid_t fork(void); 返回值:失败返回-1,成功返回两次,子进程获得0(系统分配),父进程获得子进程的pid 注意:fork创建子进程,实际上就是将父进程复制一遍作为子进程&…

深度学习500问——Chapter17:模型压缩及移动端部署(3)

文章目录 17.7 压缩和加速方法如何选择 17.8 改变网络结构设计为什么会实现模型压缩、加速 17.8.1 Group convolution 17.8.2 Depthwise separable convolution 17.8.3 输入输出的channel相同时,MAC最小 17.8.4 减少组卷积的数量 17.8.5 减少网络碎片化程度&#xf…

【Vue】vue2项目打包后部署刷新404,配置publicPath ./ 不生效问题

Vue Router mode,为 history 无效,建议使用默认值 hash;

C++语言学习(2): name lookup 的概念

何谓 name lookup C 中很重要的一个概念:name lookup。 当编译器在遇到一个 name 的时候, 会做查找(lookup),会把引入这个 name 的声明和它关联起来,具体来说,又包含两种类型的 lookup&#xf…

深蕾半导体Astra™ SL1620详细介绍,嵌入式物联网处理器

一,SL1620是什么 Astra™ SL系列是深蕾半导体推出的高度集成的嵌入式物联网处理器SoC(System on Chip)系列产品,专为多模式消费者、企业和工业物联网工作负载而设计。SL1620是Astra™ SL系列中的一款成本和功耗优化的安全嵌入式So…

数据结构-3.8.栈在括号匹配中的应用

一.括号匹配问题: 1.例一: 把左括号依次压入栈中,越往后压入栈的左括号越先被匹配即被弹出栈->先进后出,后进先出 2.例二: 当遇到左括号就压入栈中,当遇到右括号就把栈顶的左括号弹出,检查…

计算机毕业设计 基于协同过滤算法的个性化音乐推荐系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

Linux系统命令:用于改变用户的登录 Shell 的命令chsh命令详解

目录 一、概述 二、用法 1、基本用法 2、常用选项 3、获取帮助 三、示例 1. 更改当前用户的登录 Shell 2. 更改其他用户的登录 Shell 3、列出所有可用的 shell 四、 注意事项 1、已经安装好 2、权限 3、密码验证 4、shell 路径 5、生效时间 五、示例输出 一、概…

mfc140u.dll缺失?快速解决方法全解析,解决mfc140u.dll错误

当你的电脑出现找不到mfc140u.dll的问题,不少用户在使用电脑时陷入了困扰。这个错误提示就像一道屏障,阻挡了用户正常使用某些软件。无论是办公软件、游戏还是专业的设计工具,一旦出现这个问题,都会导致软件无法正常运行。如果您也…

复数表示的电场

Exm加是复振幅,这是用复数表示电场,并提取只与空间有关的项复振幅就是复数表示电场,且把与空间xyz有关的量提取出来 经过验证实数E0cos(wtδx)对t求导,等于E0e^j(wtδx)对t求导再取实部 实数表示电磁波cos…

Windows11系统下SkyWalking环境搭建教程

目录 前言SkyWalking简介SkyWalking下载Agent监控实现启动配置SkyWalking启动Java应用程序启动Elasticsearch安装总结 前言 本文为博主在项目环境搭建时记录的SkyWalking安装流程,希望对大家能够有所帮助,不足之处欢迎批评指正🤝&#x1f91…

openpnp - 底部相机高级校正的参数设置

文章目录 openpnp - 底部相机高级校正的参数设置概述笔记修改 “Radial Lines Per Calibration Z” 的方法不同 “Radial Lines Per Calibration Z”的校验结果不同 “Radial Lines Per Calibration Z”的设备校验动作的比较总结备注END openpnp - 底部相机高级校正的参数设置 …

5G NR物理信道简介

文章目录 NR 上行物理信道PRACHPUCCHPUSCH NR 下行物理信道PBCHPDCCHPDSCH NR 上行物理信道 PRACH PRACH(Physical Random Access Channel)物理随机接入信道,用于传导preamble 序列。PRACH 由循环前缀CP、前导序列和保护间隔三部分组成。 PUCCH PUCCH…

相互作用的检索增强 3D 分子生成扩散模型 - IRDiff 评测

IRDiff 是一个全新的基于蛋白质-配体相互作用的检索增强 3D 分子扩散模型,可以生成目标感知的分子。IRDiff 利用一组设计好的参考配体分子来引导扩散模型生成满足目标特性的分子。 一、背景介绍 IRDiff 来源于清华大学深圳国际研究生院的杨文明教授和鹏城实验室的王…

通信工程学习:什么是POP3邮局协议版本3

POP3:邮局协议版本3 POP3(Post Office Protocol - Version 3),即邮局协议版本3,是TCP/IP协议族中的一员,由RFC1939定义。它是一种用于电子邮件接收的协议,主要规定了个人计算机如何连接到互联网…