时序预测双飞轮,全面超越Transformer,纯MLP模型实现性能效能齐飞

news2024/10/5 21:16:44

本文作者简介:王世宇,蚂蚁集团算法专家,在AI创新技术部NextEvo主要负责时序算法研究方向,主导时序预测平台建设和时序算法创新研发和架构工作,推动预测与决策联动的双引擎能力。在ICLR, IJCAI, KDD, AAAI, WSDM, ICDM, DASFAA等顶级会议发表多篇论文。

往期文章推荐

谷歌、Meta、Claude、Perplexity都在争取与苹果AI整合;阿里联合华东师大发布AI视频工具

Claude 3.5 Sonnet发布,比GPT-4o更智能;OpenAI CTO预测1年半“博士级智能”AI将出现

导读

在数据驱动的时代,时序预测成为了许多领域中不可或缺的一部分。从金融市场的波动预测到智能制造中的设备故障预警,时序数据分析的准确性和效率直接影响着决策的质量和速度。

近年来,Transformer模型因其在自然语言处理(NLP)和计算机视觉(CV)中的卓越表现,引起了广泛关注。然而,Transformer在处理时序数据时存在一定的局限性,如计算复杂度高、对长序列数据处理不够高效等问题。

为了解决这些问题,近期蚂蚁集团和清华大学联合推出一种纯MLP架构的模型TimeMixer,在时序预测上的性能和效能两方面全面超越了Transformer模型,实现时序预测双飞轮。

结合对时序趋势周期特性的分解以及多尺度混合的设计模式,不仅在长短程预测性能上大幅提升,而且基于纯MLP架构实现了接近于线性模型的极高效率,实现预测性能和模型效能齐飞。

论文地址:

https://openreview.net/pdf?id=7oLshfEIC2

ARXIV地址:

https://arxiv.org/abs/2405.14616v1

论文代码:

https://github.com/kwuking/TimeMixer

论文概述

TimeMixer是一种全新的时序预测模型,采用了纯多层感知机(MLP)架构,彻底摒弃了复杂的自注意力机制。该模型通过引入可分解的多尺度混合机制,在保持高精度预测的同时,大幅降低了计算复杂度和训练时间。

  • 核心观察—History Extraction历史信息抽取:鉴于季节和趋势成分在时间序列中表现出明显不同的特征,并且时间序列的不同尺度反映了不同的属性,在细粒度的微观尺度上季节性特征更加明显,而在粗粒度的宏观尺度上趋势特征更加明显,因此,有必要在不同尺度上分离季节性和趋势成分。

  • 核心观察—Future Prediction未来预测:整合不同尺度的预测得到最终的预测结果,不同尺度表现出互补的预测能力。

模型框架

TimeMixer模型采用了一个多尺度混合架构,旨在解决时间序列预测中的复杂时间变化问题。该模型主要采用全MLP(多层感知机)架构,由过去可分解混合Past Decomposable Mixing (PDM) 和未来多预测器混合Future Multipredictor Mixing (FMM) 两大块构成,能够有效利用多尺度序列信息。

  • Past Decomposable Mixing:PDM负责提取过去的信息并将不同尺度上的季节性和趋势组分分别混合。

PDM以季节和趋势混合为动力,将详细的季节信息由细到粗逐步聚合,并利用较粗尺度的先验知识深入挖掘宏观趋势信息,最终实现过去信息提取中的多尺度混合。

  • Future Multipredictor Mixing:请注意,未来多重预测器混合 (FMM) 是多个预测器的集合,其中不同的预测器基于不同尺度的过去信息,使 FMM 能够集成混合多尺度序列的互补预测功能。

实验效果

为了验证TimeMixer的性能,我们在包含长程预测,短程预测,多元时序预测以及具有时空图结构的18组基准数据集上进行了实验,包括电力负荷预测、气象数据预测和股票价格预测等。实验结果表明,TimeMixer在多个指标上全面超越了当前最先进的Transformer模型,具体表现如下:

  • 预测精度:在所有测试的数据集上,TimeMixer均表现出更高的预测精度。以电力负荷预测为例,TimeMixer相比于Transformer模型,平均绝对误差(MAE)降低了约15%,均方根误差(RMSE)降低了约12%。
  • 计算效率:得益于MLP结构的高效计算特性,TimeMixer在训练时间和推理时间上均显著优于Transformer模型。实验数据显示,在相同硬件条件下,TimeMixer的训练时间减少了约30%,推理时间减少了约25%。
  • 模型可解释性:通过引入Past Decomposable Mixing和Future Multipredictor Mixing技术,TimeMixer能够更好地解释不同时间尺度上的信息贡献,使得模型的决策过程更加透明和易于理解。
  • 泛化能力:在多个不同类型的数据集上进行测试,TimeMixer均表现出良好的泛化能力,能够适应不同的数据分布和特征。这表明TimeMixer在实际应用中具有广泛的适用性。
  • 长程预测:为了确保模型比较的公平性,使用标准化参数进行实验,调整输入长度、批量大小和训练周期。此外,鉴于各种研究的结果通常源于超参数优化,我们包括综合参数搜索的结果:

  • 短程预测:多变量数据

  • 短程预测:单变量数据

  • 消融实验:为验证TimeMixer每个组件的有效性,我们在所有18个实验基准上对Past-Decomposable-Mishing和Future-Multipredictor-Mishing 模块中的每种可能的设计进行了详细的消融研究。

  • 模型效率:我们将训练阶段的运行内存和时间与最新最先进的模型进行比较,其中TimeMixer在GPU内存和运行时间方面,对于各种系列长度(范围从 192 到 3072)始终表现出良好的效率),此外还具有长期和短期预测任务一致的最先进性能。值得注意的是TimeMixer作为深度模型,在效率方面表现出接近全线性模型的结果。这使得TimeMixer在各种需要高模型效率的场景中大有前途。

总结

本文介绍了TimeMixer这一全新的时序预测模型。通过引入可分解的多尺度混合机制,TimeMixer在保证高预测精度的同时,实现了显著的计算效率提升。实验结果表明,TimeMixer在多个公开数据集上的表现全面超越现有基准模型,包括Transformer极其多种变体在内。

TimeMixer的成功不仅为时序预测领域带来了新的思路,也展示了纯MLP结构在复杂任务中的潜力。未来,随着更多优化技术和应用场景的引入,相信TimeMixer将进一步推动时序预测技术的发展,为各行业带来更大的价值。

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育,覆盖大规模图学习,因果推理,知识图谱,大模型等技术领域,欢迎扫码关注,解锁更多 AI 资讯~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1869641.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++面试八股文:std::deque用过吗?

100编程书屋_孔夫子旧书网 某日二师兄参加XXX科技公司的C工程师开发岗位第26面: 面试官:deque用过吗? 二师兄:说实话,很少用,基本没用过。 面试官:为什么? 二师兄:因为使…

OverTheWire Bandit 靶场通关解析(上)

介绍 OverTheWire Bandit 是一个针对初学者设计的网络安全挑战平台,旨在帮助用户掌握基本的命令行操作和网络安全技能。Bandit 游戏包含一系列的关卡,每个关卡都需要解决特定的任务来获取进入下一关的凭证。通过逐步挑战更复杂的问题,用户可…

Unity开发者转UE 新手必读

前言 本页面为熟悉Unity的用户概述了 虚幻引擎(UE)。如果你具备一些Unity知识,而且想学习如何运用自己所学的知识在虚幻引擎中工作,下面各小节将帮助你入门。 下面的截图并排显示了Unity和虚幻编辑器。各个区域采用相同的颜色来表示相同的功能。每个区…

评估大型语言模型生成文章的能力

1. AI解读 1.1. 总体概要 本文探讨了大型语言模型(LLMs)如GPT-4在生成特定领域(如计算机科学中的自然语言处理NLP)教育调查文章方面的能力和局限性。研究发现,尽管GPT-4能够根据特定指导生成高质量的调查文章&#x…

商城积分系统的设计方案(上)-- 需求分析

一、背景 用户在参与公司的促销活动,比如邀请用户下单支付,可以获得虚拟货币。它可以用于解锁学习课程。 商品在定价的时候,需支持虚拟货币,用户在购买该商品的时候,可使用虚拟货币进行支付。 在电商体系中&#xf…

logging 模块简单使用记录

文章目录 1、logging 基本架构2、Logger 日志记录器及基础配置2.1 基础配置函数logging.basicConfig() 3、Handler 日志处理器 、 Formatter 格式化器和 Filterer 日志过滤器3.1 logging 模块提供的 Handler:[官方网址](https://docs.python.org/2/howto/logging.ht…

拍照就用华为Pura 70系列,后置真实感人像轻松出片!

平时喜欢用手机记录生活的人是不是总有个烦恼,想要拍出媲美单反的完美人像,又怕照片失真,经过近期对手机摄影的探索,我发现了华为Pura70系列的真实感人像之美,它给予每个热爱生活的人直面镜头的自信,记录真…

基于AiService实现智能文章小助手

顾名思义,这个应用就是希望能利用大模型的能力来帮助我写文章,那这样一个应用该如何利用LangChain4j来实现呢?接下来我们来利用AiService进行实现。 AiService代理 首先,我们定义一个接口Writer,表示作家&#xff1a…

002 使用kibana操作ElasticSearch7.x

文章目录 4.使用kibana操作es4.1.文档操作1.put方式发送数据2.post方式发送数据3.查看索引文档 GET4.更新文档 POST5.删除文档&索引 DELETE6.批量添加数据_bulk 4.2.Query DLS(查询领域对象语言)1.url 检索数据语法2.查询所有数据3.查询全部数据并排序4.查询全部数据排序并…

面试-java异常体系

1.java异常体系 error类是指与jvm相关的问题。如系统崩溃,虚拟机错误,内存空间不足。 非runtime异常不处理,程序就没有办法执行。 一旦遇到异常抛出,后面的异常就不会进行。 (1)常见的error以及exception 2.java异常要点分析…

安全感爆棚,锁定六氟化硫SF6气体泄漏报警监测系统

一、概述 六氟化硫SF6气体已有百年历史,它是法国两位化学家Moissan和Lebeau于1900年合成的人造惰性气体, 1947年提供商用。当前SF6气体主要用于电力工业中。化学性质稳定。微溶于水、醇及醚,可溶于氢氧化钾。不与氢氧化钠、液氨、盐酸及水起…

【Knowledge Graph Context-Enhanced Diversified Recommendation(MSDM2024)】

Knowledge Graph Context-Enhanced Diversified Recommendation 摘要 推荐系统(RecSys)领域已被广泛研究,以通过利用用户的历史交互来提高准确性。 尽管如此,这种对准确性的持续追求常常导致多样性的减少,最终导致众所…

阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位。

6月27日凌晨,全球著名开源平台huggingface(笑脸)的联合创始人兼首席执行官Clem在社交平台宣布,阿里最新开源的Qwen2-72B指令微调版本,成为开源模型排行榜第一名。 他表示,为了提供全新的开源大模型排行榜…

KubeCon 香港:移动云与云猿生联合议题《在没有专用 Operator 的情况下管理数据库集群》

KubeCon CloudNativeCon 开源峰会 AI_dev 中国大会将于 2024 年 8 月 21 日至 23 日在香港举行。来自全球的云原生技术专家与爱好者在这里相会,探讨云原生领域的技术创新与最佳实践。此外,本次 KubeCon CloudNativeCon 和开源峰会将与 AI_dev&#x…

使用ESP32开发一款chat机器人

目的:使用语音对话的方式实现和ai机器人对话,核心硬件如下 主板: ESP32S3 语音(拾音器-麦克风):INMP441全向麦克风模块 购买记录: https://oshwhub.com/shukkkk/esp32s3_tft_mp3

隧道管廊人员定位系统的应用与发展

随着城市建设的不断发展,地下管廊和隧道工程的规模和数量也在快速增长。隧道工程处于复杂、封闭的环境中,人员的安全管理成为一项重要任务。隧道管廊人员定位系统作为一种先进的技术手段,可以实时追踪人员位置,提供实时监控和安全…

clip系列改进Lseg、 group ViT、ViLD、Glip

Lseg 在clip后面加一个分割head,然后用分割数据集有监督训练。textencoder使用clip,frozen住。 group ViT 与Lseg不同,借鉴了clip做了真正的无监督学习。 具体的通过group block来做的。使用学习的N个group token(可以理解为聚类…

数字社交的领航者:解析Facebook的引领作用

在当今数字化社会中,社交网络已经成为了人们日常生活不可或缺的一部分。而在众多社交平台中,Facebook凭借其巨大的用户基础和创新的技术应用,被公认为数字社交领域的领航者之一。本文将深入解析Facebook在数字社交中的引领作用,探…

Eclipse代码编辑器自主配色

1. 打开 Eclipse 的设置 - Java - Editor - Syntax Coloring 2. 自定义各种类型的颜色,例如: 1. Interface 勾选,设置为紫色 2. Class 勾选,设置为淡蓝色 3. Abstract classes 勾选,有自己默认的颜色 …

Web渗透:文件包含漏洞(part.1)

"文件包含漏洞"(File Inclusion Vulnerability)是一种常见的Web应用程序漏洞,攻击者可以通过这个漏洞在目标系统上包含或执行任意文件。主要有两种类型的文件包含漏洞: 本地文件包含(Local File Inclusion, …