AI论文速读 | 线性时间序列预测模型分析

news2024/11/26 11:34:14

论文标题:An Analysis of Linear Time Series Forecasting Models

作者: William Toner, Luke Darlow

机构:爱丁堡大学(Edinburgh),华为研究中心(爱丁堡)

论文链接:https://arxiv.org/abs//2403.14587

Cool Paper:https://papers.cool/arxiv/2403.14587

TL;DR:本文分析了多种线性时间序列预测模型,发现它们在功能上与标准线性回归等价,且闭式解通常优于梯度下降训练的模型。

关键词:线性模型、时间序列预测、功能等价性、模型比较、闭式解、线性回归、特征归一化、DLinear(AAAI23)、FITS(ICLR24 Spotlight)、RLinear、NLinear(AAAI23)。

:这篇论文理论推导很多,AI论文速读只能了解冰山一角,笔者能力有限,推导还望各位读者阅读原文细细品鉴。


🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

摘要

尽管线性模型很简单,但即使与更深、更昂贵的模型进行比较,线性模型在时间序列预测中也表现良好。 人们已经提出了线性模型的许多变体,通常包括某种形式的特征归一化,以提高模型的泛化能力。 在本文中,我们分析了使用这些线性模型架构可表达的函数集。 通过这样做,我们证明了用于时间序列预测的线性模型的几种流行变体与标准的无约束线性回归是等效的并且在功能上没有区别。 我们描述每个线性变体的模型类。 我们证明每个模型都可以被重新解释为在适当增强的特征集上的无约束线性回归,因此在使用均方损失函数时允许封闭形式的解决方案。 我们提供的实验证据表明,所检查的模型学习几乎相同的解决方案,并最终证明,在 72% 的测试设置中,更简单的封闭式解决方案是出色的预测器。

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是对线性时间序列预测模型的分析。尽管深度学习模型在许多领域取得了显著的成功,但在时间序列预测方面,简单的线性模型仍然表现出色,有时甚至优于复杂的深度模型。论文中指出,已经提出了多种线性模型的变体,这些变体通常包括某种形式的特征归一化,以提高模型的泛化能力。然而,这些变体之间的实际性能差异并不明显。

论文的主要目标是:

  1. 从数学角度深入分析几种流行的线性时间序列预测模型。
  2. 证明这些模型在功能上基本上是等价的,并且与标准的无约束线性回归无法区分。
  3. 通过实验证据表明这些模型在训练时倾向于学习几乎相同的解。
  4. 展示在使用均方损失函数时,闭式解(closed-form solutions)通常是优于使用梯度下降训练的模型。

总的来说,论文旨在提供对线性时间序列预测模型的深入数学分析,并证明从功能和性能的角度来看,这些模型之间并没有实质性的差异,它们都可以被视为弱约束的线性回归模型。

Q: 有哪些相关研究?

A: 这篇论文提到了以下相关研究:

  1. Zeng et al. (2023): 这项工作引入了两种线性模型,DLinear 和 NLinear,它们已经成为时间序列预测领域广泛使用的基准。这项研究表明线性模型在某些情况下与复杂的Transformer架构相当或更优。
  2. Reversible Instance Normalisation (RevInv): 这是一种特征归一化技术,通常可以提高时间序列预测的性能。它通过对输入特征进行标准化(零均值、单位标准差),然后在模型的最后步骤中逆转这一标准化过程(可选的学习仿射变换)。
  3. Li et al. (2023): 这项研究重新审视了长期时间序列预测,探讨了RevInv和通道独立性(Channel Independence, CI)对线性模型的影响。他们提出了RLinear模型,该模型使用RevInv,并且测试了CI对一些数据集(通常具有更多通道和/或复杂性)的泛化能力的提升。
  4. Xu et al. (2023): 最近提出了FITS,这是一个在频域中操作的线性时间序列模型,包括一个可选的高频过滤组件来减小模型的足迹。FITS首先计算实离散傅里叶变换(Real Discrete Fourier Transform, RFT),应用一个复杂的线性映射,然后将结果反转回到时域。FITS的性能令人印象深刻,在最佳超参数设置下达到或接近最先进的性能。

这些研究为论文提供了背景和动机,论文的分析建立在这些相关工作的基础之上,进一步探讨了线性模型在时间序列预测中的表达能力和实际性能。

Q: 论文如何解决这个问题?

符号定义

A: 论文通过以下步骤解决对线性时间序列预测模型的分析问题:

  1. 模型分类:首先定义了不同的线性模型架构,包括DLinear、FITS、RLinear和NLinear,并描述了它们的关键特点。
  2. 数学分析:深入分析了每个模型架构能够表达的函数集合(模型类)。论文展示了这些模型类要么是无约束的线性回归,要么是通过特征增强弱约束的线性回归。
  3. 等价性证明:通过数学证明,论文表明了几种流行的线性模型变体在功能上是等价的,即它们描述的参数化函数族是相同的(在数据归一化的选择上有所差异)。
  4. 实验验证:提供了实验证据来支持理论分析,显示在相同的数据上训练时,所有模型都倾向于学习几乎相同的解。这包括比较不同模型学习到的权重矩阵和偏差参数。
  5. 性能比较:比较了闭式解(ordinary least squares, OLS)和使用随机梯度下降(stochastic gradient descent, SGD)训练的模型的性能。论文发现,在72%的测试设置中,简单的闭式解在预测性能上优于或至少与现有的模型相当。
  6. 讨论和局限性:论文讨论了分析的局限性,并提出了未来工作的方向,例如探索FITS技术压缩OLS解的可能性。

总的来说,论文通过结合理论分析和实验验证,提供了对线性时间序列预测模型的深入理解,并挑战了关于这些模型性能和复杂性的一些常见假设。

一些结论

IN和RevIN的约束限制

NowNorm不限制bias

总结不同线性模型异同(不同类型变体,标准化方式,约束)

Q: 论文做了哪些实验?

长时预测

A: 论文进行了以下实验来支持其分析和论点:

  1. 权重矩阵比较:通过可视化和比较不同训练后的线性模型变体(包括RLinear、NLinear、DLinear+IN和FITS+IN)的内部权重矩阵,论文展示了这些模型在学习过程中趋于相似的权重矩阵。这与论文中提出的假设一致,即不同的模型架构在功能上是等价的。
  2. 余弦相似度分析:论文追踪了在训练过程中这些模型的权重矩阵与其对应的闭式解(OLS+IN)之间的余弦相似度。这进一步证明了所有模型的权重都趋向于与闭式解相匹配。
  3. 预测结果比较:展示了这些模型在训练50个周期后在ETTh1数据集上的预测结果,并指出虽然模型之间存在微妙的差异,但预测结果普遍相似。
  4. 偏差参数比较:比较了不同模型学习到的偏差参数,并发现FITS+IN的偏差参数与其他模型有显著不同,这与论文的理论分析相符。
  5. 性能基准测试:在8个标准的时间序列基准数据集上评估了DLinear、FITS、RLinear、NLinear和线性模型(Linear)的性能,并包括有无实例归一化(Instance Normalisation)的变体。论文记录了这些模型在不同预测范围(96, 192, 336, 和 720)下的均方误差(Mean Squared Error, MSE)。
  6. 闭式解与SGD训练模型的性能对比:论文比较了闭式解(OLS)和使用随机梯度下降(SGD)训练的模型在不同数据集和预测范围的性能,发现OLS在72%的设置中性能更好或相当。

这些实验旨在验证论文中的理论发现,即不同的线性时间序列预测模型在实践中表现出相似的性能,并且闭式解通常是一个有效的预测器。

heatmaps-revinv

这个图显示了经过50轮训练后,所有四个模型的cropped weight矩阵与实例标准化(instance normalization),并列相应闭式解(最左边)。这些数据显示了基础模型的相似程度。这些细微的差别在一定程度上影响了预测(如下图)。

forecasts

不同模型,预测结果有细微差别

Q: 有什么可以进一步探索的点?

A: 论文在讨论部分提出了一些可以进一步探索的点,包括:

  1. 模型压缩:FITS模型允许在训练期间通过忽略高频成分来压缩模型。论文提出,可以探索将FITS技术应用于压缩闭式解(OLS)解决方案的可能性,这可能会在保持预测性能的同时减少模型的复杂性。
  2. 多通道设置下的模型差异:论文提到,尽管在单通道设置中线性+RevIN和线性+IN模型是相同的,但在多通道设置下,如果允许每个通道有单独的仿射参数,那么RevIN可能会为每个通道产生略微不同的偏差。这值得进一步研究。
  3. 低通滤波器(LPF)的影响:论文中忽略了FITS模型中的LPF,因为它通常会降低性能。未来可以研究在应用LPF时,模型类如何受到限制,以及这是否影响模型的等价性。
  4. 模型的泛化能力:虽然论文中的实验表明,不同的线性模型在特定的数据集上表现出相似的预测性能,但是这些模型的泛化能力在不同的数据集或领域中可能会有所不同。未来的研究可以探索这些模型在更广泛的应用场景中的表现。
  5. 模型的可解释性:线性模型的一个优点是它们通常比深度学习模型更易于解释。未来的研究可以探索如何提高线性模型的可解释性,以及如何利用这一点来提高模型的透明度和可信度。
  6. 模型的优化策略:论文提到,尽管所有模型都使用均方误差(MSE)作为损失函数,但它们的参数化和初始化方式不同,这可能会影响模型的收敛速度和早期停止的影响。未来的研究可以探索不同的优化策略和正则化技术,以进一步提高线性时间序列预测模型的性能。

这些潜在的研究方向可以帮助深化对线性时间序列预测模型的理解,并可能揭示新的方法来改进这些模型的性能和应用范围。

Q: 总结一下论文的主要内容

A: 这篇论文主要分析了线性时间序列预测模型,并探讨了它们的功能等价性和实际性能。以下是论文的主要内容总结:

  1. 研究背景:尽管深度学习模型在许多领域取得了成功,但在时间序列预测任务中,简单的线性模型仍然非常有效,有时甚至优于复杂的深度模型。近年来,出现了多种线性模型变体,它们通过特征归一化等方式提高了模型的泛化能力。
  2. 主要目标:论文旨在深入分析几种流行的线性时间序列预测模型,包括DLinear、FITS、RLinear和NLinear,并证明这些模型在功能上与标准线性回归无法区分。
  3. 理论分析:论文通过数学证明,展示了这些线性模型变体实际上都是等价的,它们的参数化函数族相同,且都可以被重新解释为无约束或弱约束的线性回归。
  4. 实验验证:论文提供了实验证据,显示这些模型在相同数据上训练时,倾向于学习几乎相同的解。此外,论文还比较了闭式解(如普通最小二乘法,OLS)和使用梯度下降训练的模型的性能,发现在大多数情况下,闭式解表现得更好。
  5. 研究贡献:论文的主要贡献包括数学证明、实验证据和定量证据,这些证据表明在时间序列预测任务中,不同的线性模型在功能和性能上并没有显著差异。
  6. 未来工作:论文讨论了其分析的局限性,并提出了未来研究的方向,例如探索FITS技术在压缩OLS解中的应用潜力。

:论文的主要贡献包括数学证明、实验证据和定量证据,这些证据表明在时间序列预测任务中,不同的线性模型在功能和性能上并没有显著差异。
6. 未来工作:论文讨论了其分析的局限性,并提出了未来研究的方向,例如探索FITS技术在压缩OLS解中的应用潜力。

总的来说,这篇论文挑战了关于线性时间序列预测模型性能和复杂性的一些常见假设,并提供了对这些模型的深入理解,这可能有助于改进未来的预测模型和策略。

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1582565.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++题解】1601. 挖胡萝卜

问题:1601. 挖胡萝卜 类型:基本运算、小数运算 题目描述: 小兔朱迪挖了 x 个胡萝卜,狐狸尼克挖到胡萝卜数量是小兔挖到的 3 倍,小羊肖恩挖到胡萝卜的数量比狐狸尼克少 8 个。 请你编程计算一下狐狸尼克和小羊肖恩分别…

winform入门篇3 -- 手工创建窗口

手工创建窗口 Form, 窗口 可以手工创建一个窗口类 class MyFrom : Form { } 1.创建一个windows 窗体应用 这样就自动创建了一个窗体应用Form1 现在不使用这个自动创建的,手工写一个 2.手动创建 1.删除Form1.cs 2.添加 新建MyForm 类 让该类继承Form 在构造…

面试题:MQ

一、常见的mq产品 RabbitMQ、RocketMQ、ActiveMQ、Kafka、ZeroMQ、MetaMqRabbitMQ: One broker to queue them all | RabbitMQhttps://www.rabbitmq.com/ 二、作用(面试题) 为什么用MQ? 1、异步处理 2、应用解耦 3、流量削峰 三、交换机…

自定义类型:联合体和枚举

一联合体: 1.联合体类型的声明: 像结构体⼀样,联合体也是由⼀个或者多个成员构成,这些成员可以不同的类型。 但是编译器只为最⼤的成员分配⾜够的内存空间。联合体的特点是所有成员共⽤同⼀块内存空间。所以联合体也叫&#xff1a…

(Python)根据经纬度从数字高程模型(DEM)文件获取高度

基本介绍 在地理信息系统(GIS)和遥感中,数字高程模型(Digital Elevation Model,简称DEM)是一种表示 地表或地形高程信息的重要数据。DEM数据通常以栅格(raster)形式存在&#xff0…

WEB前端-倒计时练习

<body><div>距离2024年7月3日还有&#xff1a;<br><span id"d">0</span>天<span id"h">0</span>小时<span id"m">0</span>分钟<span id"s">0</span>秒</div>…

如何用electron(vue)搜索电脑本地wifi

对于搜索本地 WiFi 网络&#xff0c;可以使用 Electron 结合 Node.js 来编写一个简单的应用程序。 以下是一个基本的示例&#xff0c;它使用 Node.js 的 wifi 模块来搜索并列出附近的 WiFi 网络&#xff1a; 首先&#xff0c;确保你已经安装了 Node.js 和 Electron。 然后&am…

Bert基础(十二)--Bert变体之知识蒸馏原理解读

B站视频&#xff1a;https://www.bilibili.com/video/BV1nx4y1v7F5/ 白话知识蒸馏 在前面&#xff0c;我们了解了BERT的工作原理&#xff0c;并探讨了BERT的不同变体。我们学习了如何针对下游任务微调预训练的BERT模型&#xff0c;从而省去从头开始训练BERT的时间。但是&#…

子线程中创建 handler导致okhttp请求失败,从 ScheduledExecutorService 挖的坑开始

子线程创建方法1&#xff1a; ScheduledExecutorService schedulePool Executors.newScheduledThreadPool(2);schedulePool.schedule(new Runnable() {Overridepublic void run() {dorequest();}}, 2, TimeUnit.SECONDS); 子线程创建方法2&#xff1a; new Thread(new Runnab…

数据结构—红黑树

红黑树介绍 红黑树&#xff08;Red Black Tree&#xff09;是一种自平衡二叉查找树。由于其自平衡的特性&#xff0c;保证了最坏情形下在 O(logn) 时间复杂度内完成查找、增加、删除等操作&#xff0c;性能表现稳定。 在 JDK 中&#xff0c;TreeMap、TreeSet 以及 JDK1.8 的 …

Leetcode算法训练日记 | day21

一、二叉搜索树的最小绝对差 1.题目 Leetcode&#xff1a;第 530 题 给你一个二叉搜索树的根节点 root &#xff0c;返回 树中任意两不同节点值之间的最小差值 。 差值是一个正数&#xff0c;其数值等于两值之差的绝对值。 示例 1&#xff1a; 输入&#xff1a;root [4,2,…

LeetCode 热题 100 题解(二):双指针部分(1)

题目一&#xff1a;移动零&#xff08;No. 283&#xff09; 题目链接&#xff1a;https://leetcode.cn/problems/move-zeroes/description/?envTypestudy-plan-v2&envIdtop-100-liked 给定一个数组 nums&#xff0c;编写一个函数将所有 0 移动到数组的末尾&#xff0c;同…

(小红书平台)2024用户画像洞察报告

现今的小红书坐拥3亿月活用户&#xff0c;男女比例达到3:7&#xff0c;95后占比为50%&#xff0c;00后占比为35%&#xff0c;一二线城市用户占比50%。社区分享者超8000万&#xff0c;日均用户搜索渗透达到60%&#xff0c;UGC内容占比达90%。&#xff08;数据来源&#xff1a;小…

C语言_文件操作

文件基础 什么是文件 文件是在计算机中以实现某种功能、或某个软件的部分功能为目的而定义的一个单位。磁盘上的文件是文件。但是在程序设计中&#xff0c;我们一般谈的文件有两种&#xff1a;程序文件、数据文件&#xff08;从文件功能的角度来分的&#xff09;。 程序文件 …

一分钟了解机器人自由度

目录 自由度的定义 自由度的分类 自由度的影响 影响自由度的主要参数 关节类型和数量 机械结构 控制系统 自由度控制的硬件架构原理 传感器 执行器 控制器 通信接口 软件和算法 机器人的自由度是指机器人在空间中可以独立移动的方向和角度的数量&#xff0c;它是衡…

STL容器之unordered_set类

文章目录 STL容器之unordered_set类1、unordered系列关联式容器2、unordered_set2.1、unordered_set介绍2.2、unordered_set的使用2.2.1、unordered_set的常见构造2.2.2、unordered_set的迭代器2.2.3、unordered_set的容量2.2.4、unordered_set的增删查2.2.5、unordered_set的桶…

看看《MATLAB科研绘图与学术图表绘制从入门到精通》示例:绘制山鸢尾萼片长度和萼片宽度的小提琴图

使用MATLAB绘制鸢尾花数据集&#xff08; fisheriris&#xff09;中山鸢尾&#xff08; Iris Setosa&#xff09;的萼片长度和 萼片宽度的小提琴图。这将帮助我们更好地了解山鸢尾的这两个特征的数据分布情况&#xff0c;包括它们的 中位数、四分位范围及密度估计。这种可视化工…

制造业、能源等传统行业进行数字化转型时要注意哪些问题?

制造业、能源等传统行业在进行数字化转型时需要注意以下几个关键问题&#xff1a; 1、明确转型目标和战略规划&#xff1a;企业需要根据自身的业务特点、市场需求和长远发展目标&#xff0c;制定清晰的数字化转型战略。包括确定转型的重点领域、预期成果、时间表和资源投入。 …

AI大模型探索之路-应用篇4:Langchain框架Memory模块—增强模型记忆与知识保留

目录 前言 一、概述 二、Conversation Buffer 三、Conversation Buffer Window 四、Conversation Summary 五、Conversation Summary Buffer 总结 前言 大模型技术在理解和生成自然语言方面表现出了惊人的能力。因此&#xff0c;为了实现长期的记忆保持和知识累积&#x…

【Java EE】获取Cookie和Session

文章目录 &#x1f38d;Cookie简介&#x1f340;理解Session&#x1f333;Cookie 和 Session 的区别&#x1f332;获取Cookie&#x1f338;传统获取Cookie&#x1f338;简洁获取Cookie &#x1f334;获取Session&#x1f338;Session存储&#x1f338;Session读取&#x1f33b;…