时序论文31|NIPS24自注意力机制真的对时序预测任务有效吗?

news2024/12/16 16:19:44

图片

论文标题:Are Self-Attentions Effective for Time Series Forecasting?

论文链接:https://arxiv.org/pdf/2409.18696

代码链接:https://github.com/dongbeank/CATS

前言

本文将重点转向探究自注意力机制在其中的有效性,提出仅含交叉注意力的CATS架构。

当前时间序列预测还是以Transformer为backbone的模型占据主导,但其有效性一直存争议,比如各类线性模型Dlinear、FITS等表现都比很多Transformer架构好。那么问题到底出在哪?其实一个关键问题是评估 Transformer 中哪些元素对于时间序列建模是必要的,哪些是不必要的。

Dlinear也提到了这个问题,但他们的分析仅限于用线性层替代注意力层。但是, Transformer架构时间信息丢失的问题(即自注意力机制的置换不变性和反序特性)主要是由自注意力机制的使用导致的,那么作者想到先讨论和评估自注意力机制是否对时序预测有正面作用。

本文工作

本文提出了仅含交叉注意力的时间序列 Transformer(CATS)这一新颖预测架构,通过去除自注意力机制并挖掘交叉注意力潜力简化原始架构,将未来预测范围相关参数设为查询项、过去时间序列数据作键值对以增强参数共享与长时预测性能,实验表明其对长输入序列均方误差最低、参数更少,还能借特定预测范围注意力图清晰呈现预测推导过程,且在多时间序列数据集上较之前的 Transformer 模型性能更优、参数和内存消耗更低。

01 为什要去除自注意力机制

这一部分,作者基于PatchTST的三组模型实验来进行论证:一是原始的 PatchTST,它采用长度为 16、步长为 8 的重叠块(图 a);二是经过修改的 PatchTST,其使用长度为 24 的非重叠块(图 b);三是将自注意力机制替换为线性嵌入层的版本,同样采用长度为 24 的非重叠块(图 c)。这样的设置能够在控制块重叠影响的同时,分离出自注意力机制对时间信息保留的影响。

图片

其中带有线性嵌入的版本(图 c)对时间信息的捕捉最为清晰,这表明自注意力机制本身对于捕捉时间信息而言可能并非是必要的,用线性层替代自注意力机制不仅能够捕捉清晰的时间模式,另一个好处是能提升性能,尤其是在较长的预测周期。

02 重新思考Transformer设计

下图展示了现有几种建模架构。图a和图b是传统的Transformer架构,图b仅含编码器模块,结合上面的实验可以发现Transformer架构很大程度上依赖自注意力机制,而这可能会导致时间信息丢失。图c是线性模型,尽管这种做法减少了计算量,并有可能避免一些时间信息丢失的问题,但它可能难以捕捉复杂的时间依赖关系。

图片

那么读到这里,作者的意图也就很明了了:提出仅含交叉注意力的时间序列Transformer(CATS),如图d所示,去除了所有自注意力层。

03 本文模型

图片

CATS架构含三个关键组件:以未来为查询的交叉注意力机制、跨预测范围的参数共享与查询自适应掩码

通过未来作为查询的交叉注意力(Cross-Attention via Future as Query):CATS摒弃自注意力机制,聚焦交叉注意力。将未来预测范围相关参数设为查询,过去时间序列数据作键值对。如预测未来 H 步,将未来 H 步预测参数设查询 Q,输入时间序列 X 拆分成键 K 与值 V,经线性投影处理后用于交叉注意力计算。

跨预测范围的参数共享(Parameter Sharing across Horizons):为充分利用交叉注意力提升参数共享,CATS在不同预测范围共享参数。在预测未来 H 步时,对查询 Q 处理并与键 K、值 V 计算交叉注意力得分,经 softmax 与线性投影得预测值。

查询自适应掩码(Query-Adaptive Masking):这是 CATS提升性能的创新点。预测未来值时,切断输入时间序列信息,仅查询影响预测,通过掩码实现。掩码依概率 p 决定是否掩盖输入序列元素,输入序列 X 与掩码 M 逐元素相乘得新输入序列。掩码用于各层交叉注意力机制前,处理后的输入聚焦预测查询,避免干扰。

本文实验

图片


大家可以关注我【科学最top】,第一时间follow时序高水平论文解读!!!

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2260594.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux中openEuler 系统 配置mail.rc给邮箱发送邮件

这里用这个实验判断当前磁盘剩余空间是否有20G,如果小于20G,则将报警邮件发送给管理员,每天检查一次磁盘剩余空间。 查看当前磁盘剩余空间[rootserver ~]# df -h | grep "\/$" | cut -d" " -f4 | cut -d"G" -…

【51单片机】矩阵按键快速上手

51单片机矩阵按键是一种在单片机应用系统中广泛使用的按键排列方式,特别适用于需要多个按键但I/O口资源有限的情况。以下是对51单片机矩阵按键的详细介绍: 一、矩阵按键的基本概念 ‌定义‌:矩阵按键,又称行列键盘,是…

clearvoice 语音降噪、语音分离库

参看: https://github.com/modelscope/ClearerVoice-Studio/tree/main ClearVoice 提供了一个统一的推理平台,用于语音增强、语音分离以及视听目标说话人提取。 代码参看: https://github.com/modelscope/ClearerVoice-Studio/tree/main/clearvoice https://github.com/mode…

外观模式的理解和实践

外观模式(Facade Pattern)是一种常用的软件设计模式,它提供了一个统一的接口,用来访问子系统中的一群接口。该模式定义了一个高层的接口,使得子系统更容易使用。简单来说,外观模式就是通过引入一个外观角色…

【Email】基于SpringBoot3.4.x集成发送邮件功能

【Email】基于SpringBoot3.4.x集成发送邮件功能 摘要本地开发环境说明pom.xml启动类application.yaml写一个邮件模板定义模板引擎工具类定义一个邮件发送对象封装一个邮件发送器单元测试邮件模板单元测试发送邮件单元测试 邮件效果参考资料 摘要 在业务系统开发过程中&#xf…

Type-C接口电热毯的创新之旅

在科技日新月异的今天,智能家居产品正逐步渗透到我们生活的每一个角落,从智能灯光到温控系统,无一不展现着科技带来的便捷与舒适。而在这个追求高效与智能化的浪潮中,一款结合了最新科技元素的电热毯——Type-C接口电热毯&#xf…

【从零开始入门unity游戏开发之——C#篇09】if-else条件表达式、三元运算符、switch-case的使用

文章目录 一、if条件表达式1、if 语句基本结构示例输出: 2、else语句示例输出: 3、else if 语句示例输出: 4、组合逻辑运算符示例输出: 5、嵌套 if 语句示例输出:总结 二、三元运算符1、语法:2、示例&#…

CIFAR10 数据集介绍并转化为图片

CIFAR10数据集 CIFAR-10数据集是一个广泛使用的机器学习数据集,它包含10个类别的 60000 张32x32的彩色图像。每个类别有6000张图像,其中50000张用于训练,1000 张用于测试。这些类别包括: 飞机(airplane)汽车…

我们需要什么样的运维:以业务目标为导向的运维体系建设

在数字化转型的浪潮中,运维作为信息技术基础设施的重要支撑,其重要性日益凸显。然而,传统的运维模式往往局限于网络稳定、设备监控和系统可用等基础目标,难以满足现代企业对业务支持的更高要求。那么,我们究竟需要什么…

12.5【计算机网络】【Study】

如果使用 LACP 协议,设备之间会通过发送 LACP 数据包进行协商,确保双方都支持链路聚合,并且配置一致。LACP 会自动检测和管理链路的状态,确保只有活动的链路参与聚合。 负载均衡:链路聚合组中的多个物理链路可以同时传…

Python学习(三)—— 基础语法(下)

目录 一,函数 二,列表和元组 2.1 列表基础操作 2.2 切片 2.3 列表的增删查改 2.4 连接链表 2.5 元组 三,字典 3.1 关于字典 3.2 字典的增删查改操作 3.3 遍历字典元素 3.4 合法的key类型 四,文件操作 4.1 打开关闭…

QTreeView 与 QTreeWidget 例子

1. 先举个例子 1班有3个学生:张三、李四、王五 4个学生属性:语文 数学 英语 性别。 语文 数学 英语使用QDoubleSpinBox* 编辑,范围为0到100,1位小数 性别使用QComboBox* 编辑,选项为:男、女 实现效果: 2…

基于SpringBoot的疫苗在线预约功能实现十

一、前言介绍: 1.1 项目摘要 随着全球公共卫生事件的频发,如新冠疫情的爆发,疫苗成为了预防和控制传染病的重要手段。传统的疫苗预约方式,如人工挂号或电话预约,存在效率低、易出错、手续繁琐等问题,无法…

.NET 9 已发布,您可以这样升级或更新

.NET 9 已经发布,您可能正在考虑更新您的 ASP.NET Core 应用程序。 我们将介绍更新应用程序所需的内容。从更新 Visual Studio 和下载 .NET SDK 到找出可能破坏应用程序的任何重大更改。 下载 .NET 9 SDK 这些是下载 .NET 9 SDK 所需的步骤。 更新 Visual Studi…

IMX6ULL开发板基础实验:Framebuffer驱动程序的简单应用实例代码详细分析

前言 这个代码之所以可以写得这么短&#xff0c;写得这么方便&#xff0c;原因在于LCD的驱动程序已经写好了&#xff0c;并且这个驱动程序符号Framebuffer的标准&#xff0c;这才使得我们在实现上层应用时变得很方便。 源代码&#xff1a; #include <sys/mman.h> #inc…

Jenkins:持续集成与持续部署的利器

&#x1f407;明明跟你说过&#xff1a;个人主页 &#x1f3c5;个人专栏&#xff1a;《未来已来&#xff1a;云原生之旅》&#x1f3c5; &#x1f516;行路有良友&#xff0c;便是天堂&#x1f516; 目录 一、引言 1、什么是Jenkins 2、Jenkins的起源 二、Jenkins的核心…

C语言基础14(动态内存控制后续)

文章目录 野指针、空指针、空悬指针野指针空指针空悬指针 void与void*的区别内存操作常用内存操作函数内存填充内存拷贝内存比较内存查找 野指针、空指针、空悬指针 野指针 定义&#xff1a;指向一块未知区域(已经销毁或者访问受限的内存区域外的已存在或不存在的内存区域)&a…

CSS在线格式化 - 加菲工具

CSS在线格式化 打开网站 加菲工具 选择“CSS在线格式化” 或者直接访问 https://www.orcc.online/tools/css 输入CSS代码&#xff0c;点击左上角的“格式化”按钮 得到格式化后的结果

分布式事物XA、BASE、TCC、SAGA、AT

分布式事务——Seata 一、Seata的架构&#xff1a; 1、什么是Seata&#xff1a; 它是一款分布式事务解决方案。官网查看&#xff1a;Seata 2.执行过程 在分布式事务中&#xff0c;会有一个入口方法去调用各个微服务&#xff0c;每一个微服务都有一个分支事务&#xff0c;因…

Serdes技术与Xilinx GT概览

目录 一、前言 二、Serdes技术 2.1 芯片间信号传输 2.2 Serdes技术 三、 Xilinx GT 3.1 7系列器件GT 3.2 Ultrascale GT 3.3 Ultrascale GT 四、参考资料 一、前言 对于芯片间高速信号传输技术&#xff0c;不得不提serdes以及在Xilinx在此基础上的高速收发器GT系列&…