如何将 Transformer 应用于时间序列模型

news2025/1/11 1:15:21

在机器学习的广阔前景中,transformers 就像建筑奇迹一样高高耸立,以其复杂的设计和捕获复杂关系的能力重塑了我们处理和理解大量数据的方式。

自 2017 年创建第一个 Transformer 以来,Transformer 类型呈爆炸式增长,其中包括 ChatGPT 和 DALL-E 等强大的生成式 AI 模型。虽然transformers 在文本到文本或文本到图像模型中非常有效,但将transformers 应用于时间序列时存在一些挑战。在 2023 年北美开源峰会 上,Ezequiel Lanza 分享了 transformers 模型的问题,并介绍了新的 transformers ,这些 transformers 开始在时间序列方面显示出有希望的结果。

这篇文章[1]不会深入探讨技术方面的内容,但如果您想内容,我们将在全文中提供重要论文的链接。

alt

Transformer 功能概述

让我们看看 Transformer 在 Stable Diffusion 中的作用,这是一种深度学习模型,可以将短语(例如“戴眼镜的狗”)转换为图像。转换器接收用户输入的文本并生成文本嵌入。文本嵌入是可以由卷积神经网络 (CNN)(在本例中为 U-NET)读取的文本表示。虽然稳定扩散模型使用嵌入来生成图像,但嵌入可用于生成对时间序列模型有用的附加输出。

Transformer 如何工作

为了理解如何将 Transformer 应用到时间序列模型中,我们需要关注 Transformer 架构的三个关键部分:

  • 嵌入和位置编码
  • 编码器:计算多头自注意力
  • 解码器:计算多头自注意力

作为一个例子,我们将解释普通Transformer 是如何工作的,这是一种将简单短语从一种语言翻译成另一种语言的Transformer 。

  • 嵌入和位置编码:如何表示输入数据

当您将短语“我爱狗”输入普通转换器时,一种名为 Word2Vec 的算法会将每个单词转换为数字列表(称为向量)。每个向量都包含有关单词含义以及它与其他单词如何相关的信息,例如同义词和反义词。

模型还必须理解短语中每个单词的位置。例如,“我爱狗”与“我爱狗”的含义不同。第二种算法称为位置向量,它使用复杂的数学方程来帮助您的模型理解句子顺序。将 Word2Vec 和位置向量算法提供的信息打包在一起,就是所谓的文本嵌入,或者以机器可以读取的方式表示的原始短语。

  • 编码器级别的多头自注意力

接下来,编码器接收文本嵌入并将其转换为新的向量,添加信息以帮助模型辨别短语中单词之间的关系。例如,在短语“孩子们在公园里玩耍”中,编码器会将最大权重分配给“孩子”、“玩耍”和“公园”。我们称这个过程为自注意力,因为它决定了模型应该最关注哪些单词。

为了计算自注意力,编码器为每个单词创建三个向量——查询向量、键向量和值向量。通过将短语乘以三个矩阵来创建向量。这是一个复杂的算法,但需要理解的重要部分是短语中的每个单词都会与短语中的每个其他单词相乘,并且可能需要大量时间来计算长短语的注意力。

为了更好地理解单词之间的关系,自注意力层可以同时运行多个头。这个过程称为多头注意力,它允许模型同时关注短语的不同部分,例如当存在短期和长期依赖性时。例如,在短语“动物没有过马路,因为它太累了”中,多头注意力告诉模型“动物”和“它”指的是同一个想法。

alt
  • 解码器级别的多头自注意力

解码器的工作方式与编码器相同,只是它是使用不同的数据集进行训练的。例如,在普通 Transformer 中,如果编码器接受过英语数据训练,解码器接受过法语数据训练,则解码器将运行相同的多头自注意力算法,将原始短语翻译成法语。

使用时间序列转换器

为什么这种Transformer 架构不适用于时间序列?时间序列在某些方面就像一种语言,但它与传统语言不同。在语言中,您可以使用截然不同的单词或句子顺序来表达相同的想法。一旦基于语言的转换器(例如 vanilla)接受了某种语言的训练,它就可以理解单词之间的关系,因此当您用两个不同的输入表示一个想法时,转换器仍然会得出大致相同的含义。然而,时间序列需要严格的顺序——数据点的顺序更重要。这对使用时间序列转换器提出了挑战。

让我们看看我们目前如何解决这个问题以及为什么这些模型存在不足。

  • 目前的方法

自回归积分移动平均 (ARIMA) 模型适用于某些时间序列,但需要深入了解相关趋势、季节性变化和残差值,即使如此,它也仅适用于线性相关性。在许多具有多元问题特征的时间序列中,依赖关系之间的关系不是线性的,ARIMA 不起作用。

还有几种使用神经网络的方法。

  • 前馈神经网络 (FNN) 模型使用系列中任何前六个数据点来预测接下来的六个数据点。尽管 FNN 支持非线性依赖性,但它们要求您手工制作一个专注于非常具体的问题或数据子集的模型,这使得为大型数据集构建该模型过于耗时。

  • 在循环神经网络 (RNN) 模型中,您可以向模型提供与时间序列相关的一小部分数据点,RNN 中的单元将记住哪些数据点很重要以及它们的权重是多少。然而,当您处理具有长期依赖性的数据集时,权重变得不那么相关,并且模型的准确性随着时间的推移而降低。

  • 长短期记忆 (LSTM) 模型与 RNN 类似,不同之处在于每个单元都有一个记忆,允许您在长序列期间更频繁地更新权重。这使得 LSTM 成为某些用例的良好解决方案。

  • Seq2seq 是一种提高 LSTM 性能的方法。您可以将数据输入编码器,而不是直接输入网络,编码器会生成输入的特征并输入解码器。

  • Transformer 如何改进时间序列?

使用 Transformer 启用的多头注意力可以帮助改进时间序列模型处理长期依赖性的方式,从而提供优于当前方法的优势。为了让您了解变压器对于长依赖关系的工作效果如何,请考虑 ChatGPT 可以在基于语言的模型中生成的长而详细的响应。通过允许一个头专注于长期依赖性,而另一个头专注于短期依赖性,将多头注意力应用于时间序列可以产生类似的好处。我们相信 Transformer 可以让时间序列模型预测未来多达 1,000 个数据点,甚至更多。

  • 二次复杂度问题

Transformer 计算多头自注意力的方式对于时间序列来说是有问题的。由于系列中的数据点必须乘以系列中的每个其他数据点,因此添加到输入中的每个数据点都会以指数方式增加计算注意力所需的时间。这称为二次复杂度,在处理长序列时会产生计算瓶颈。

alt

改进时间序列的 Transformer 模型

今年早些时候发布的一项调查确定了在将 Transformer 应用于时间序列之前需要解决的两项重要网络修改:

  • 位置编码:我们如何表示输入数据
  • 注意力模块:降低时间复杂度的方法

下一部分将介绍主要要点,但您可以阅读调查以了解有关修改及其结果的更多详细信息。

  • 网络修改1:位置编码

2019 年,我们尝试在普通 Transformer 中应用 Word2Vec 编码过程,但该模型无法充分利用时间序列的重要特征。 Vanilla Transformer 擅长辨别单词之间的关系,但不擅长遵循数据序列中的严格顺序。。

2021 年,我们创建了可学习的文本嵌入,使我们能够在输入中包含额外的位置编码信息。与普通 Transformer 中的固定编码相比,可学习的位置编码允许 Transformer 更加灵活并更好地利用顺序排序信息。这有助于 Transformer 了解有关时间序列的更重要的上下文,例如季节信息。

  • 网络修改2:注意力模块

为了降低注意力层的二次复杂度,新的 Transformer 引入了 ProbSparse Attention 的概念。通过使注意力层仅使用最重要的数据点而不是所有数据点来计算权重和概率,ProbSparse 有助于大大减少计算注意力所需的时间。

alt

测试新 「Transformers」

虽然 LogTrans、Pyraformer 和 FEDformer 等许多新 Transformer 都纳入了这些网络修改,但这里我们重点关注 Informer 和 Spacetimeformer,因为它们是开源的。 GitHub 存储库提供参考文档和示例,让您可以轻松根据数据微调模型,而无需了解关注层的每个细节。

让我们看看 Informer 和 Spacetimeformer 如何利用这些网络修改,看看它们会生成什么样的结果。

  • 「Informer」 架构

Informer Transformer 使您能够向它们提供有关季节性、每月或假期趋势的重要信息,以帮助模型了解一年中数据行为方式的细微差异。例如,您的数据集在夏季的表现可能与冬季不同。通过位置编码,您可以告诉模型在一年中的不同时间使用不同的权重,从而使您可以更好地控制输入的质量。

通过结合 ProbSparse 注意力模型和位置编码,Informer 比 LSTM 等传统 Transformer 具有性能优势。当预测未来 24 个数据点时,Informer 产生的均方误差 (MSE) 为 0.577,比 LSTM 的 MSE 0.650 稍好一些。当预测 720 个数据点时,性能差异更大,Informer 的 MSE 为 1.215,而 LSTM 的 MSE 为 1.960。我们可以得出的结论是,Informer 在长序列中提供了稍微更好的结果,但 LSTM 对于某些短期用例仍然可能产生良好的结果。

alt

「Spacetimeformer」 架构

Spacetimeformer 提出了一种表示输入的新方法。像 Informer 这样的时间注意力模型表示单个输入标记中每个时间步长的多个变量的值,它没有考虑特征之间的空间关系。图注意力模型允许您手动表示特征之间的关系,但依赖于不能随时间变化的硬编码图。

Spacetimeformer 结合了时间和空间注意力方法,创建一个输入标记来表示给定时间单个特征的值。这有助于模型更多地了解空间、时间和价值信息之间的关系。

alt

与 Informer 一样,Spacetimeformer 提供的结果比 LSTM 稍好一些。在预测未来 40 小时时,Spacetimeformer 的 MSE 为 12.49,略好于 LSTM 的 MSE 14.29。虽然对于较长的序列,这一裕度会变大,但 Spacetimeformer 尚未为每个用例提供比 LSTM 更好的结果。

alt

用例:微服务架构上的延迟

让我们将时间序列模型应用于在线精品店。该商店有 11 个微服务,包括允许用户添加和删除商品的购物车服务以及允许用户搜索单个产品的目录服务。

alt

为了演示对最终用户的影响,我们将预测用户必须等待每个微服务处理请求的时间。基于每个服务之前 360 个数据点的模型,我们对未来的 36 个数据点进行了短期预测,并对未来的 120 个数据点进行了长期预测。

在预测接下来的 36 个数据点时,Informer 产生的 MSE 为 0.6,略优于 LSTM。然而,Informer 需要更多时间来处理。长模型的结果也是如此:Informer 的预测更准确,但处理时间更长。

image-20230917230120011
image-20230917230120011

测试

时间序列的复杂性各不相同,因此测试模型以找到最适合您的用例的模型非常重要。虽然 LSTM 等传统模型是某些短期时间序列的有力选择,但 Informer 和 Spacetimeformer 可以为长期序列提供更准确的预测。随着我们继续对注意力层以及输入数据的表示方式进行优化,我们预计性能将会提高。此外,作为开源框架,Informer 和 Spacetimeformer 使安装模型并开始使用数据进行测试变得更加容易。

Reference

[1]

Source: https://medium.com/intel-tech/how-to-apply-transformers-to-time-series-models-spacetimeformer-e452f2825d2e

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1030658.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VS|vs2017跨平台编译linuxC++ConsoleQtGUI

未完成 待更新 文章目录 首先安装vs时要勾选上使用C的Linux开发使用Vs2017创建跨平台C Console项目配置Vs的SSH连接 Debug >> Option >> Cross Plaform文件加入到Linux项目,使用Windows下的文件即可。将所有项目包含.CPP、.h文件包含进Linux项目设置项…

案例丨如何提升可视化分析能力?听听这两家企业怎么说

神策分析 2.5 版本正式发布经营分析能力以来,已有不少客户接入使用,并充分实现了可视化分析能力的提升。 本文将为大家分享两家客户的真实反馈,希望能够帮助您进一步了解神策经营分析的能力。 案例一:神策数据助力美篇打造公司级“…

Linux学习之gdb的使用

目录 1.Debug与Release模式 如何证明debug是可以被调试的? 2.Linux调试器-gdb使用 gdb调试的指令 指令一:list(l) 查看源代码 编辑 ​编辑 命令二:run(r)运行程序 命令三&#xff…

mall电商项目(学习记录1)

1.简介 mall项目是一套电商系统,包括前台商城系统及后台管理系统,基于SpringBoot+MyBatis实现,采用Docker容器化部署。前台商城系统包含首页门户、商品推荐、商品搜索、商品展示、购物车、订单流程、会员中心、客户服务、帮助中心等模块。后台管理系统包含商品管理、订单管…

基于movie lens-100k数据集的协同过滤算法实现

基于movie lens-100k数据集的协同过滤算法实现 数据集处理 基于用户的协同过滤算法的实现 基于物品的协同过滤算法的实现 数据集处理 import pandas as pdu_data pd.read_csv(D:/PyCharmWorkSpace/ml-100k/ml-100k/u.data) u_genre pd.read_csv(D:/PyCharmWorkSpace/ml-10…

c: Sorting Algorithms

SortAlgorithm.h /*****************************************************************//*** \file SortAlgorithm.h* \brief 业务操作方法* VSCODE c11 https://github.com/hustcc/JS-Sorting-Algorithm/blob/master/2.selectionSort.md* https://www.programiz.com/d…

vscode软件安装包下载安装教程

目录 一、软件简介 二、软件下载 三、安装步骤 一、软件简介 VSCode(全称:Visual Studio Code)是一款由微软开发且跨平台的免费源代码编辑器。该软件支持语法高亮、代码自动补全(又称 IntelliSense)、代码重构、查…

BD就业复习第三天

1.连续活跃区间表的实现思路 实现连续活跃区间表是数据仓库中常见的需求,通常用于分析用户或实体在一段时间内的活跃情况。以下是一种可能的实现思路: 1. 数据模型设计: 首先,您需要设计一个数据模型来存储连续活跃区间。通常&a…

9.21算法(栈)

栈 用两个栈实现队列 栈:只允许在一头进行入队和出队,先进后出 队列:只允许一头入队,另一头出队,先进先出 如果先都放入一个栈中,就是倒序的,然后再把第一个栈中的元素依次移动到另一个栈中…

eSIM简介

翻译自eSIM eSIM eSIM被称为许多不同的名字。 有人说嵌入式SIM,有人说电子SIM和其他的说eSIM。 在行业标准最终确定并在该地区广泛采用之前,还会有其他名称出现。 无论我们称之为什么,此SIM的基本思想是将SIM(UICC)作为…

成绩查询解决方案

老师如果想要使用PHP代码创建一个查询系统,可以按照以下步骤进行操作: 建立数据库连接:首先,你需要使用PHP的数据库扩展(如MySQLi或PDO)来建立与数据库的连接。提供数据库的主机名、用户名、密码和数据库名…

实在智能携手40+央企,探索财务大模型及数智化实践与应用

“这次培训给我一个最大的感触就是,过去以为AI智能化、大模型技术是很高深的事情。但现在,我们通过RPA等数字化工具,自主根据自己的工作岗位,完成业务自动化流程的开发和设计。AI技术没有想象中的那么难入门。” 这是一位参加了“…

[答疑]角色和状态的区别

DDD领域驱动设计批评文集 “软件方法建模师”不再考查基础题 《软件方法》各章合集 jeri 2023-9-10 13:09 设备关联角色,设备也有子类(车辆/设备),按书中的解释,设备是一个抽象类,角色类名像是带了状态…

第三天:实现网络编程基于tcp/udp协议在Ubuntu与gec6818开发板之间双向通信

互联网地址 每一台设备接入互联网后,都会举报一个唯一的地址编号 IP地址 INTERNET地址 internet地址 :它是协议上的一个逻辑地址 目前来说,我们主要的IP地址有两类 IPV4 IPV6 IPV4 其实就是使用一个32bit整数作为IP IPV6 其实就是使用一…

#循循渐进学51单片机#实例练习与经验累积#not.9

1、掌握不同类型变量转换的规则与字节操作进行位修改的技巧。 unsigned char a;unsigned int b;unsigned int c; 1)自动类型转换 2)强制类型转换C (unsigned long)a*bl; C (unsigned long)(a*b); 3)不同类型变量的赋值b a …

BabelEdit 5.0.1 Crack

BabelEdit加强软件本地化。BabelEdit 是处理 json、yaml、php、arb、vue、properties、resx 或 xliff 翻译文件的可靠解决方案。 旨在使开发过程更加简化和高效。 下载BabelEdit 5.0.0 对于Windows 也适用于macOS 和 Linux BabelEdit - 适用于 Web 和应用程序的翻译编辑器 (…

ps智能填充功能平替:alpaca的安装和使用

为了解决ps beta 智能填充无法使用的问题,需要用alpaca来平替,下面是安装教程: 安装方法: 1、下载插件。 alpaca插件汉化-夸克网盘https://pan.quark.cn/s/1168b447a44e#/list/share 2、 根据使用的PS版本,选择对应文件…

如何从外网远程控制企业内网电脑?

在企业中,保护公司机密和数据安全是至关重要的。为了确保员工在使用公司电脑时遵守相关规定,许多公司会采取外网监控员工电脑的方法。本文将介绍一些真实有效的方法和具体的操作步骤,以帮助您更好地监控员工电脑。 一、什么是外网监控&#x…

【Redis】Redis 的学习教程(十一)之使用 Redis 实现分布式锁

1. 分布式锁概念 在多线程环境下,为了保证数据的线程安全,锁保证同一时刻,只有一个可以访问和更新共享数据。在单机系统我们可以使用 synchronized 锁、Lock 锁保证线程安全。 synchronized 锁是 Java 提供的一种内置锁,在单个 …

北工大汇编——综合题(1)

题目要求 统计字符数。从键盘输入一行字符,统计字母、空格、数字、其他宇符的个数,并显示。要求:提示输入一行宇符串;键盘输入宇符串,Enter 键结束输入,并换行显示结果。 题目代码 DATAS SEGMENT;此处输…