时序论文23|ICML24谷歌开源零样本时序大模型TimesFM

news2024/11/23 13:01:24

图片

论文标题:A DECODER - ONLY FOUNDATION MODEL FOR TIME - SERIES FORECASTING

论文链接:https://arxiv.org/abs/2310.10688

论文链接:https://github.com/google-research/timesfm

前言

谷歌这篇时间序列大模型很早之前就在关注,今天搜索了一下,对应的文章入选了ICML24,其开源的代码github已经有3.5K star。据论文中的描述,TimesFM模型在各种公共数据集上的即插即用零样本性能接近于每个单独数据集的最先进监督预测模型的准确性。TimesFM在参数数量(2亿)和预训练数据规模(约100B个时间点)上更为紧凑。

此外,模型基于预训练的解码器(Decoder Only),使用输入patch,利用包括真实世界和合成数据集在内的大型时间序列数据进行训练。TimesFM能够适应不同的预测历史长度、预测长度和时间粒度。模型的核心包括:1)一个大规模时间序列语料库,结合了真实数据和合成数据;2)解码器风格注意力架构。

本文模型

基本模型设计:

分块(Patching)。选择在训练期间将时间序列切分为patch。因为patch已被证明可以提高性能和推理速度。

仅解码器模型(Decoder-only model)。谷歌的架构与PatchTST的一个关键区别在于,谷歌的模型是仅解码器模式训练的。换句话说,给定一系列输入patch,模型被优化为根据所有过去的分块预测下一个分块。类似于大型语言模型(LLMs),这可以在整个上下文窗口上并行完成,并且自动使模型能够在看到不同数量的输入分块后预测未来。

更长的输出分块(Longer output patches)。有两种预测未来序列点的方式,一种是以自回归方式逐个token生成,另一种则是直接预测未来的token,而且直接预测往往比多步自回归解码更准确。但如果预测范围长度事先未知,那就没法直接预测了(也就是零样本预测的面临一个问题)。这里作者采用了一种折衷方法:直接预测和多步预测结合。

图片

如图:TimesFM输入层负责将时间序列预处理成transformer的输入token。首先将输入分解为连续不重叠的patch,每个patch通过一个残差块(本质上是一个具有跳跃连接的多层感知器)处理成大小为model_dim的向量,加上位置编码,并输入到n_l层堆叠的transformer层中。其中,SA代表自注意力(注意谷歌使用的是多头因果注意力),FFN是变换器中的全连接层。输出token随后通过一个残差块映射到大小为output_patch_len的输出,这是模型迄今为止看到的最后一个输入分块之后的预测时间窗口的预测。

其实这里还涉及到数据混合和预训练的一些技巧,限于篇幅感兴趣的可以阅读原文。

论文实验和结论

图片

图片

文中进行了对比实验和消融实验,结论是本文模型TimesFM模型在各种公共数据集上的即插即用零样本性能接近于每个单独数据集的最先进监督预测模型的准确性。

未来工作

Prompt Tuning:在大型语言模型中,提示调整技术如思维链能显著提升模型性能。然而,对于时间序列模型,这些技术的应用尚不明确。

微调研究(finetuning studies):尤其是在协变量存在的情况下,将是未来工作的重点。

其他架构(Other architectures):未来可以尝试不同的架构,如MLP结构或高效的线性状态空间模型,这样的高效线性状态空间模型也会很有趣。

可解释性(Interpretability):通过特征重要性归因方法来提高模型的可解释性,并考虑开源模型以促进透明度和进一步研究。


 大家可以关注我【科学最top】,第一时间follow时序高水平论文解读!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2246014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis的基本使用命令(GET,SET,KEYS,EXISTS,DEL,EXPIRE,TTL,TYPE)

目录 SET GET KEYS EXISTS DEL EXPIRE TTL redis中的过期策略是怎么实现的(面试) 上文介绍reids的安装以及基本概念,本章节主要介绍 Redis的基本使用命令的使用 Redis 是一个基于键值对(KEY - VALUE)存储的…

大疆上云api开发

目前很多公司希望使用上云api开发自己的无人机平台,但是官网资料不是特别全,下面浅谈一下本人开发过程中遇到的一系列问题。 本人使用机场为大疆机场2,飞机为M3TD,纯内网使用 部署 链接: 上云api代码. 首先从github上面拉去代码 上云api代码github. 后…

实现管易云到金蝶云星空的数据无缝集成

管易云数据集成到金蝶云星空:案例分享 在企业信息化系统中,数据的高效流动和准确对接是业务顺利运行的关键。本文将聚焦于一个具体的系统对接集成案例——通过轻易云数据集成平台实现管易云数据到金蝶云星空的无缝迁移,方案名称为“wk_店铺_…

Ubuntu上安装MySQL并且实现远程登录

目录 下载网络工具 查看网络连接 更新系统软件包; 安装mysql数据库 查看mysql数据库状态 以数字ip形式显示mysql的监听状态。(默认监听端口是3306) 查看安装mysql数据库时系统创建的目录信息。 根据查询到的系统用户名以及随机密码&a…

卷积神经网络各层介绍

目录 1 卷积层 2 BN层 3 激活层 3.1 ReLU(Rectified Linear Unit) 3.2 sigmoid 3.3 tanh(双曲正切) 3.4 Softmax 4 池化层 5 全连接层 6 模型例子 1 卷积层 卷积是使用一个卷积核(滤波器)对矩阵进…

LVS

一、 lvs简介 LVS:Linux Virtual Server ,负载调度器,内核集成,章文嵩,阿里的四层 SLB(Server LoadBalance) 是基 于 LVSkeepalived 实现 LVS 官网 : http://www.linuxvirtualserver.org/ LVS 相关术语 VS: Virtual Serve…

使用 Elastic AI Assistant for Search 和 Azure OpenAI 实现从 0 到 60 的转变

作者:来自 Elastic Greg Crist Elasticsearch 推出了一项新功能:Elastic AI Assistant for Search。你可以将其视为 Elasticsearch 和 Kibana 开发人员的内置指南,旨在回答问题、引导你了解功能并让你的生活更轻松。在 Microsoft AI Services…

掺铒光纤激光器

一、光纤激光器的特点 实现灵活的激光光源(窄线宽、可调谐、多波长、超短光脉冲源)易获得高功率、高的光脉冲能量激光波长与光纤通信传输窗口相匹配采用激光器泵浦形式(半导体激光器泵浦)热稳定性、价格低廉、易小型化 二、放大…

AP+AC组网——STA接入

扫描 主动扫描:STA发送Probe Request帧,AP收到回复Probe Response 可以带着SSID扫描寻找指定WIFI,也可以带着空SSID扫描进入周围可用WLAN 被动扫描: 客户端通过侦听AP定期发送的Beacon帧(100TUs,1TU1024…

基于 ESP-AT (v3.x)固件通过 AT+SYSMFG 指令更新证书设置

AT 固件里的证书文件通过 mfg_nvs.csv 文件管理,所有证书都是写入 mfg_nvs 分区。可以先查看 mfg_nvs.csv 文件的内容来确定有哪些证书文件被管理,如下: 通过 AT 指令更新证书的方式如下: // 获取证书类型 ATSYSMFG?/…

投资策略规划最优决策分析

目录 一、投资策略规划问题详细 二、存在最优投资策略:每年都将所有钱投入到单一投资产品中 (一)状态转移方程 (二)初始条件与最优策略 (三)证明最优策略总是将所有钱投入到单一投资产品中…

android 性能分析工具(03)Android Studio Profiler及常见性能图表解读

说明:主要解读Android Studio Profiler 和 常见性能图表。 Android Studio的Profiler工具是一套功能强大的性能分析工具集,它可以帮助开发者实时监控和分析应用的性能,包括CPU使用率、内存使用、网络活动和能耗等多个方面。以下是对Android …

(UI自动化测试)web自动化测试

web自动化测试 UI自动化测试介绍 自动化测试理论: 图片上的文字等等不能做测试,只能发现固定的bug 工具选择及介绍 浏览器驱动:找元素--核心:驱动(操作元素)--通过代码

Web3与智能合约:区块链技术下的数字信任体系

随着互联网的不断发展,Web3代表着我们迈入了一个去中心化、更加安全和智能的网络时代。作为Web3的核心组成部分,区块链技术为智能合约的出现和发展提供了强有力的基础。智能合约不仅仅是自动化的代码,它们正逐步成为重塑数字世界信任体系的关…

AUTOSAR_EXP_ARAComAPI的7章笔记(6)

☞返回总目录 相关总结:ara::com 与 AUTOSAR 元模型的关系总结 7.4 ara::com 与 AUTOSAR 元模型的关系 在本文档中,我们一直在不涉及具体的AP元模型(其清单部分)的情况下解释 ara::com API的思想和机制,AP元模型是正…

浦语提示词工程实践(LangGPT版,服务器上部署internlm2-chat-1_8b,踩坑很多才完成的详细教程,)

首先,在InternStudio平台上创建开发机。 创建成功后点击进入开发机打开WebIDE。进入后在WebIDE的左上角有三个logo,依次表示JupyterLab、Terminal和Code Server,我们使用Terminal就行。(JupyterLab可以直接看文件夹)…

webgl threejs 云渲染(服务器渲染、后端渲染)解决方案

云渲染和流式传输共享三维模型场景 1、本地无需高端GPU设备即可提供三维项目渲染 云渲染和云流化媒体都可以让3D模型共享变得简单便捷。配备强大GPU的远程服务器早就可以处理密集的处理工作,而专有应用程序,用户也可以从任何个人设备查看全保真模型并与…

统信桌面操作系统V20专业版安装指南

1.概述 统信桌面操作系统安装器用于完成系统安装的任务,本手册会介绍统信UOS的安装环境、配置要求、安装方法,以及系统初始化设置,希望用户根据本文档可以快速高效的完成系统安装。 1.1安装配置要求 您安装系统前需了解安装统信桌面操作系…

16. 指针类型和步长概念问题

1. 项目场景: ➣ Jack Qiao对米粒说:“今天有道友遇到一个问题,举个栗子数组 arr[5] { 0 };道友发现&arr[0] 1与&arr 1打印出来的地址竟然不同。”米粒测试后果然是这样。 2. 问题描述 ☑ 举个栗子:数组 arr[5] { 0…

设计模式-创建型-抽象工厂模式

1.概念 工厂方法模式只能生产一个产品系列,抽象工厂可以生产多个产品系列 2.作用 多个具体产品组成一个产品族(产品系列),一个具体工厂负责生产一个产品族 3.应用场景 系统所需产品间由依赖关系,可以划分为同一产…