TimesFM: 预训练的时间序列基础模型

news2024/12/26 11:09:57

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在阅读过程中有些知识点存在盲区,可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计。技术宅麻烦死磕LLM背后的基础模型。当然最重要的是订阅跟随“鲁班模锤”

TimesFM是一种预测的基础模型,在包含1000亿个现实世界的大型时间序列语料库上进行了预训练,在来自不同领域和粒度的各种公共基准上显示了令人印象深刻的zero-shot的性能。

TimesFM

时间序列预测是一门艺术,尤其在金融和经济领域,当然在交通、健康、天气等其他领域应用也十分广泛。若能以高精度和高置信度的预测股票、基金、GDP、COVID-19病例就可以提前预判,然后进行更好的决策和优化资源调度。时间序列预测的分析涉及处理复杂且动态的模式,例如趋势、季节性、周期、异常值和噪音。同时时间序列模型需要大量数据和领域知识来针对特定任务和数据集的训练和模型微调。

统计和机器学习模型等传统方法通过分析时序的平稳性和ACF特征等,利用一些基本模型例如ARIMA,但是一般而言难以捕获时间序列数据中的长期依赖性和非线性关系。近期也有一些基于深度学习的方法,例如DeepAR、WaveNet等循环神经网络和卷积神经网络,可以提供更好的性能,计算成本也随之增加,同时还需要额外的大数据。

谷歌研究团队提出了一种设想,是否能够在任何时间序列数据集上实现准确的零样本预测,且不需要任何额外的领域知识。于是它们提出了TimesFM。

TimesFM是一种Decode-Only的基础模型,这个模型在大型且多样化的时间序列语料库上进行预训练,且可以为未见过的数据集生成可变长度的预测。它基于自注意力机制和传统的位置编码,提炼出数据中不同时间点之间的关系,以及捕获数据中的时间顺序的信息。最重要的是TimesFM 还具有可扩展性、可概括性和可解释性

训练与推理模式

训练场景:

TimesFM中允许生成时序数据块(下文成为patch)长于比输入时序数据块。例如,假设输入patch长度为32,生成patch的长度为128。预训练过程中,模型会被按照:

  1. 前32个时间点来预测接下来的128个时间点进行训练。

  2. 前64个时间点来预测接下来的128个时间步,预测接下来的65-192

  3. 前96个时间点来预测接下来的128个时间步,预测接下来的97-224

  4. ……以此类推 

推理场景:

在推理过程中,假设给模型一个长度为256的新时间序列,并负责预测未来的接下来 256 个时间步长。 因为输出的patch长度预设为128,所以:

  1. 利用256的新实践序列通过模型生成257-384(长度为128)的预测

  2. 利用256+第一次生成时序数据再次生成385-512(长度为128)的预测

若输出的patch的长度预设为32,那么对于刚才的任务需要执行8个自回归生成迭代,而不是之前的两步。patch size某种意义是个超参数,需要根据场景进行权衡。

架构概览

TimesFM是一种基于区块的decoder-only的模型,其灵感来自于 Vision Transformer (ViT) 和 Generative Pre-trained Transformer (GPT)。它由三个主要组件组成:输入编码器、解码器和输出解码器。

每个切分的时序数据块都由残差块(如模型定义中所定义)处理为Transformer层能够接收的向量,然后将向量添加到位置编码中并馈送到 nl个变压器层中。

SA指的是self-attention(这里使用的是多头因果注意力),FFN是transformer中的全连接层。 最后生成的Token通过残差块映射回输出

输入编码器负责将时间序列数据映射为Token,输入编码器首先将时间序列数据分割成相等长度的时序数据块,然后对每个时序数据块进行线性变化 进而得到Token。

TimesFM首先将输入切分成连续的不重叠的patch,每个patch的数据块会通过残差网络投影到长度为model_dim的向量。这个向量还有带有覆盖标识信息,例如mask1:L中的数值1代表着输入y1:L可以被忽略不给与处理

左图为残差块,输入为x,输出为F(x)+x。残差块很容易理解。在传统神经网络中,每一层都会馈送到下一层。要是具有残差块的网络中,每一层都会馈送到下一层,同时还会报送2-3跳之外的层进行相加。

那就意味着输入y1:L会被按照patch长度p切分成相应的块数。第j个patch 可以表示为˜yj = y[p(j−1)+1:pj]。对应的覆盖标识为˜mj = m[p(j−1)+1:pj]。那么残差网络的输入为˜yj ⊙(1-˜mj )。

解码器是模型的核心组件,其中应用了自注意力和位置编码机制。解码器由多层组成,每层都包含一个多头自注意力模块和一个前馈网络。自注意力模块允许模型学习序列中不同标记之间的依赖关系和关系,无论是在输入还是输出中。前馈网络允许模型学习标记的非线性变换。解码器还使用层归一化和残差连接来提高模型的稳定性和效率。

位置编码是一种将时间信息注入Token(令牌)序列的技术,因为自注意力模块没有任何固有的顺序或位置概念。在将令牌嵌入送入解码器之前,将位置编码添加到令牌嵌入中。位置编码可以是学习的,也可以是固定的,具体取决于模型的选择。在 TimesFM中,位置编码采用学习的模式,意味着模型可以适应数据中不同的时间粒度和频率。

输出解码器负责将输出Token映射到最终预测。输出解码器对每个输出Token应用线性投影以获得标量值,该标量值表示相应时间点的预测值。输出解码器还使用softmax函数对输出值进行归一化并确保它们在合理的范围内。

TimesFM的核心功能之一就是可以根据需求进行预测可变长度的输出。这意味着该模型可以预测任意数量的未来时间点,而不需要任何重新训练或微调。

过程回放

TimesFM在现实世界的海量时间序列语料库上进行了预训练,这些时间序列语料库源自维基百科和谷歌搜索趋势以及合成数据。

用于预训练的数据集多种多样且异构,涵盖不同的领域、时间粒度和噪声水平。其中一些领域包括金融、经济、健康、天气、体育、娱乐等。一些时间粒度包括每小时、每天、每周、每月和每年。一些噪音级别包括低、中和高。合成数据是通过使用具有不同参数和噪声水平的正弦函数、线性函数和随机函数的不同组合来生成的。合成数据用于增强现实世界数据并增加预训练语料库的多样性和复杂性。

训练使用80%的真实数据和20%的合成数据进行采样,每小时 + 每小时、每日、每周和每月数据集有相同的权重。只要时间序列的长度允许,就使用最大上下文长度512进行训练。对于每周粒度,因为没有足够长的时间序列,所以使用最大上下文长度256。在≥月粒度则使用最大上下文长度64。同时每个输入的时间序列采用第一个输入数据块的均值和标准差进行缩放。

性能

TimesFM 在大多数基准和指标上都优于其他最先进的方法,上图中的指标越低越好。下图为主流算法的可视化图拟合图。

TimesFM还有局限性的,TimesFM 可以处理大型和高维时间序列数据,得益于其可变长度输出解码器,然而TimesFM需要大量的计算资源和内存来训练和运行,特别是对于长而复杂的时间序列数据。

由于其学习的位置编码,它可以适应不同的时间粒度和频率。然而,TimesFM也可能会遇到一些域偏移和分布不匹配的问题,特别是对于与预训练数据有很大不同或信噪比非常低的数据集。

值得注意的是TimesFM依靠自注意力机制和输出解码器可以为其预测生成提供可解释性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1677070.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

根据Word文档用剪映批量自动生成视频发布抖音

手头有大量word文档,想通过剪映的AI图文成片功能批量生成视频,发布到抖音平台,简单3步即可: 第一步:把word文档或者PDF等文档转成txt文本,可以用一些软件,也可以用AI工具,具体常见文…

Windows下编译RTTR

虽然C11引入了RTTI、Metaprogramming 等技术,但C在Reflection编程方面依旧功能有限。在社区上,RTTR则提供了一套C编写的反射库,补充了C在Reflection方面的缺陷。 零、环境 操作系统Windows 11Visual StudioVisual Studio Community 2022 CMa…

Qt---Socket通信

一、TCP/IP通信 在Qt中实现TCP/IP服务器端通信的流程: 1. 创建套接字 2. 将套接字设置为监听模式 3. 等待并接受客户端请求 可以通过QTcpServer提供的void newConnection()信号来检测是否有连接请求,如果有可以在对应的槽函数中调用nextPendingCon…

【现代C++】范围库的应用

C20引入了范围库(Ranges library),它是标准模板库(STL)的一个扩展,提供了一种新的方式来处理序列和范围。这个库允许开发者以更声明式的方式编写代码,使得操作序列变得更简洁、更易读。以下是C范…

【web网页开发制作】Html+Css+Js游戏主题特效及轮播效果网页作业天涯明月刀(7页面附源码)

HTMLCSSJS游戏主题轮播效果 🍔涉及知识🥤写在前面✨特效展示特效1、轮播幻灯效果特效2和3、鼠标悬浮及点击效果 🍧一、网页主题🌳二、网页效果Page1、首页Page2、游戏简介Page3、新闻中心Page4、互动专区Page5、视听盛宴Page6、用…

Kotlin协程实战指南:解锁Android开发高效能新时代

前言 在移动互联网的狂飙突进之中,Android开发领域如同站在风口的勇士,不断接受技术迭代与创新的双重洗礼。在这个快速变化的市场里,用户对应用性能和体验的期待水涨船高,开发者们面临的挑战也越来越大:如何在功能的丰…

Dart 3.4 发布:Wasm Native Macros(宏)

Google I/O 的结束,除了 Flutter 3.22 的发布 ,Dart 3.4 也迎来了它是「史诗级」的更新,之所以这么说,就是因为 Wasm Native 的落地和 Macros 的实验性展示。 在此之前,其实我也提前整理过一些对应的内容,…

运维别卷系列 - 云原生监控平台 之 06.prometheus pushgateway 实践

文章目录 [toc]Pushgateway 简介Pushgateway 部署创建 svc创建 deployment Pushgateway 测试删除 Pushgateway 上对应 lable 的数据 Pushgateway 简介 WHEN TO USE THE PUSHGATEWAY Pushgateway 是一种中介服务,允许您从无法抓取的作业中推送指标。 The Pushgateway…

深入理解 npm、cnpm、npx、yarn 和 pnpm:JavaScript 包管理器的对比

在 JavaScript 的世界中,包管理器是一个重要的工具,它帮助我们管理、安装和升级项目的依赖。在这篇文章中,我们将深入探讨三个最流行的 JavaScript 包管理器:npm、yarn 和 pnpm。 npm(Node Package Manager&#xff0…

未来IT行业的模块化、学习与跨界融合

随着技术的快速发展,IT行业已成为推动全球经济和社会发展的核心动力。从云计算和大数据到人工智能(AI)和物联网,这些创新技术正在彻底改变我们的生活方式和工作模式。而在AI领域,尤其是人工智能生成内容(AI…

怎么识别数学公式?分享简单识别方法

怎么识别数学公式?在学术研究和日常工作中,数学公式无疑是一个常见且重要的元素。然而,手动输入复杂的数学公式往往既耗时又容易出错。幸运的是,随着科技的发展,现在我们有了一些高效的软件工具,可以帮助我…

奥维地图下载高清影像的两种方式!以及ArcGIS、QGIS、GlobalMapper、自编工具下载高清影像的方法推荐!

今天来介绍一下奥维互动地图是如何下载高清影像的,也不是多了不起的功能!有朋友问,加上这个软件确实用的人多。 下载的高清数据在ArcGIS中打开的效果! 开始介绍奥维之前我们也介绍一下我们之前介绍的几个方法,没有优劣…

IP代理网络协议介绍

在IP代理页面上,存在HTTP/HTTPS/Socks5三种协议。它们都是客户端与服务器之间交互的协议。 HTTP HTTP又称之为超文本传输协议,在因特网使用范围广泛。它是一种请求/响应模型,客户端向服务器发送请求,服务器解析请求后对客户端作出…

四信5G全连接工厂一站式解决方案上线,打造可持续发展工业未来

政策背景 2022年9月,为进一步加快“5G工业互联网”新技术新场景新模式向工业生产各领域各环节深度拓展,工信部印发《5G全连接工厂建设指南》,明确提出,推动万家企业开展5G全连接工厂建设,建成1000个分类分级、特色鲜明…

#Docker | Ngrok# 使用Ngrok和Docker进行内网穿透

一、注册 Ngrok官网注册,可以使用gmail或者outlook邮箱, 正常填写后你会收到一封电子邮件,点击邮件中链接即注册成功 二、获取密钥 登录,点击Your Authtoken,最上面copy左边就是你得密钥 三、使用内网穿透启动docker…

C++面向对象程序设计-北京大学-郭炜【课程笔记(九)】

C面向对象程序设计-北京大学-郭炜【课程笔记(九)】 1、输入输出流相关的类1.1、标准输出重定向1.2、标准输入重定向1.3、判断输入流结束1.3.1、强制类型转换符重载 1.4、istream类的成员函数1.4.1、cin.getline()函数 2、流操纵算子控制输出格式2.1、流操…

「51媒体」家居生活发布会,展览展会有哪些媒体邀约资源

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 家居生活类媒体包括多种类型,包括门户网站家居生活消费频道,专业的家居消费生活门户,以及行业媒体,平面媒体,KOL和意见领袖。下…

类人速度超快语音响应!OpenAI推出新旗舰模型GPT-4o,图文音频手机AI搞定

内容概述 虽然没有带来备受期待的人工智能(AI)搜索引擎,但OpenAI在主打产品AI模型上花了更多心思,拓展多模态功能,让用户可以免费玩转文字、图片和语音输入。 美东时间5月13日周一,OpenAI首席技术官Mira …

绝地求生:一穿四教学,绿色玩家也能轻松一穿四

PUBG一穿四速成班开课啦!我这里只做PUBG干货分享,不搬运!不搬运!!不搬运!!! 有很多朋友是否在排位里kd不高,开局不是扎堆roll点就是一直搜东西然后一波就没?这…

《灵摆疗法》PDF完整版阅读

译者序 神奇丶快速又有效的灵摆疗法 2008年当我开始走上自己的灵性道路时就与灵摆结下了不解之缘当时我非常热衷于水晶疗愈所以疯狂地搜集各种不同的矿石学习如何将矿石 和水晶灵摆连结起来做能量疗愈后来在我开设马雅心能量课程时也会教大家如何使用水晶灵摆 …然而这两年来不…