时间序列分析中的特征提取

news2024/9/20 22:52:59

一、说明

        在多变量时间序列分析期间,数据包含随时间推移测量的多个数据。为了管理模型性能,建议进行特征提取,以使模型的数据点更加紧凑。

二、时间序列的挑战

2.1 特征提取

仅选择“信息性”特征,这些特征在多变量时间序列分析中捕获重要信息和底层模式。由于时间序列数据是数据冗余的,为了增强可解释性并使模型不易过拟合,应删除冗余数据。减少数据维度可以更快地处理时间序列,并且还可用于应用机器学习技术进行有价值的预测。对于自动特征提取,可以利用各种深度学习技术,并且可能不需要太多的手动特征提取。自动特征提取的唯一挑战是它的计算量很大,而且是一个黑匣子模型,这将在解释阶段造成挑战。

        多变量时间序列是指在特定时间点具有多个相互关联的点的数据。为了进行分析,从yfinance库中获取了宏伟的七只股票数据,并通过本文展示了一个没有任何特征工程的样本时间序列。

        多变量时间序列的主要挑战之一是它在变量之间存在相互依赖性。例如,谷歌股票的价格可能取决于苹果的价格或NVidia股票的价格。由于它是基于时间的测量,每只股票都会有一个时间戳,而多元分析强调捕捉这种相互依存关系之间的潜在关系和模式。

2.2 诊断

  1. 残差图

残差图

        该图显示了随时间推移的残差值以及预测值,并且两个图之间存在巨大差异。该图是使用线性回归创建的,以了解残差。残差最终会告诉模型与实际值相差多少,并有助于评估模型准确性和识别错误。特征提取的第一步从绘制残差图开始,找到任何系统错误或模式,从而通过使用更好的特征来改进模型。

2. 相关性热图

三、热图

验证特征工程需求的另一种方法是相关性图。对于统计分析,并非所有特征都是必需的,相关性图有助于确定特征如何相互关联。通过识别相关性特征,选择具有最多信息的特征子集并删除冗余特征。选择特征的经验方法之一是,如果阈值大于 0.7(即 70%),则应选择其中一个相似特征,而不是两个特征。

三、 基于机器学习的诊断

绘制特征重要性图

        对冗余或不相关数据的早期诊断有助于做出有关特征提取的明智决策。相关性热图(线性关系)存在一些挑战,为了克服这些挑战,应该使用基于机器学习的模型来发现特征的值并删除权重较低的特征。

        损害

四、方向

4.1 自相关和滞后特征提取

        不同股票的自相关性

        自相关:自相关是指变量在不同时间滞后下与自身的相关性,它有助于理解变量如何与其自身的过去值相关联。从视觉角度来看,显著的峰值表明数据中可能存在时间依赖性或模式。出于特征工程目的,使用 3 个滞后(1 天滞后、7 天滞后和 30 天滞后)来确定趋势/季节性或周期性模式。

滞后特征提取

        对于特征提取:没有这样的滞后,这将被视为最佳滞后,因此必须考虑滞后组合来检测数据中的依赖性。在特征提取中,数据的可解释性比高自相关滞后更重要。

4.2. 差异

4.3、差分

        差异是一种用于转换数据以消除趋势和季节性的技术。差分涉及从当前值中减去前一个值,可以减少数据,但仍保持模式。此外,对于像 ARIMA 这样的模型,它提高了平稳性。要检查差分的必要性,首先要检查数据自身是否具有平稳性分量。要检查平稳性,请执行增强 Dickey Fuller 检验 (ADF TEST)。

4.4. 互相关

        互相关

        互相关是一种强大的技术,可以理解不同变量之间的滞后关系。与衡量整体线性关系的相关性不同,互相关侧重于相对于另一个变量的变化。通过计算互相关,它有助于预测目标变量和不同滞后的另一个变量的目标值。

4.5. 基于时间的特征提取

        滚动均值:有助于突出潜在趋势,并减少整体噪音

        滚动标准差:有助于突出波动性,并补充滚动均值

4.6. 基于形状的特征提取

        基于形状的特征提取

        峰值和谷值计数捕获了事件的总体频率,并可能指示波动性水平的变化。峰与峰值之差是最高值和最低值之间的绝对差值,峰与谷之差是峰和最接近谷值之间的绝对差值。这种基于形状的特征提取用于理解特征工程的数据特征,同时它还提供了有关噪声敏感性和任务特定相关性的想法。

4.7、主成分分析

        PCA 通过减少维度和捕获数据中的最大方差来帮助特征提取。

1  自动特征提取(神经网络)

2 基于神经网络的模型的特征提取

在下文中,上给我写关于我的文章的反馈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2058816.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java】了解线程 Thread 类的使用,如何创建、终止、等待一个线程,一文读懂不迷路

线程是什么 线程是操作系统中调度的基本单位,是比进程更小的执行单元。线程在进程内部运行,共享该进程的资源,如内存和文件句柄,但每个线程都有自己的执行栈和程序计数器。 线程的主要特点包括: 轻量级:…

格式工厂怎么转换mp4?简单4步实现视频转换

视频转换的重要性不言而喻。随着科技的发展,视频已经成为我们生活中不可或缺的一部分。然而,不同的设备和平台往往支持不同的视频格式,这就导致了视频兼容性问题。此外,不同格式的视频文件在存储和传输方面也存在差异。因此&#…

【MySQL】数据库基础与MySQL的安装

1. 数据库基础 1.1 什么是数据库 在接触数据库之前,回想一下我们之前写的所有小项目,如果需要持久化保存一些内容,我们是保存在文件中的,似乎也能够很不错的支持我们的操作,解决我们的需求。但是,实际上是…

健身房管理系统的设计与实现设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图详细视频演示技术栈系统测试为什么选择我官方认证玩家,服务很多代码文档,百分百好评,战绩可查!!入职于互联网大厂,可以交流,共同进步。有保障的售后 代码参考数据库参…

Redis7基础篇(七)

redis哨兵(sentinel) 目录 redis哨兵(sentinel) 是什么 能干吗 案例演示 架构 案例步骤 出现的问题 哨兵的运行流程和选举原理 哨兵的使用建议​编辑 是什么 在之前的复制中我们了解到 主机shutdown之后 从机就会一直等…

轻松创作高质量的AI音乐——Suno API

Suno 歌曲生成 API 对接指南 随着人工智能技术的飞速发展,各类 AI 程序已如雨后春笋般涌现。AI 不再是遥不可及的存在,它的身影深入了人类工作与生活的每一个角落。其应用领域也愈加广泛,从初期的写作,到现如今的医疗、教育&…

为什么同一台手机连着电脑的ip地址不一样

在现代社会中,网络已成为我们日常生活不可或缺的一部分。从日常办公到休闲娱乐,网络无处不在。然而,在享受网络带来的便利时,我们可能会遇到一些看似复杂实则有趣的网络现象。今天,我们就来探讨一个常见却又容易被忽视…

LLM | 面向对话式医疗健康场景的医疗大模型

近日,复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源了一个专门针对医疗健康对话式场景而设计的医疗领域大模型:DISC-MedLLM。 DISC-MedLLM DISC-MedLLM 是一个专为医疗健康对话场景而打造的领域大模型,它可以满足您的各种医疗保…

嵌入式堆栈、ARM寄存器

栈里面存放的内容:局部变量和系统信息,函数调用链路也是系统信息的一环 ARM寄存器 LR:程序跳转的时候,返回到的地址就保存到此处 PC:程序计数器,pc 要执行的下一条指令地址,就存放在此处&#…

Obsidian Publish的开源替代品Markopolis

什么是 Markopolis ? Markopolis 是一款旨在提供 Markdown 文件的 Web 应用和 API 服务器。它允许您以网站形式共享 Markdown 笔记,并使用 API 与 Markdown 文件交互和操作它们。类似于 Obsidian Publish,但又不会被锁定在 Obsidian 生态系统…

FMS 2024:多家厂商CXL技术方案总览

CXL(Compute Express Link)联盟自成立以来一直是FMS闪存峰会的常客。在2022年的峰会上,CXL联盟宣布了CXL 3.0版本规范,随后在2023年的超级计算大会上推出了CXL 3.1版本。起初,CXL作为一种主机到设备的互联标准&#xf…

【LiteX】【仿真】使用litex_sim在Python环境中实现FPGA SoC仿真测试

目录 介绍环境依赖litex_sim 入门仿真litex_server、litex_cli、litescope_cli仿真调试litex_sim仿真窗口litex_server窗口litex_cli窗口litescope_cli窗口 波形DUMP方法一:导出指定时间段的波形方法二:在命令行中配置寄存器控制波形导出方法三&#xff…

BI分析实操案例分享:零售企业如何利用BI工具对销售数据进行分析?

在当下这个竞争激烈的零售市场,企业如何在波诡云谲的商场中站稳脚跟,实现销售目标的翻倍增长? 答案可能就藏在那些看似杂乱无章的数字里。 是的,你没有看错,答案正是那些我们日常接触的销售数据。它们就像是宝藏&…

92.SAP ABAP - RFC函数外部调用时的debug - 笔记

当RFC函数被外部系统访问,需要联合调试时,也需要debug模式,打断点进行跟踪。这种要如何做呢? 目录 1.SE37进入程序,通过菜单Utilities-Settings进入 2.ABAP Editor-Debugging Tab页面 3.单击Set/Delete External Br…

软件设计师全套备考系列文章7 -- 树、二叉树、图

软考-- 软件设计师(7)-- 树、二叉树、图 文章目录 软考-- 软件设计师(7)-- 树、二叉树、图前言一、树的基本概念二、二叉树的基本概念三、二叉树的考点四、线索二叉树五、平衡二叉树六、图 前言 考试时间:每年5月、11…

制冷系统四通阀、截止阀和单向阀

一、 四通阀 (一)作用:是热泵型空调中的关键部件,起制冷系统中制冷、制热转换的作用,通过更换压缩机排气管和回气管进入蒸发器和冷凝器的方向,从而达到制冷和制热目的。亦可以用于除湿系统的换向化霜。 (二)工作原理&#xff1…

java接口 controller层接收list集合传参,postman 调用接口时required parameter XXX is not present

开发过程中开发一个java接口 controller层接收list集合传参,然后postman调用一直不成功,报错 使用RequestParam方式,如果postman 调用接口时报错required parameter XXX is not present 可能是(value“items”)跟你输…

微信小程序--31(todolist案例)

一.功能 输入待办事件添加代办事件删除代办事件 二、步骤 1.添加输入框 .wxml代码&#xff1a; <!-- 1.输入框 --><input type"text" bindinput"handleInput" value"{{text}}" /> .wxss代码&#xff1a; /* 1.输入框样式 */ i…

百度地图API快速使用 - 以批量算路为例讲解

目录 1. 开发文档链接 2. 开发流程说明 &#xff08;1&#xff09;首先-创建应用获取访问应用的AK &#xff08;2&#xff09; 查看文档的示例代码并分析 3. 简单改编示例的代码 1. 开发文档链接 批量算路 | 百度地图API SDK (baidu.com)https://lbsyun.baidu.com/faq/ap…

Adobe After Effects的插件--------3D Stroke

3D Stroke是蒙版路径描边插件。它是AE的外置插件,需要自己下载,可以在lookAE中下载。 该插件会依据图层上的蒙版路径(内部)创建蒙版,并且使原蒙版失效。 基础属性 英文属性名中文属性名描述Path路径用来选择图层上的某一段蒙版路径,若 Use All Paths 属性未勾选,该属性…