【数据挖掘】时间序列教程【一】

news2024/11/26 0:50:50

第一章 说明

        对于时间序列的研究,可以追溯到19世纪末和20世纪初。当时,许多学者开始对时间相关的经济和社会现象进行研究,尝试发现其规律和趋势。其中最早的时间序列研究可以追溯到法国经济学家易贝尔(Maurice Allais)和英国经济学家詹姆斯·克拉克(James Clark)的研究。随着时间序列分析方法的不断发展和应用,时间序列研究逐渐成为了统计学、经济学、金融学、工程学等领域重要的研究方向。

第二章、时态数据的结构

时间序列数据为

  • 根据时间编制索引的观测值或测量值

  • 而不是Xi,我们用Xt表示

为什么这会让事情变得不同?

  • 时间索引具有特殊的排序。

  • 随时间测量的数据不可交换,这是我们在索引数据时通常假设的我我.

  • 时间也可以有其特殊的含义,代表其他未观察到的变量。

        需要明确的是,时间序列数据的一个关键属性是,它与通常分析的其他类型的数据区分开来,我们不认为我们可以随机排列数据的索引并以相同的分布对数据进行建模。数据有排序。此外,数据独立的较强假设通常不适用。

        时间序列数据的一个有趣且可能令人不安的特征是,原始形式的数据提供的真实信息很少。从某种意义上说,原始数据是最无用的数据形式。因此,绘制或汇总原始数据通常无法提供对正在发生的事情或为什么发生的很多见解。但是,由于时间索引具有如此特殊的意义,我们可以使用时间索引将时间序列数据分解为不同时间尺度的变化。时间尺度分析的正式方法有时称为傅里叶分析或光谱分析,但也有一些非正式方法也很有用。

        考虑时间序列数据的另一种方法是,时间序列实际上表示在不同时间尺度上变化的时间序列的混合。分析时间序列数据的部分工作是

  1. 挑选时间尺度的混合并描述它们之间的区别

  2. 根据经验属性或手头的科学问题确定感兴趣的时间尺度

2.1 示例:空气污染与健康

        例如,我们可能有兴趣研究长期暴露于环境空气污染如何影响您的预期寿命。例如,一些研究表明,与生活在更清洁的城市相比,一生生活在污染更严重的城市会使您的预期寿命减少多达 6 个月。在考虑如何解决这个问题以及如何分析数据时,我们主要感兴趣的是比较城市之间的长期平均污染水平,也许是几十年。我们不太可能关心某一天甚至一个月的污染水平有多高。

        另一方面,许多研究表明,空气污染的短期峰值会增加一个城市的心血管和呼吸系统疾病的死亡人数和住院人数。在这种情况下,我们可能有兴趣将空气污染的日常变化与住院或死亡率的日常变化进行比较。总体长期平均污染水平没有什么意义。

        考虑以下 10–1987 年期间密歇根州底特律的颗粒物 (PM1999) 数据的时间序列图。

        有人可能会问一个看似简单的问题:底特律的空气污染在1987年至1999年期间有所改善吗?事实上,在这段时间内,污染水平总体上略有下降,但持续不断。

实际上,当我们查看拟合的简单线性回归模型结果时,我们看到斜率的系数为负。

# A tibble: 2 x 5
  term        estimate std.error statistic   p.value
  <chr>          <dbl>     <dbl>     <dbl>     <dbl>
1 (Intercept) 48.4      1.67         28.9  9.59e-170
2 date        -0.00157  0.000184     -8.54 1.77e- 17

但是,在查看上面的图时,很难不注意到定期发生的极端峰值。粗略阅读该图显示了PM10水平达到100 \(mu\)g/m\(^3\)的天数。因此,底特律的PM10随着时间的推移而下降,但我们在某些日子里仍然会经历高水平。情况是否有所改善?

当然,答案与我们考虑数据的时间尺度有关。在长期的时间尺度上,事情似乎正在减少,因此趋势平稳。然而,在短期时间尺度上,我们仍然会看到大的峰值。没有一个答案;答案取决于时间尺度。

从政策角度来看,我们可以采用不同的策略来影响长期和短期时间尺度的空气污染。为了长期改变污染水平,我们可能会尝试将当地经济从基于化石燃料的能源转变为更可再生、污染更少的能源。这样的计划可能会产生重大影响,但需要大量时间才能实施。为了应对污染的短期波动,我们可能会实施交通禁令或有针对性的基于源的干预措施等政策,以缓解短期高峰。

现在假设我们想看看底特律的死亡率和空气污染之间是否存在任何关联。我们可以制作一个简单的散点图来查看是否存在简单的关联。

现在,这个散点图是我们在没有时间序列数据时可能会制作的。但是,由于我们确实有时间序列数据,因此我们应该立即开始根据不同的时间尺度变化来思考问题。我们关心的是污染和死亡率之间的长期关联,还是关心短期关联?

上图中显示的整体关联可以用简单的线性回归模型进行量化。

# A tibble: 2 x 5
  term        estimate std.error statistic    p.value
  <chr>          <dbl>     <dbl>     <dbl>      <dbl>
1 (Intercept)  46.0      0.226      204.   0         
2 pm10          0.0275   0.00564      4.88 0.00000108

两者之间似乎存在正相关,表明空气污染水平的增加与死亡率的增加有关。但是,我们能做更多的事情来获得更多的洞察力吗?

让我们计算PM10的年平均值,并对年度死亡总数求和,并制作这些年度汇总统计数据的散点图。

从这个图中我们可以看到,这种关联似乎相当强(当然,只有 13 个数据点)。当我们为这些数据拟合线性模型时,我们得到以下内容。

# A tibble: 2 x 5
  term        estimate std.error statistic       p.value
  <chr>          <dbl>     <dbl>     <dbl>         <dbl>
1 (Intercept)   10388.     987.      10.5  0.00000000725
2 pm10            190.      29.4      6.47 0.00000579   

从一年到下一年,年平均PM10变化一个单位,与190.4例死亡的变化有关。

现在,我们可以将PM10的每日偏差与其年平均值进行比较,并查看该偏差与每日死亡率之间的关联。

# A tibble: 2 x 5
  term        estimate std.error statistic p.value
  <chr>          <dbl>     <dbl>     <dbl>   <dbl>
1 (Intercept)  46.9      0.116      404.    0     
2 pm10dev       0.0142   0.00574      2.47  0.0136

这里的关联要小得多,但当然我们只关注PM10的每日变化,而不是年度变化。我们预计PM10从一天到第二天的一个单位变化会带来大量死亡。

人们可能会想知道:哪个估计是正确的?是平均PM10与死亡率之间的关联,还是平均PM10与死亡率之间的关联?答案是两者都是“正确的”,但每个都回答了不同的问题。日平均值着眼于短期变化,可以解释为代表污染的“急性”影响,而年平均值可能会重新反映空气污染水平的“慢性”影响。

在不同时间尺度上观察关联时要考虑的另一个问题是,在这个时间尺度上存在的混杂因素是什么?在观察PM10的逐年变化时,可能存在许多混杂因素,这些混杂因素也因PM10和死亡率而异。在观察PM10的每日变化时,每年平稳变化的相同混杂因素可能不会引起关注。但是,可能还有其他混杂因素每天都需要考虑。

2.2 固定变化与随机变化

大多数时间序列书籍倾向于将时间序列想象为仅由随机现象组成,而不是固定和随机现象的混合。因此,建模通常侧重于时序模型的随机方面。然而,世界上许多实时序列是由我们可能认为的固定和随机变化组成的。

  • 温度数据具有非“随机”的昼夜和季节性成分

  • 空气污染数据可能会根据交通或通勤模式产生星期的影响

虽然有时很容易将一切都视为随机的,但当我们缺乏对真正潜在现象的观察时,这通常是一根拐杖。此外,当某些东西是固定的时,将它视为随机将导致违反我们通常做出的平稳性假设(见下文)。

根据应用程序的性质,对固定或随机的相同现象进行建模可能是有意义的。换句话说,这取决于。

  • 在生物医学和公共卫生应用中,我们通常处理完全观察到的数据集,并试图解释“发生了什么?

  • 我们正在描述过去,也许是对未来做出推断

  • 在金融或控制系统应用中,我们可能会根据过去对未来事件进行预测。从过去数据中看似固定的事情将来可能会发生变化,因此我们可能希望允许模型“适应”未知的未来模式。

考虑以下 1990–1992 年马里兰州巴尔的摩的日平均温度图。正如人们从温度数据中预期的那样,有一个强烈的季节性模式,在夏季达到顶峰,在冬季出现低谷。

现在,这种所谓的季节性模式是固定的还是随机的?历史告诉我们,季节性模式是相当可预测的。我们通常不相信夏天可以冻僵,冬天也可以达到90度(F)。

讨论此问题的更正式方式可能是使用以下模型。设 \(y_1, y_2, \dots\) 是巴尔的摩每天 \(t\) 的温度值,并考虑以下模型,

\[ y_t = \mu + \varepsilon_t, \]

其中 \(\varepsilon\) 是期望值 \(\mu\) 和观测值 \(y_t\) 之间的随机偏差。在没有任何计算机的帮助下,我们可能会查看上面的图并估计\(\mu\)大约是50-55度。但是现在,假设您的工作是预测 \(t\) 的任何值的 \(\varepsilon_t\) 的值。很明显,如果 \(t\) 在年中下降,则很可能是 \(\varepsilon_t > 0\),如果 \(t\) 在年初或年底附近下降,那么很可能是 \(\varepsilon_t < 0\)。因此,我们只需知道 \(t\) 的值即可获得有关偏差 \(\varepsilon\) 的重要信息。换句话说,序列\(\varepsilon_t\)中嵌入了一个固定的季节性效应,我们可能很难将其视为“随机”。

但现在考虑以下模型。

\[ y_t = y_{t-1} + \varepsilon_t。 \]

此模型将 \(y_t\) 的值预测为与时间 \(t-1\) 处的值的偏差。所以今天的值等于昨天的值加上一个小的偏差。现在,假设您的工作是预测 \(\varepsilon_t\) 的值。这有点难,对吧?如果我知道昨天是70度,我确定今天会比70度温暖吗?还是更冷?如果我知道昨天是20度,我确定今天会更暖和还是更冷?在此模型中,偏差\(\varepsilon_t\)可能看起来更“随机”或更难预测。没有一个固定的规则说今天的温度总是比昨天的温度更暖(或更冷)。

考虑下面的不同时间序列,它显示了股票代码为 SPY 的交易所交易基金的加权中间交易价格。该基金追踪美国股票的标准普尔500指数。请注意,x 轴上的时间刻度以微秒为单位。

与温度时间序列相比,该图看起来不那么规则,并且没有可识别的模式。此外,在微秒级,我们可能不太熟悉这种股票价格可能存在的固定模式。有经验的交易者可能知道,在一天中的给定时间,在几十万微秒的窗口内,这种模式总是会出现。

然而,对于金融,有一种被称为有效市场假说的理论认为这种固定模式不应该存在。如果存在这样一个固定的模式,它将代表一个套利机会,或者一个没有风险的赚钱机会。例如,在上面的图中,我们可以在 2 万微秒的时间买入股票,然后在 5 万微秒左右卖出,以获得轻松的利润。如果这种模式每天都存在,我们可以告诉我们的经纪人每天执行这笔交易以获得微薄的利润。然而,随着这种模式的消息泄露到市场上,越来越多的人会开始和我同时买入,和我同时卖出。这将在买入时提高价格,在卖出时降低价格,最终获利机会将消失。

有效市场假说表明,这种固定模式的存在极不可能。因此,将此类数据建模为随机数据可能更有意义,而不是固定数据。这表明可以采用不同的建模策略和不同类型的模型。我们不会在这里详细讨论这些类型的模型。

2.3 时间序列分析的目标

人们希望从时间序列分析中得到什么?正在回答哪些问题?

2.3.1 预测

鉴于过去和现在,未来会是什么样子(及其不确定性)?

  • 鉴于过去10年的季度每股收益,苹果公司下个季度的每股收益是多少?

  • 鉴于过去200年的全球平均气温,未来100年全球平均气温是多少?

2.3.2 过滤

鉴于过去和现在的观察,我应该如何更新我对自然真实状态的估计?

  • 鉴于我目前对航天器位置和速度的估计,我应该如何根据新的陀螺仪和雷达测量更新我对位置和速度的估计?

  • 鉴于美国每月失业数据的历史以及我对当前失业水平的估计,我应该如何根据劳工统计局发布的最新数据修改我的估计?

  • 考虑到捐赠回报的历史,当年的回报,以及每年花费捐赠价值的目标百分比的需要,大学应该在下一个财政年度从捐赠基金中花费多少?

2.3.3 时间尺度分析

给定一组观察到的数据,哪些时间尺度的变化主导或解释了数据中的大部分时间变化。

  • 马里兰州巴尔的摩的温度观测是否有强烈的季节性周期?

  • 环境空气污染与死亡率之间的关联主要是由污染水平的年度大幅变化还是短期峰值驱动的?

2.3.4 回归建模

给定两种现象的时间序列,它们之间有什么关联?

  • 每日空气污染水平与心脏住院每日数值之间有什么关联?

  • 一个国家失业率的变化与国内生产总值的变化之间的滞后(以月为单位)是多少?

  • 大飓风发生后两周内发生的累计超额死亡人数是多少?

2.3.5 平滑

给定一个完整的(嘈杂的)数据集,我可以推断出过去自然的真实状态吗?

  • 给定一个噪声测量信号,我能从数据中重建真实信号吗?

  • 现在我的宇宙飞船已经绕月飞行了,它离月球最近的距离是多少?

  • (待续)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/702530.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微服务04 分布式搜索引擎 elasticsearch DSL数据聚合 自动补全 数据同步 集群 Sentinel

微服务03 分布式搜索引擎 elasticsearch ELK kibana RestAPI 索引库 DSL查询 RestClient 黑马旅游 分布式搜索引擎03 1.数据聚合 聚合&#xff08;aggregations&#xff09;可以让我们极其方便的实现对数据的统计、分析、运算。例如&#xff1a; 什么品牌的手机最受欢迎&#x…

ℰ悟透Qt—Http网络编程

目录 概述实践理论QNetworkAccessManager进行Http编程的基本步骤代码实战(重点片段) 概述 网络访问 API 建立在一个 QNetworkAccessManager 对象之上&#xff0c;该对象保存了发送请求所需的公共配置和设置。它包含代理和缓存配置&#xff0c;以及与此类问题相关的信号和可用于…

【计算机网络】数据链路层之随机接入-CSMA/CD协议(总线局域网)

1.概念 2.信号碰撞&#xff08;冲突&#xff09; 3.解决方案 CSMA/CD 4.争用期&#xff08;端到端往返时延&#xff09; 5.最小帧长 6.最大帧长 7.指数退避算法 8.信道利用率 9.帧发送流程 10.帧接受流程 12.题目1 13.题目2 14.题目3 15 小结

无线蓝耳机哪些牌子好?十大真无线耳机排名品牌

随着TWS技术在应用层面的日益完善&#xff0c;真无线蓝牙耳机就越来越受欢迎了&#xff0c;完全摒弃了线材的束缚&#xff0c;做到了真正的无线耳机&#xff0c;这简直是无法忍受耳机线的强迫症的福音&#xff0c;而且现在不仅是佩戴时会格外的舒适&#xff0c;随着无线技术的不…

Redhawk: 为什么STA CHECK中switch cell覆盖率为0?

如题&#xff0c;做dynamic analysis时&#xff0c;不需要switch cell的timing window信息&#xff0c;但是做low power analysis需要做上电分析时switch cell的timing window就是必须的了&#xff0c;本文对switch cell control pin没有timing window (STA CHECK覆盖率为零)的…

ChatGPT:给教育创新带来风险与挑战

在教育界&#xff0c;当前对ChatGPT的关注固然有一部分原因是它所能带来的教育创新&#xff0c;但更多的原因是ChatGPT同时也在冲击着教师的角色定位&#xff0c;推动着人才培养目标的转型&#xff0c;逼迫着学生和教师走出舒适区。况且&#xff0c;ChatGPT还不断诱发教育中的技…

【算法之贪心算法IV】leetcode56. 合并区间

452. 用最少数量的箭引爆气球 力扣题目链接 有一些球形气球贴在一堵用 XY 平面表示的墙面上。墙面上的气球记录在整数数组 points &#xff0c;其中points[i] [xstart, xend] 表示水平直径在 xstart 和 xend之间的气球。你不知道气球的确切 y 坐标。 一支弓箭可以沿着 x 轴…

cisp 记录(第一,二章节)

第一章信息安全保障 1.信息安全保障基础 1.1信息安全的概念 1.2信息安全属性 1.3信息安全视角 1.4信息安全发展阶段 1.5信息安全保障新领域 2安全保障体系框架 2.1基于时间的PDR和PPDR模型 2.2信息安全保障技术框架 2.3信息系统安全保障评估框架 2.4企业安全架构 1.1信息安全…

mysql基础4——单机多实例部署

文章目录 一、手动部署二、脚本部署 前提了解&#xff1a; 适用于服务器不够&#xff0c;但需要把业务区分开的情况下&#xff0c;可以部署此方式。比如多个业务平台使用的数据库不同&#xff0c;不能只创建一个数据库&#xff0c;这时候就需要部署多实例。实际情况中能避免此方…

BOSHIDA 检测DC电源模块的稳定性能的几个步骤

BOSHIDA 检测DC电源模块的稳定性能的几个步骤 检测DC电源模块的稳定性能需要进行以下几个步骤&#xff1a; 1. 确认测试设备&#xff1a;需要准备一台多功能电源和一台数字万用表&#xff0c;可以根据需要选用不同型号和规格的测试设备。 2.设置电源参数&#xff1a;根据DC电…

DEM获取地形和计算点是否在矩形面积内的算法

1准备一个DEM地形&#xff0c;打开GlobalMap,如下选择 选择否&#xff0c;生成边界 将边界导出为shp文件&#xff0c;打开QGIS&#xff0c;安装get wkt插件&#xff0c;选择对应坐标系&#xff0c;获取wkt,如图 , 附判断点是否在此坐标范围内代码 /// <summary>/// 判断点…

echarts 柱形图 Y轴数据多,鼠标滚动显示数据,不缩放

坐标轴数据太多&#xff0c;只能滚动显示&#xff0c;滚动的时候&#xff0c;不想缩放&#xff0c;单纯平移就好。 滚动后第二屏的截图 没滚动的&#xff0c;第一屏的截图 option {title: {// text: World Population,},tooltip: {trigger: axis,axisPointer: {type: shadow,}…

15 年开源路,从大厂搬砖到创业挖坑

上个月回蚂蚁做了一场有关开源的分享&#xff0c;让我讲讲离开公司自己做开源创业后的感想。 正好借着端午节的时间&#xff0c;也更完整地回顾一下自己职业生涯 15 年来和开源结缘的经历。 邂逅 Cappuccino 08 年参加工作后&#xff0c;第一个投入精力的开源项目是 Objective…

安装Home Assistant

文章目录 前言1. 安装Home Assistant2. 配置Home Assistant3. 安装cpolar内网穿透3.1 windows系统3.2 Linux系统3.3 macOS系统 4. 映射Home Assistant端口5. 公网访问Home Assistant6. 固定公网地址6.1 保留一个固定二级子域名6.2 配置固定二级子域名 转载自远程穿透的文章&…

网络安全 | 密码基础知识介绍

概述 密码介绍 安全问题 保密性&#xff1a;对发送的消息进行获取完整性&#xff1a;对发送的消息进行篡改身份伪造&#xff1a;对发送的主体身份进行篡改&#xff0c;a发的消息&#xff0c;篡改为b发的行为抵赖&#xff1a;对发送的消息进行否认&#xff0c;丧失行为的可追…

VulnHub打靶记录——easy_cloudantivirus

靶机下载地址&#xff1a;https://www.vulnhub.com/entry/boredhackerblog-cloud-av,453/ 将靶机设置为NAT模式并启动。 主机发现&信息收集 nmap扫描本地网段 nmap -sn 192.168.50.1/24136是kali&#xff0c;137就是我们的目标靶机。 接着收集靶场信息&#xff1a; n…

【 Android11 WiFi开发 二 】WiFi连接、断开

前言 上篇文章介绍了WiFi列表的获取与展示和WiFi状态改变的广播监听&#xff0c;本篇将介绍介绍对WiFi的操作&#xff0c;连接、忘记&#xff0c;查看已连接的WiFi信息等。 相关文章 1、【 Android11 WiFi开发 一 】WiFi列表获取与展示 说明 老规矩&#xff0c;先把WiFi连接和…

卷积基础知识总结

卷积是卷积神经网络中的核心模块&#xff0c;卷积的目的是提取输入图像的特征&#xff0c;如下图所示&#xff0c;卷积可以提取图像中的边缘特征信息。卷积也称为过滤器&#xff0c;即Filter 1 卷积的计算方法 卷积运算本质上就是在滤波器和输入数据的局部区域间做点积 注意…

MyBatis介绍与安装下载

目录 MyBatis 介绍 MyBatis 主要特点 MyBatis 下载 创建 Maven 工程 IDEA 连接数据库 导入JAR文件到项目 MyBatis 介绍 MyBatis是一种开源的Java持久化框架&#xff0c;用于将SQL数据库访问和映射任务与Java对象之间的映射分离。它提供了一种简单的方式来对数据库进行操…

消息中间件的首选之一:探索RocketMQ的优势和特性

​​​​​​​ 1、简介 RocketMQ 是一款开源的分布式消息队列系统&#xff0c;由阿里巴巴集团开发并开源。它是为了满足大规模分布式系统中的消息通信和异步解耦需求而设计的&#xff0c;具有高吞吐量、低延迟、可靠性强等特点。下面将详细介绍 RocketMQ 的架构、组件和关键特…