大数据能力提升项目|学生成果展系列之六

news2025/1/16 19:53:52

7910a820781ced21c37d1872d79fd60c.png

导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

回首2022年,清华大学大数据能力提升项目取得了丰硕的成果,同学们将课程中学到的数据思维和技能成功地应用在本专业的学习和科研中,在看到数据科学魅力的同时,也将自己打造成为了交叉复合型的创新型人才。下面让我们通过来自8个院系的10位同学代表一起领略他们的风采吧!

基于小波分析的时间序列事件检测方法

随着信息技术的快速发展,人们发现问题、描述问题、解决问题的思路较以往有了很大区别,基于信息化、智能化的方法逐渐取代传统的基于经验和人工的方法,成为人们对现实系统进行观测、分析和优化的主要手段。工业互联网背景下,传感器和传感技术得到了广泛的应用,可以说已经成为连通现实世界和赛博世界的桥梁。在过程挖掘领域,过程模型是通过事件挖掘而来的,而传统的事件日志依赖于人工标注,无法适应于工业场景规模大、来源广、时间长、维度高、系统复杂的特点。因此,需要从时间序列数据出发,通过事件检测的方法,结合过程挖掘的知识,将过程挖掘的基础从人工标注的事件日志扩展为时间序列数据,从而对系统的状态和运行情况进行建模和优化,进而发现和解决系统中存在的问题。

时间序列(timeseries)是指按时间顺序获得的一系列有序观测值,是对物理世界的待观测系统进行描述和分析的重要手段和表现形式,在物联网、计量经济学、生物医学分析、气象研究及恶劣天气预测等领域都有着广泛的应用。随着物联网(IoT)技术的发展和传感器监控系统的应用,日志的规模和数据的维度都在不断增长,因此使用事件的概念对时间序列进行挖掘和抽象具有重要意义。事件(event)是过程挖掘中的一个重要概念,记录了一个活动的基本属性及其发生的时间戳。对事件日志的分析挖掘可以对一个业务过程进行发现,也可以将事件日志与已知的过程模型进行比较来检验其合规性,或者是利用实际业务过程中产生的事件日志来扩展或改进现有的过程模型。

从时间序列中检测事件的方法有很多,本工作基于现有相关成果,使用两次抽象的方法,完成时间序列数据事件发现的工作。第一阶段抽象过程称为状态划分。按照一定的规则将时间序列划分为不同的区间,相同标签区间内的数据具有一种简单且相似的模式。将这种模式称为数据的一个状态(state),将只包含数据的一种状态的时间区间称为状态区间。第二阶段抽象过程称为事件检测。划分状态区间后,将状态区间按照一定模式组装起来,获得一个更复杂的数据的模式,这种模式称为时间模式,频繁的时间模式被认为是一个可能的事件。

首先,在状态划分阶段,预先使用平滑技术对原始数据进行噪声的消除,然后再根据平滑后的数据提取出形状特征。例如,计算平滑信号的一阶导数和零点,可以将数据划分为递增和递减集合。进一步计算函数的二阶导数,结合一阶和二阶导数零点,可以将数据划分为凸增加、凸减少、凹增加、凹减少四个集合。根据上述方法,能够计算一个序列的标签,进而将原始的时间序列数据划分为不同的状态区间,并为其赋予不同的标签,由此就完成了对时间序列的第一级抽象。下面给出其形式化定义:

定义1(状态区间序列):给定一个非空区间序列c8ce7047bd42dc4563ac616a2535c1d0.png,每个区间包含一个标签eaafad333af43ff6baa0e0960abe4c80.png,三元组65eea984116ff6c68a44370c331489de.png称为状态区间。如果满足39f099cd62f20598f217967519be015f.png,有c649c68a68e1d516b7a90ce0478187ef.png,则称2523b466a773f6aa3de39c57a58c1e5e.png是上的一个状态区间序列。

之后,进入事件检测阶段。定义状态区间序列后,进一步考虑区间之间的关系,将两个区间之间的时间关系划分为13种,如表所示:

区间A与B位置关系及其符号表示

75345e0ee7b1bd2ae80c14bb4663bbd8.png

给定任意的n个状态区间4228938d64fa19c49009f387715c587e.png,其中19f0aaecfbe50432c470d466e157a2de.png,这n个区间的相对位置关系可以由一个c4a2bfd7d570a9a2d1c201f2524dc813.png的矩阵R来描述。矩阵R的第i行第j列的值08bfd1d141172e24fa0e1208eb749661.jpeg描述第i个区间和第j个区间的位置关系,取值为上述的13种之一。

562806a3cd6f7c987ee2c4531d50e916.png表示状态区间的集合。fbc743965fd4ee348f6d4649479646b3.png表示436a46f22311950b276654c37aab47dd.jpeg在区间3038615a81b5885a3e947a7fe189a3f4.png中成立,则该三元组描述了一个变量在一段时间内的状态,这个状态被视为对应区间的标签。由此,给出时间模式的定义:

定义2(时间模式):称二元组ebea63154ec09bd5a30cf74178d258b2.jpeg为一个f26bcaf51f90bbfcfcd62f310f4d66ff.png的时间模式(temporalpattern),其中b6f2e0469d489bc0409593c9359b5f4b.png是一个标签序列,9b400a614fdd7fe2083a493bc122c6af.jpeg是n个区间之间相对位置关系的描述矩阵。

根据上述定义,时间模式可以是任意几个状态区间的位置组合。对于一个大小为n的状态集S,可能存在的时间模式种类为n的指数级别。只需考虑那些出现频率更高的时间模式。所以,需要检测给定的时间模式在状态区间序列中的出现频率。

fb8e612ac3a22e680c0d00487e5ef52c.png

算法1给出了子关系检测的方法。对于两个模式P和Q,该算法可以检测出P是否是Q的子模式。其中,子模式的定义为,若对于模式Q,通过删除Q中的一些状态s及其位置关系,可以得到模式P,则P是Q的子模式。

通过此算法,可以使用一个滑动窗口,检测待测模式P是否位于该窗口中。沿着时间轴滑动此窗口,即可计算出模式P在全区间序列中出现的次数,从而获得最频繁出现的模式。

对于任意的k29117bd12015bdbfd8f77acc223888db.png5500dc312be112e5801cc8a0367a8991.png频繁模式,其包含的(k-1)阶子模式也应该是频繁的。因此,从k=0开始计算,每次只保留频繁的模式,向上即可递推出k5d7264492408fbac7f532e6401149bc7.png阶频繁模式。改进后的算法如算法2所示。

基础的演绎导出方法存在一些问题:平滑不仅会消除噪声,也会在一定程度上消除时间序列的原始特征。另一方面,即使不考虑随着噪声被消除的高频信号特征,低频信号的极值点位置也会随着平滑过程发生一定的偏移。

一个典型的时间序列往往受到各种来源的信号的分量的影响,每段信号都有可能是一些在时域和频域上有着不同的行为特征的组合。在这种复杂情况下,一般的平滑方法很难选择一个合适的核函数和带宽参数,也无法将组合在一起的不同频率的信号分量拆分开来。对于这种情况,本工作应用了基于小波分析的多尺度分析方法,以分别在不同的尺度中对信号进行分析,将存在于不同频域中的信号区分开来。

小波分析(waveletanalysis)是一种信号分析的技术,往往被用于描述信号中的局部现象。多尺度分析方法使用一列近似函数的极限来逼近原函数。每个近似函数都是原函数的一个平滑逼近,且越来越接近原函数。这些函数是原函数在不同尺度上的近似,也就反应了不同尺度上的特征。

此外,频繁时间模式发现方法的复杂度可以通过剪枝策略进一步降低。对于两个k-1维子模式P和Q,其状态按照在模式中出现的先后顺序排列后,前k-2维的状态完全相同,第k-1维状态不同,这两个子模式中的k个状态组成了一个k候选模式。算法3给出了上述过程的伪代码描述。

为了评估算法效果,使用Savitzky-Golay平滑方法作为基线算法进行对照,使用了模拟数据集、UCR数据集中的“ECG200”数据、以及变电站在2020年6月至2020年12月时间段站内机组各传感器记录的时间序列数据进行实验。结果显示,本工作提出的方法在识别准确率、覆盖率上均明显提升。在“ECG200”数据上的状态划分结果如图所示:

9419276d8b252e2a652d62ed94c8df2b.png

状态划分结果(左图和右图分别使用:基线方法、多尺度分析方法)

时间序列数据的事件识别是过程挖掘的重要环节之一。从时间序列出发,在已有工作基础上,通过数据预处理、状态划分和事件识别等环节,能够从多维时间序列中提取出有效的事件信息,为工业互联网背景下的过程挖掘工作提供支持。本文在已有的事件提取算法基础上,主要从两个方面进行了优化和改进:第一,引入小波分析的方法,对原始信号在不同频域上进行分解,在多个尺度上划分状态,消除噪声信号的同时尽可能多的保留了原始的信号,得到了优于函数近似和平滑算法的结果。第二,在频繁模式发现阶段,通过数据结构的优化和剪枝策略,在不损失精度的同时提升了事件识别的效率。最后,通过模拟数据实验和真实数据集的实验,验证了算法的有效性和执行效率。

上述成果已整理成论文《基于小波分析的时间序列事件检测方法》,被第十一届中国业务过程管理大会(CBPM2021)录用,并推荐发表于核心期刊《计算机集成制造系统》。

编辑:文婧

校对:林亦霖

6f5cdce6186d6d25477875058e2bac74.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/423061.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分子生物学 第一章 概论

文章目录第一章 概论1.1.1分子生物学的概念以及发展简史1.2.1分子生物学研究概况第一章 概论 1.1.1分子生物学的概念以及发展简史 广义的定义: 在分子水平上解释生物学现象。 (难以与生物化学区分) 严格的定义: 在分子水平上研究…

2023年就业卷,卷,卷!前端面试怎么准备?

本文首发自「慕课网」,想了解更多IT干货内容,程序员圈内热闻,欢迎关注"慕课网"! 作者:张轩|慕课网讲师 大多数开发者应该都经历过跳槽和面试,这也是我们工作生活中必须要经历的一部分&#xff0…

关于Python爬虫使用技巧

首先,Python是一种非常流行的编程语言,拥有广泛的应用领域,例如数据分析、人工智能、Web开发等。如果您是初学者,可以开始学习基础的语法和概念,例如变量、数据类型、循环、函数等等。许多在线资源可以提供学习资料。 …

主题切换实现(vue-less)

介绍 本文适合黑白切换或者主题样式偏少的(建议:2-10种);主题越多,样式会越多。理论上无限套。本文适合已经写好了一套主题,然后需求增加第二套或者多套主题(最好小于10套,当然也可…

免费送30张可视化大屏,跳过复杂代码,轻松缔造可视化智慧校园

“现在老师和学校管理的信息化做的特别差!” 。 当我做智慧校园软硬件的老同学和我这么说时,我惊呆了。他认为现在的大多数开发商大部分打着“智慧校园”的旗号,但是所做的系统仅仅是门禁刷卡,或者校园一卡通系统,请问…

视觉检测系统是怎么检测尺寸的?

随着科学技术的进步和市场通知的发展越来越多的自动化机器正在代替人工。 视觉检查系统也是如此。 视觉检测系统在许多行业的应用越来越热衷。 如工业五金. 3c电子.纺织等行业。 那么,具体而言,什么是视觉尺寸检测呢? 1 .什么是尺寸检查&am…

【RabbitMQ】初识消息中间件MQ

目录 一、什么是MQ 二、MQ的优缺点 1、MQ的优点 1.应用解耦 2.削峰填谷 3.异步提速 2、MQ的缺点 1.可用性低 2.系统复杂度高 3.数据一致性问题 三、MQ使用场景 四、常见的MQ 一、什么是MQ MQ(Message Queue):消息队列&#xff0c…

为什么多线程读写 shared_ptr 要加锁?

陈硕(giantchen_AT_gmail_DOT_com) 2012-01-28 我在《Linux 多线程服务端编程:使用 muduo C 网络库》第 1.9 节“再论 shared_ptr 的线程安全”中写道: (shared_ptr)的引用计数本身是安全且无锁的&#…

git仓库与分支

仓库使用 第一次进入需要创建一个仓库 按照教程绑定邮箱可密码,再创建readme文件上传到仓库初始化 git push 详解 git push origin master:xiaoxu# 如下为远程仓库的详解https://gitee.com/fireapproval/xiaoxu.git//其中xiaoxu为仓库//如上的可视化界面中bolen为…

伺服阀放大器接线设置

端子 功能描述 1 PWR 外部电源输入&#xff0c;24VDC 2 PWR- 外部电源输入&#xff0c;24VDC 3 ENA 低电平使能 0<U<1.5V&#xff0c;放大器工作&#xff0c;绿灯常亮&#xff1b;2.5V<U<UB&#xff0c;放大器不工作&#xff0c;红灯常亮&#xff1b; 4 N.C. 不…

【关于Linux中----信号量及其使用场景】

文章目录一、解释信号量1.1 概念的引入1.2 信号量操作和使用接口二、信号量使用场景2.1 引入环形队列&&生产消费问题2.2 代码实现2.3 对于多生产多消费的情况2.4 申请信号量和加锁的顺序问题2.5 多生产多消费的意义一、解释信号量 1.1 概念的引入 我们知道&#xff0…

python uiautomator2 环境搭建和基本使用

安装 adb安装和配置 可以百度或者看看这个https://blog.csdn.net/weixin_37600187/article/details/127987889 安装uiautomator2 pip install -i https://mirrors.aliyun.com/pypi/simple -U uiautomator2安装 weditor&#xff08;一般情况会报错&#xff09; pip install…

C#程序设计——面向对象编程基础,设计一个Windows应用程序,模拟一个简单的银行账户管理系统。实现创建账户、取款、存款和查询余额的模拟操作。

一、实验目的 1、理解简单程序中的面向对象思想的应用 2、掌握C#的定义类和创建对象的方法 3、理解方法中参数的传递 二、实验内容 1、设计一个Windows应用程序&#xff0c;模拟一个简单的银行账户管理系统。实现创建账户、取款、存款和查询余额的模拟操…

序列比对算法

案例问题&#xff1a;假设有两个序列&#xff1a;ATGCG 和 ACCG&#xff0c;如何求得它们的最佳匹配方案。 1. Needleman-Wunsch 算法 原理是动态规划&#xff0c;是一个全局比对算法 算法求解步骤&#xff1a; &#xff08;1&#xff09;在它们前面各加上一个 ‘-’ -ATGC…

2023 “认证杯”数学中国数学建模C 题 心脏危险事件 详细思路

2023年认证杯”数学中国数学建模如期开赛&#xff0c;本次比赛与妈杯&#xff0c;泰迪杯时间有点冲突。因此&#xff0c;个人精力有限&#xff0c;有些不可避免地错误欢迎大家指出。为了大家更方便的选题&#xff0c;我将为大家带来C题的详细解析&#xff0c;以方便大家建模分析…

如何有效利用文旅资源

文旅产业是当今世界发展最迅速的行业之一&#xff0c;文化和旅游业的融合已经成为文旅产业发展的趋势。众所周知&#xff0c;文旅资源是我国的宝贵财富&#xff0c;文化遗产、旅游胜地等都是国宝级的文旅资源&#xff0c;从古老的文化遗产到现代的旅游景点&#xff0c;无不体现…

近期CTF web

文章目录NKCTFbaby_phpez_phphard_phpeasy_pmseasy_cmsWebPageTestxiaopiCTFshow愚人赛easy_signineasy_sstiez_flask被遗忘的反序列化easy_php杭师大CTFfindmeez_javaeznodeNKCTF baby_php <?phperror_reporting(0);class Welcome{public $name;public $arg oww!man!!;…

【八】springboot启动源码 - finishRefresh

Last step: publish corresponding event. clearResourceCaches initLifecycleProcessor Initialize lifecycle processor for this context. 从IOC获取LifecycleProcessor设置到applicationContext中,如果从IOC中获取不到会创建DefaultLifecycleProcessor并注册到IOC中 get…

【能力提升】SQL Server常见问题介绍及快速解决建议

前言 本文旨在帮助SQL Server数据库的使用人员了解常见的问题&#xff0c;及快速解决这些问题。这些问题是数据库的常规管理问题&#xff0c;对于很多对数据库没有深入了解的朋友提供一个大概的常见问题框架。 下面一些问题是在近千家数据库用户诊断时发现的常规问题&#xff0…

用Abp实现找回密码和密码强制过期策略

文章目录重置密码找回密码发送验证码校验验证码发送重置密码链接创建接口密码强制过期策略改写接口Vue网页端开发重置密码页面忘记密码控件密码过期提示项目地址用户找回密码&#xff0c;确切地说是 重置密码&#xff0c;为了保证用户账号安全&#xff0c;原始密码将不再以明文…