高维多元时序数据聚类

news2025/1/19 17:19:10

1. 简介

        收集数据的能力不断增强,使我们有可能收集大量的异构数据。在可用的异构数据中,时间序列代表着尚未被充分探索的信息母体。当前的数据挖掘技术在分析时间序列时存在多个缺点,尤其是在应同时分析多个时间序列(即多维时间序列)以从数据中提取知识时。 

2. K-MDTSC和k-Shape

        论文: https://www.mdpi.com/2079-9292/10/10/1166

2.1  K-Means

        K-means是一种从统计学中诞生的经典聚类算法。它创建基于中心的集群,例如集群中的点更接近(因此更相似)它们所属的集群的质心(即集群的中心),而不是其他集群的质心。在k -means中,用户指定一个参数k,表示所需集群的数量。然后,从输入点开始,k -means将它们分组到k个簇中,将它们分配到最近的质心。然后,它返回每个群集和各自的质心。 

        首先,k -means在输入数据空间中随机抽取k个点,并将其作为聚类的初始质心。然后将所有输入点分配到与各自质心距离最短(通常为欧氏距离)的聚类中。一旦K-means将所有点分配到一个集群中,新的质心将被计算出来并与之前的质心进行比较。如果质心不变,算法将停止并返回生成的聚类和质心。否则,算法将重新启动,根据新的质心将所有点重新分配到集群。虽然传统的K-means代表了一种简单而高效的将点分组的算法,但它在距离定义方面有一些众所周知的局限性和一些众所周知的关键问题,如创建空簇。最重要的是,K-means不容易处理时间序列。

2.2 k-Shape 

        k-Shape是一种基于K-means的时间序列聚类算法。为了处理时间序列,k-Shape采用基于形状的距离来评估两条曲线之间的相似度。此外,基于形状的距离使用互相相关距离来识别两条曲线之间的最小距离,即使它们没有正确对齐。为此,它首先移动其中的一个,以确定到最小距离的最佳对齐。然后,为了处理时间序列固有的扭曲,k-Shape使用了一个z归一化过程。k-Shape通过用单个序列的自相关的几何平均值归一化互相关距离来计算基于形状的距离。

        虽然k-Shape可以识别时间序列簇,即使它们没有对齐,但它本身不能处理多维时间序列。实际上,k-Shape只得到一维时间序列的输入。在这里,我们将其调整为多维时间序列,以应对这种约束。

        已知多维时间序列XN(z),其中N表示维数,我们将X(z)定义为一维时间序列,将所有维数连接如下:

         最后,我们将X(z)时间序列作为k-Shape的输入。

2.3 K-MDTSC

        我们将K-MDTSC基于传统的K-means算法。首先,我们定义了一个广义的距离概念来处理时间序列,特别是多维时间序列。

        给定一对多维时间序列XN(z)和YN(z),其中z表示z个样本中的样本,N表示维数,我们定义广义距离如下:

        其中L表示公制距离。对于我们的实现,我们依赖于L = 2,即欧氏距离。我们使用距离d(.)在Kmeans算法中找到最近的质心。注意,我们的广义距离假设XN(z)和YN(z)是同步的多维时间序列。

3. 其他方法

论文:A multivariate time series clustering approach for crime trends prediction | IEEE Conference Publication | IEEE Xplore

        利用单维时间序列的聚类思想,给多维时间序列的各个维度赋予特定的权值,每个行向量作为一个时间点。由于MTS样本长度不等,样本之间的相似度使用动态时间弯曲(Dynamic Time Warping, DTW)度量,最佳匹配路径上每一对时间点的多维向量之间的距离利用闵可夫斯基参数模型计算。该算法需要领域知识为各个变量赋予权值,且DTW距离度量方法的计算量较大。

论文:基于变量相关性的多元时间序列特征表示 - 中国知网

        提出基于变量相关性的MTS特征表示方法,通过协方差反映系统中各个参数的相关关系,将MTS样本转化为协方差矩阵;MTS集所有的协方差矩阵拼接为综合协方差矩阵,对该协方差矩阵进行主成分分析得到各MTS的特征矩阵。该方法可以将数值型不等长MTS数据集转变为大小相同的特征矩阵集合,处理结果可用于聚类分析。

论文:Interaction-Based Clustering of Multivariate Time Series | Proceedings of the 2009 Ninth IEEE International Conference on Data Mining

        提出了一种基于参数交互关系的MTS聚类方法,指出MTS中的任一维变量都可以被其他解释变量近似线性组合表示,且将一维线性关系纳入了考虑范畴,假定这些变量间的线性相关关系可以用来进行聚类,其不足之处在于模型计算时间会随着样本数量变大而增加,也不能处理非数值型变量。

论文:Structure-Based Statistical Features and Multivariate Time Series Clustering | IEEE Conference Publication | IEEE Xplore

        将每一维时间序列转化为一个统计特征数组,MTS样本由各维变量统计特征数组拼接成的向量来表示。该算法可以处理不等长时间序列,但要求各维选取的统计特征必须一致导致其在处理混合型MTS数据集时会遇到困难。

论文:https://ietresearch.onlinelibrary.wiley.com/doi/10.1049/el.2016.0701

        针对MTS数据集存在的样本之间不等长、数据类型多样和噪声等问题,提出了一种基于协方差矩阵与测地线距离(geodesic-based distance)的MTS聚类算法。该算法首先将MTS样本转化为协方差矩阵;然后将协方差矩阵从黎曼空间映射到欧氏空间;最后对矩阵集进行聚类。如果使用基于距离的聚类算法,上述映射过程可以省略,协方差矩阵之间的距离度量方法使用测地线距离。

论文:https://www.researchgate.net/publication/273063437_A_Model-Based_Multivariate_Time_Series_Clustering_Algorithm

        提出了一种基于模型的多维时间序列聚类算法——MUTSCA〈LR〉(Multivariate Time Series Clustering Algorithm 〈Lift Ratio〉),该聚类算法假设目标数据集由一系列概率分布模型系统生成,不同的系统将生成相异的多维时间序列。该算法先将连续型数值符号化;然后在符号化样本上计算由LR(Lift Ratio)向量表示的时序模式,将时序模式累加生成用来表示MTS样本的模型向量;最后对模型向量集进行聚类。它不需要特定的领域知识,同时可以处理包含数值和非数值型变量的混合型MTS数据集。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/48792.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C# Winform控件库分享,免费开源,支持中文!(附DLL及教程)

这款控件包是基于MaterialSkin2二次开发的,可以更换想要的皮肤主题,一键转换暗色系,还拥有非常炫酷的动画,非常好看,原本的MaterialSkin2是国外团队开发的,不支持中文,所以我在里面加了几款中文…

springboot学生宿舍报修换宿管理系统-宿管

宿舍管理系统设计与实现由管理员和学生、宿管交互构成。学生对于本系统的使用,学生可以通过系统注册、登录,修改个人信息,查看学生宿舍、消息通知、换宿申请等功能。 宿管对于本系统的使用,宿管可以通过系统登录,修改个…

RabbitMQ如何确保消息发送 ? 消息接收?

发送方确认机制: 信道需要设置为 confirm 模式,则所有在信道上发布的消息都会分配⼀个唯⼀ ID。⼀旦消息被投递到queue(可持久化的消息需要写⼊磁盘),信道会发送⼀个确认给⽣产者(包含消息唯⼀ ID&#xff…

Codeforces Round #719 (Div. 3) E. Arranging The Sheep

翻译: 你正在玩“安排羊”游戏。这个游戏的目标是让羊排好队。游戏中的关卡是由长度为𝑛的字符串描述的,由角色的’组成。(空格)和*(绵羊)。在一个动作中,你可以移动任何羊向左或向右移动一个方格,如果相应的方格存在…

Paper写作怎么按照要求来具体分析?

许多留学生通常面临写学术Paper的问题,而大多数都不知道Paper如何写,因为写Paper并不是容易的事情。学术Paper应按照严格要求和规则撰写,而其应提供扎实,有争议的论点,然后由相关的无论是来自其他来源还是自己研究的证…

流媒体直播播放协议:HLS、RTMP、HTTP-FLV

流媒体直播播放协议:HLS、RTMP、HTTP-FLV一、推拉流二、协议介绍1. HLS2. RTMP3. HDL (HTTP-FLV)一、推拉流 在开始之前,先把流媒体服务中的双端关系说一下:在一个完整的流媒体服务框架中,角色就是“两端加一服”。推流端、拉流端…

httpclient

1.什么是httpclient HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。 2.http请求(结合spring的注解) 2-1GET请…

相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记

😄 额,本想学学XLNet的,然后XLNet又是以transformer-XL为主要结构,然后transformer-XL做了两个改进:一个是结构上做了segment-level的循环机制,一个是在attention机制里引入了相对位置编码信息来避免不同se…

AutoCAD Electrical 2022—源箭头和目标箭头

在一张图纸上插入源 箭头; 选中一根导线; 如果源和目标在同一张图纸上,则可以点击确定,插入目标箭头; 如果不在同一张图纸上,则点击否,后面在插入目标箭头; 在另一张图纸上插入目标…

学习笔记:引用

概念 引用的作用是给一个变量起别名 格式: type & 别名 原名 引用必须初始化,在初始化后不能改变 int &b;ba;错误 int& b a; bc;不是将b从a的别名变为c的别名 而是将c的值赋给a int a 10; int& b a; b 20;//用别名改数据&…

Apifox:详细使用教程,带你轻松拿捏

目录 Apifox简介 Apifox的安装与使用 Apifox新建项目的流程 编写接口文档 Apifox简介 我们在日常编程开发过程中经常实行的是前后端分离架构的模式,一个项目的落地会通过产品、开发、测试三方会审,对项目需求评审过后,前后端开发会制定一…

基于SpringBoot医院信息管理系统源码

hisystem 1. 用idea打开项目,并且配置maven下载依赖 2. 导入数据库 hisystem.sql 3. 修改application.yml数据库相关配置 4. 用户注册,验证邮件的邮箱考虑到安全问题,暂不提供授权码,如有需求可使用自己邮箱,开启POP3…

Vue3 - 路由 Vue-router 4.X(配置与使用教程)

目录前言安装配置准备工作配置路由基本使用路由传参 1路由传参 2路由传参 3SEO前言 在咱们 Vue2 时代,官方推荐咱们使用 vue-router 3.X 的库,如果是用脚手架创建的话,就直接默认集成到里面了。 Vue3 使用的是 vue-router 4.X 官方库&#xf…

[附源码]计算机毕业设计JAVA小超市进销存管理系统

[附源码]计算机毕业设计JAVA小超市进销存管理系统 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM my…

m扩频通信系统在瑞利信道中的误码率性能matlab仿真

目录 1.算法描述 2.matlab算法仿真效果 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 本课题,我们主要涉及到两个理论要点,第一个是瑞利衰落条件,第二个是扩频通信。下面分别对这两个理论进行介绍: 第一个是瑞利衰落条件&#x…

我们又重写了一个关键服务

#01 QueryCoord 组件介绍 QueryCoord 是 Milvus 中查询集群的中心调度节点,在用户将一个 Collection Load 到内存中时,QueryCoord 负责将该 Collection 的 Segment 调度到 QueryNode 集群中,以支持后续的查询。 QueryCoord 最核心的操作有4…

将egg项目部署至服务器

文章目录1.下载linux版本的node-v162.将node安装包从自己电脑上上传到自己的服务器3.在服务器中解压压缩包4.配置环境变量5.使文件生效6.将egg项目传到服务器指定目录下7.下载依赖8.npm start 运行不会占用终端 并且一直在运行 可以使用npm stop停用9.最后使用云服务器ip:端口号…

Linux22 --- 网络为什么要分层、使用tcp协议实现两个进程间通信的功能、IP地址转换函数

一、网络为什么要分层 1 1、分层的优点 1)各层之间是独立的。某一层并不需要知道它的下一层是如何实现的,而仅仅需要知道该层通过层间的接口(即界面)所提供的服务。由于每一层只实现一种相对独立的功能,因而可将一个…

Linux-Hadoop集群配置

文章目录一、配置Hadoop集群1、在master虚拟机上配置hadoop(1)编辑Hadoop环境配置文件 - hadoop-env.sh(2)编辑Hadoop核心配置文件 - core-site.xml(3)编辑HDFS配置文件 - hdfs-site.xml(4&…

1542_AURIX_TC275_CPU子系统_内核

全部学习汇总: GreyZhang/g_TC275: happy hacking for TC275! (github.com) 我因为看了这个章节的开篇有些疑惑去看了内核手册,现在学习的进程终于又重新回归,回到了TC275这个MCU的学习上。 这里的几条笔记记录是隔了很久写的,前面…