文章目录
- day15
- 特定数据类型的算法
- 工业分析中的数据预处理
- 工况划分
- 数据缺失
- 时间数据不连续
- 强噪声
- 大惯性系统
- 趋势项消除
day15
今天是第15天,昨日是针对最优化算法、规则推理算法、系统辨识算法进行了阐述,今日主要是针对其他算法中的特定数据类型的算法、以及开启讨论工业算法分析的章节:第六章:工业分析中的典型处理方法
特定数据类型的算法
这块主要是针对文本数据、图像数据、时空数据的数据方法做了阐述,很多地方只是粗浅一带而过,所以我这边只是贴了一张图,以后有涉猎到再慢慢研究,毕竟是很大的方法类别.
文本数据类的不同研究任务
图像数据的任务分类
时空分析技术组成
工业分析中的数据预处理
工况划分
不同工况的设备和系统运行规律、变量分布差异很大,因此对于工况划分是很多工业分析课题的前置条件,通常会有如下3种策略
- 一次性分割策略:可采用Autoplait算法进行分割
- 分组分割的策略:根据业务语义形成若干变量组,对于每个组做时序分割,然后对这些分割短进行聚类,最后对多个组的类别进行组合
- 在单变量时序分割中,可以采用PELT算法按照均值/方差变化分成若干段,也可采用SAX、PAA、PLA等时序再表征算法
- 聚类合并策略:对每个时刻点的向量进行聚类,标记t时刻对于的类别,根据类别时序进行自然分割
需要注意,时间序列分割算法通常是基于统计量(比如PELT算法根据均值、方差的变化进行切分)、局部结构(例如PLA用分段线性模型去逼近原序列)、局部动力学模型(例如AR模型)的稳定性进行显性分割,或者建立全局的生成式,或者建立全局的生成式概率模型(例如Autoplait用两层HMM模型)进行隐性分割(体现在隐含的状态类别变量上)
数据缺失
数据量充足的情况下,对于存在缺失值的记录,可以采用过滤的方式
相对平稳的指标,可以采用线性插值、多项式插值,或者建立自回归模型(如ARIMA模型)的方式填充
在中等规模数据量的情形下可以采用回归建模的方法(用其他变量去预测存在缺失的变量)
时间数据不连续
在探索性建模阶段应当遵循“大数原则”,尽快掌握技术的可实现度,但是在部署的版本一定要有严谨、鲁棒且明确的处理方法,以保证模型的可用性,有时候也可从领域知识的角度去发现和处理,ANOVA等统计方法也可检测统计分布的改变
强噪声
- 对于毛刺型的噪声,可以使用中值滤波、STL分解等鲁棒性方法
- 对于平稳性高噪声,采用线性滤波
- 对于区间内有界但杂乱的信号,可以采用LOESS等局部线性拟合方法
大惯性系统
很多温场、流场存在很大的惯性,也就是当前点和上一点的差异接近噪声,用动力学模型建模(诸如lstm、状态方程)时,如果不加处理,因为其共线性,导致其效果不佳,此时放大尺度是一种通常的处理方法也就是增加粒度
趋势项消除
趋势项常常反映了外部调整或环境变化,不是工业对象本身的规律,需要滤除。另外很多分析算法需要信号是平稳的,至少不存在趋势。趋势项的消除可采用STL分解、小波分析等算法。下图a是原始数据,b是消除趋势后的时序