论文来源
标题: Cleanits (Xiaoou Ding,2019)
作者: Xiaoou Ding, Hongzhi Wang, Jiaxuan Su, Zijue Li, Jianzhong Li, Hong Gao
期刊: Proceedings of the VLDB Endowment
研究问题
工业时间序列数据清洗系统
1)缺失值插补,2)匹配不一致的属性值,以及 3)异常检测和修复。
整体框架:
研究方法
匹配不一致的属性 :
Cleanits中的不一致性修复解决方案首先进行分类器预测,然后将不一致的子序列与其对应的属性进行匹配。每个序列被视为具有从计算的相似度矩阵中提取的若干特征向量的分类。构建了基于随机森林的分类器,考虑到其对大规模数据的效率和对多维时间序列的高性能。
异常检测和修复 :
(1)对于异常数据点修复, 根据先前工作[7]中提出的序列相关性(SD) 和窗口方差约束来识别意外值。
(2)在检测之后,使用基于统计的方法以及SD解决方案以我们的模型中定义的最大似然来修复异常点。
关键贡献
1)为工业时间序列开发了一个数据清洗系统Cleanits。
2)Cleanits实现了三种修复功能,有效提升多维时间序列的质量。
3) Cleanits 为用户提供了一个经过深思熟虑的界面设计来操作定制化的数据清洗。
4)在两个电厂的真机传感器数据上运行Cleanits进行系统功能演示。
研究方向
时间序列 数据清洗 系统
References
[1]
X. Ding, H. Wang, J. Su, Z. Li, J. Li, and H. Gao, “Cleanits,” Proc. VLDB Endow., vol. 12, no. 12, pp. 1786–1789, 2019, doi: 10.14778/3352063.3352066.
论文下载
Cleanits: A Data Cleaning System for Industrial Time Series