文章目录
- 0 引言
- 1 数据挖掘技术及工具
- 1.1 什么是数据挖掘?
- 1.2 数据挖掘的过程?
- 1.3 常用的数据挖掘技术
- 1.4 ODM
- 2 水文数据分析系统功能设计
- 3 系统实现与应用
- 3.1 数据获取与清理
- 3.2 模型建立
- 4 结语
2012年12月
计算机工程与设计
0 引言
- 洪水是现实生活中频发的一种自然灾害,水文数据是研究水问题的重要基础数据。随着水利行业信息化建设发展,目前积累了大量水文数据资料。如何充分利用这些长期积累的历史水文数据进行水文分析和预报显得非常重要。
- 当前,应用各种计数挖掘蕴藏与历史水文数据中的模型、知识,为水资源管理与调度决策提供科学依据,已成文水文科学发展的新热点。
1 数据挖掘技术及工具
1.1 什么是数据挖掘?
数据挖掘也称为知识发现,是指从大量数据中抽取出那些隐含的、令人感兴趣的、有价值的知识的过程。数据挖掘是数据库技术的深层次应用,可以进一步提高信息资源的使用价值和使用效益,能更好的解决日益复杂多变的决策问题,进一步提高了决策的准确性和可靠性,为科学决策提供依据。
1.2 数据挖掘的过程?
- 问题定义
- 数据收集及预处理
- 模型建立
- 结果解释及模型评估
- 模型应用
1.3 常用的数据挖掘技术
- 分类与预测
- 关联分析
- 聚类分析
- 序列分析及时间序列
1.4 ODM
ODM 是Oracle Database 集成的数据挖掘功能。
2 水文数据分析系统功能设计
- 数据获取与清洗:主要是有水文数据获取和数据预处理两部分。采用水文历史数据作为系统的源数据。由于源数据的不完整性,其中存在大量的空值、噪声数据和不规范数据,因此在进行数据挖掘前必须对其进行空值处理、极端数据处理等预处理,为下一阶段的数据挖掘提供高质量的、清洁的数据。
3 系统实现与应用
3.1 数据获取与清理
原始数据采用江西省鄱阳湖地区4个重要的水文站点:星子、都昌、棠荫、龙口从1960年到2009年的历史水位数据。这4个测站的历史水位数据丰富并且在事实上各站点的水位之间存在一.定的相互关系,这为水文数据挖掘提供了很好的挖掘对象。
数据的预处理。经过检查,原始数据中存在大量的空值、噪声数据和重复值,因此采用如下方法进行预处理:
对于重复值,直接删除这些重复的记录;对于不是大规模连续出现的空值,采用求15日均值填充该空值的方法来消除;
对于连续的超过5天但不超过一月的空值,采用求临近5年同期平均值填充来消除;
对于连续一个月以上的空值,则删除所有测站同期记录,剔除该月份或年份的所有记录;
对于那些噪声的极端值,则在下一阶段的ODM中进行筛选和替换。
数据预处理之后,根据挖掘问题的定义,重建表结构,将同一时期的龙口、棠荫、都昌、星子T日水位、星子T+1日水位存放于同一记录中。
3.2 模型建立
根据数据源中数据的相互关系,以及数据挖掘的流程,定义问题为发现星子T+1日水位与龙口、棠荫、都昌、星子T日水位之间的关系模型,进而利用龙口、棠荫、都昌和星子T日水位来预测星子站的T+1日水位。