目录
- 【 写在前面】
- 什么是数据挖掘
- 为何进行模式评估
- 如何进行模式评估
- 数据挖掘的发展趋势
【 写在前面】
本科期间,数据挖掘算法学过一些,甚至本人的毕业设计也是围绕此展开的,但是显然学得太皮毛,今天偶然读到《数据挖掘•概念与技术》这本书,有所收获特此记录。
什么是数据挖掘
个人理解: 数据挖掘就是在海量的数据中发现知识或者说是提取数据模式。【为实现知识发现的这个目标,我们可能会做以下工作:数据预处理、利用机器学习发现模式、模式评估、知识表示(例如数据可视化)等。】
个人评价: 事实上,在这个过程中涉及到了很多的技术,如下图所示:
为何进行模式评估
- 因为并不是所有的模式都是有趣的。
- 期望数据挖掘系统产生所有可能的模式通常是不现实和低效的。
- 数据挖掘系统产生的模式也不一定都有趣。
如何进行模式评估
- 大部分的关联规则挖掘算法都使用支持度-置信度框架。而且当使用低支持度阈值挖掘或挖掘长模式时,会产生一些用户不感兴趣的规则,这也是关联规则挖掘成功应用的主要瓶颈之一。
- 由此,人们提出了其他度量,如:提升度、X2
数据挖掘的发展趋势
- 有效的数据挖掘方法、系统和服务的开发、交互的和集成的数据挖掘环境的构建是关键的研究领域。
- 另外,数据挖掘也会应用到越来越多的领域,如:生物学、生物医学、软件工程、信息物理等。