目录
一、数据增长情况与计量单位
二、数据挖掘的概念
三、数据挖掘的应用案例
1. 互联网行业
2. 医学方面
3. 网络安全方面
4. 交通方面
5. 通信方面
6. 个人生活
四、数据挖掘的方法
1.对比分析
2. 同比分析
3. 环比分析
4. 80/20分析
5. 回归分析
6. 聚类分析
五、数据挖掘流程
1.基本流程
2.数据处理
六、案例 —— 推荐算法
一、数据增长情况与计量单位
二、数据挖掘的概念
数据挖掘是从数据中,发现其有用的信息,从而帮助我们做出决策(广义角度)。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,寻找其规律的技术,结合统计学、机器学习和人工智能技术的综合的过程(技术角度)
三、数据挖掘的应用案例
1. 互联网行业
2. 医学方面
智能医疗、健康指数评估以及DNA对比等 例如,我们熟悉的手环、体脂称
3. 网络安全方面
通过数据挖掘建立一个潜在攻击性的分析模型,监测大量的网络访问数据与访问行为,可以快速识别出可疑网络的访问,起到有效的防御作用
4. 交通方面
根据交通状况数据与GPS定位系统有效的预测交通实时路况信息。
5. 通信方面
数据分析可以统计骚扰电话进行骚扰电话的拦截与黑名单的设置。
6. 个人生活
数据分析可以对个人喜好、生活习惯等进行分类,为其提供更加周到的个性化服务。
四、数据挖掘的方法
数据分析是从数据中提取有价值信息的过程,过程中需要对数据进行各种处理和归类,只有掌握了正确的数据分析方法,才能起到事半功倍的效果。
- 统计分析类:对比分析法、同比分析、环比分析、定比分析、差异分析、结构分析、因素分析、80/20分析
- 高级分析类:回归分析法、聚类分析法、相关分析法、矩阵分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列分析。
- 数据挖掘类:机器学习、数据仓库等复合技术为主
1.对比分析
对比分析法是把客观事物加以比较,以达到认识事物的本质和规律并做出正确的评价。对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。
2. 同比分析
同比分析就是按照时间 如年度、季度、月份、日期等进行扩展,用本期实际发生数与同期历史发生数相比,产生动态相对指标,用以揭示发展水平以及增长速度。 同比分析主要是为了消除季节变动的影响,用以说明本期水平与去年同期水平对比而达到的相对值。
3. 环比分析
环比分析是报告期水平与前一时期水平之比,表明现象逐期的变化趋势。如果计算一年内各月与前一个月对比,即1月比去年12月,2月比1月,3月比2月,4月比3月,5月比4月,6月比5月,说明逐月的变化程度,如图1所示,环比增长趋势如图2所示。
4. 80/20分析
80/20分析,又称二八法则、帕累托法则、帕累托定律、最省力法则或不平衡原则。该法则是由意大利经济学家帕累托提出的。二八法则认为:原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。
5. 回归分析
回归分析多用于统计分析和预测。它是研究变量之间相关关系以及相互影响程度,通过建立自变量和因变量的方程,研究某个因素受其他因素影响的程度 或用来预测。回归分析包括:线性和非线性回归、一元和多元回归。常用的回归是一元线性回归和多元线性回归。
6. 聚类分析
聚类分析多用于人群分类,客户分类。所谓聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。