数据分析的六层模型:
1)数据源层:数据分析的数据源;DBA;初加工;对数据源按某些规则进行抽取,ETL;
2)数据仓库层:OLAP的功能,联机事务处理。OLTP、OLAP:联机分析处理。对大量的数据进行计算,对我们的决策做一定的支持。多维建模的能力,多维查询的能力;数据集市:小型的数据仓库,大型数据仓库的一部分;提取出来,放到仓库中供我们进行使用。
3)数据浏览:统计分析、查询和报告;计算一些常见的统计、来分析数据的状态。求平均值、求方差、标准值、count。排序、剧组的统计;select语句进行查询;多维的查询、切片、赚取;
4)data mining:数据挖掘:目标不明确、手段不明确、挖出一些有趣的知识。我们有一些方法,我们预先不知道,得到什么结果我们也不知道。
5)数据表现层:我们怎么把这些数据展现给大家看,以更直观的方式展现给用户;
6)决策:老板决策的工作;
数据分析:我们的课程:统计分析、数据挖掘、数据展现这三层。
数据分析:
使用统计方法,有目的地对收集到数据进行分析处理,并且解读分析结果。
1)方差:数据的分散程度,集中程度越高。
2)标准差:计算方法;
3)偏度、 峰度等;
常用算法:
数据分析和数据挖掘的算法并没有明显的界限。
传统的数据分析、比较现代的数据挖掘;
数据分析工具:
SAS在Data Exploration、Data Mining、Data presentations,这是它最擅长的部分。
SAS是用来进行数据分析的过程,主要进行建模,进行抽样,拿出样品,对样品进行分析建模,做一个预测模型、分类、神经网络。做出来之后SAS的使命也就结束了。
数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐形关联,并且向用户显示这些关联。
数据挖掘的思想来源:假设检测、模式识别、人工智能、机器学习
常见数据挖掘任务:关联分析、聚类分析、孤立点分析等等。
展现层:
老土的报表:
大家不喜欢看这种图表。
常见的报表:
这种报表就比刚才的数字要直观很多。
仪表盘:对仪表盘特别敏感。所有的状态参数一目了然。把数据画成仪表盘。
一些有趣的图表:
某条微薄的扩散路径。
网站点击的热力图。
这个图就非常直观地展示了一个网站,用户的关注点击的区域。
商业智能:
Business Intelligence ,BI
BI=数据仓库(存储层)+ 数据分析和数据挖掘(分析层)+ 报表(展现层)
我们的课程的位置