文章目录
- 参考资料
- 大数据导论
- 企业数据分析方向
- 数据分析基本流程步骤
- 明确分析的目的和思路
- 数据收集
- 数据处理
- 数据分析
- 数据展现
- 报告攥写
- 大数据时代
- 大数据定义
- 大数据的5V特征
参考资料
黑马程序员大数据Hadoop入门视频教程,适合零基础自学的大数据Hadoop教程
目录
大数据导论与Linux基础
大数据导论
Linux操作系统概述
VMware Workstation虚拟机使用
Linux常用基础命令
Linux常用系统命令
vi/vim文本编辑器基础使用
学习目标
1.理解大数据基本概念
2.掌握数据分析基本步骤
3.理解分布式、集群概念
4.学会VMware虚拟机的导入与使用
5.掌握Linux常用操作命令使用
6.掌握vi/vim编辑器基础使用
大数据导论
企业数据分析方向
数据分析是为了把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析在”企业日常经营“分析中主要有三大方向:现状分析->原因分析->预测分析
- 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动
- 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做成调整优化
- 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势
离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理
。
实时分析(Real Time Processing | Streaming)
面向当下,分析实时产生的数据;所谓的实时是指从数据产生到数据分析与数据应用的时间间隔很短,可细分秒级、毫秒级。实时分析又称为流式处理(Streaming)。
机器学习(Machine Learning)
基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于数学算法的运用,如分类、聚类、关联、预测。
数据分析基本流程步骤
数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;
张文霖老师在《数据分析六部曲》中提到,典型的数据分析应该包含以下几个步骤:
明确分析目的和思路->数据收集->数据处理->数据分析->数据展现->报告攥写
明确分析的目的和思路
- 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;
- 思路是使
分析框架体系化
,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性
,分析结果的有效性
以及正确性
,需要数据分析方法论
进行支撑; - 数据分析方法论是一些营销管理相关理论,比如用户行为理论、PEST分析法、5W2H分析法等
数据收集
- 数据
从无到有
的过程:比如传感器收集气象数据、埋点收集用户行为数据 - 数据
传输搬运
的过程:比如采集数据库数据到数据分析平台
常见的数据源和种类:
- 业务数据(RDBMS)
- 日志数据(服务器、应用日志)
- 爬虫数据(爬虫数据库)
- 互联网公开数据(行业、政府网站)
数据处理
- 准确来说,应该称之为
数据预处理
。 - 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括
数据清洗
、数据转化
、数据提取
、数据计算
; - 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的
结构化数据
。
思考:
- 当下的企业中用于分析的数据是侧重文本数据多一些,还是侧重于图片、视频数据多一些?
答案:文本数据多一点- 什么叫干净规整的结构化数据?有非结构化数据?
答案:结构化数据,专业来说就是二维表的数据,行列对应
数据分析
- 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
- 需要掌握各种
数据分析方法
,还要熟悉数据分析软件
的操作;
数据展现
- 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
- 数据可视化(Data Visualization)属于数据应用的一种;
- 注意,
数据分析的结果不是只有可视化展示
,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。
报告攥写
- 数据分析报告是对整个数据分析结过程的一个总结与呈现
- 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
- 需要有明确的结论,最好有建议或解决方案
大数据时代
大数据定义
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的5V特征
5个V开头的单词,从5个方面准确、生动、形象地介绍了大数据特征。
- Volume:数据体量大
采集数据量大;存储数据量大;计算数据量大;TB、PB级别起步 - Variety:种类、来源多样化
种类:结构化、半结构化、非结构化
来源:日志文本、图片、音频、视频 - Value:低价值密度
信息海量但是价值密度低
深度复杂的挖掘分析需要机器学习参数 - Velocity:速度快
数据增长速度快
获取数据速度快
数据处理速度快