数据是什么
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。
它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2 . . .”、“ 阴、雨、下降”、“学生的栏案记录、货物的运输情况”等都是数据。
数据如何产生
对客观事物的计量和记录产生数据
企业数据分析方向
把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。
数据分析在企业日常经营分析中主要有三大方向∶
原因分析(分析过去的数据)
某一现状为什么发生,确定原因,做出调整优化;
现状分析(分析当下的数据)
现阶段的整体情况,各个部分的构成占比、发展、变动;
预测分析(结合数据预测未来)
结合已有数据预测未来发展趋势。
离线分析( Batch Processing )
面向过去,面向历史,分析已有的数据;
在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。
实时分析( Real Time Processing | Streaming )
面向当下,分析实时产生的数据;
所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。
机器学习(Machine Learning )
基于历史数据和当下产生的实时数据预测未来发生的事情;
侧重于数学算法的运用,如分类、聚类、关联、预测。
数据分析基本步骤
概述
数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;
张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤
基本步骤
step1:明确分析的目的和思路
目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;
思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;
数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等。
step2:数据收集
数据从无到有的过程∶比如传感器收集气象数据、埋点收集用户行为数据数据
传输搬运的过程:比如采集数据库数据到数据分析平台
公司常见数据源和种类
step3:数据预处理
准确来说,应该称之为数据预处理。
数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗、数据转化、数据提取、数据计算﹔
数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据。
step4:数据分析
用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;
step5:数据展现
数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
数据可视化( Data Visualization)属于数据应用的一种;
注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘( Data Mining )、即席查询(Ad Hoc)等。
step6:撰写报告
数据分析报告是对整个数据分析过程的一个总结与呈现
把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
需要有明确的结论,最好有建议或解决方案
核心步骤
采集、处理、分析、应用
什么叫干净规整的结构化数据?有非结构化数据?
专业来说就是二维表的数据,行列对应;
通俗来说就是格式清晰,利于解读的数据
大数据时代
背景
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,其称︰“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
大数据定义
大数据( big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。