一.前言
数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程
数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。在实际工作中,数据分析能够帮助管理者进行判断和决策,以便采取适当的策略与行动
在统计学领域,有些学者将数据分析划分为描述性数据分析,探索性数据分析,验证性数据分析
描述性数据分析:常见的方法有对比分析法,交叉分析法,学习与工作中涉及的数据分析
探索性数据分析:侧重于在数据之中发现新的特征
验证性数据分析:侧重于验证已有假设的真伪证明
1.数据分析在企业的日常经营分析中主要有三大作用
①现状分析
企业现阶段的整体运营情况,通过各个经营指标的完成情况来衡量企业的运营状态,以说明企业整体运营是好了还是坏了,好坏的程度如何
企业各项业务的构成,让你了解企业各项业务的发展和变动情况,对企业运营状况有更深入的了解
现状分析一般通过日常通报来完成,如日报,周报,月报等形式
②原因分析
一般通过专题分析来完成,根据企业运营情况选择针对某一现状进行原因分析
③预测分析
对企业未来发展趋势做出预测,为制定企业运营目标及策略提供有效的参考与决策依据,以保证企业的可持续健康发展
一般通过专题分析来完成,通常在制定企业季度,年度等计划时进行,其开展的频率没有现状分析及原因分析高
2.数据分析六部曲
①明确分析目的和思路
为什么开展数据分析?
通过这次数据分析我要解决什么问题?
梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标
分析框架体系化:以营销,管理等理论为指导,结合实际业务情况,搭建分析框架,以确保分析维度的完整性,分析结果的有效性及正确性
营销方面的理论模型:4P,用户使用行为,STP理论,SWOT等
管理方面的理论模型:PEST,5E2H,时间管理,生命周期,逻辑树,金字塔,SMART原则等
②数据收集
第一手数据:可以直接获取的数据
第二手数据:经过加工整理后得到的数据
一般数据来源方式:数据库,公开出版物,互联网,市场调查
③数据处理
对收集到的数据进行加工整理,形成适合数据分析的样式。主要包括数据清洗,数据转化,数据提取,数据计算等处理方法
④数据分析
是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
数据处理是数据分析的基础
一般来说,数据挖掘侧重解决四类数据分析问题:分类,聚类,关联和预测,重点在找寻模式和规律。数据分析和数据挖掘本质是一样的,都是从数据里面发现关于业务的知识
⑤数据展现
一般情况下,数据是通过表格和图形的方式呈现的
⑥报告撰写
数据分析报告是对整个数据分析过程的一个总结和呈现
通过报告,把数据分析的起因,过程,结果及建议完整呈现出来,供决策者参考
一份好的数据分析报告,首先要有一个好的分析框架,并且图文并茂,层次明晰,明确的结论,有建议或解决方案
3.数据分析的三大误区
分析目的不明确,为分析而分析
缺乏业务知识,分析结果偏离实际
一味追求使用高级分析方法,热衷研究模型
4.几个常用指标和术语
平均数:一般指算数平均数,就是一组数据的算数平均值,即全部数据累加后除以数据个数。特点是将总体内各单位的数量差异抽象化,代表总体的一般水平,掩盖了总体内各单位的差异
绝对数:反映客观现象总体在一定时间,地点条件下的总规模,总水平的综合性指标
相对数:指由两个有联系的指标对比计算而得到的数值,用以反映客观规律与现象之间数量联系程度的综合指标
百分比:是相对数中的一种,表示一个数是另一个数的百分之几
百分点:指不同时期以百分数的形式表示的相对指标的变动幅度
频数:指一组数据中个别数据重复出现的次数,是绝对数
频率:是每组类别次数与总次数的比值,代表某类别在总体中出现的频繁程度,一般采用百分数表示,是相对数
比例:指在总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构,是相对数
比率:指不同类别数值的对比,反映的不是部分与整体的关系,而是一个整体中各部分之间的关系
倍数:一个数除以另一个数所得的商,一般表示数量的增长或上升幅度,而不适用于表示数量的减少或下降
番数:指原来数量的2的N次方倍
同比:指与历史同时期进行比较得到的数值,反映的是事物发展的相对情况
环比:指与前一个统计期进行比较得到的数值,反映的是事物逐期发展的情况
二.确定分析思路
1.PEST分析法
用于宏观环境的分析
宏观环境又称为一般环境,是指影响一切行业和企业的各种宏观力量
政治环境:包括一个国家的社会制度,执政党的性质,政府的方针,政策,法令等。关键指标有:政治体制,经济体制,财政政策,产业政策,投资政策,专利数量,国防开支水平,政府补贴水平。民众对政治的参与度等
经济环境:包括宏观和微观。宏观经济环境主要指一个国家的国民收入,国民生产总值及其变化情况,以及通过这些指标反映的国民经济发展水平和发展速度;微观经济环境主要指企业所在地区或所服务地区的消费者的收入水平,消费偏好,储蓄情况,就业程度等因素,这些因素直接决定企业目前及未来的市场大小。关键指标有:GDP及增长率,进出口总额及增长率,利率,汇率,通货膨胀率,消费价格指数,居民可支配收入,失业率,劳动生产率等
社会环境:包括一个国家或地区的居民受教育程度和文化水平,宗教信仰,风俗习惯,审美观点,价值观念等。关键指标有:人口规模,性别比例,年龄结构,出生率,死亡率,种族结构,妇女生育率,生活方式,购买习惯,教育状况,城市特点,宗教信仰状况等因素
技术环境:除了要考察与企业所处领域直接相关的技术手段的发展变化外,还要了解国家对科技开发的投资和支持重点,该领域技术发展动态和研究开发费用总额,技术转移和技术商品化速度,专利及其保护情况等。关键指标有:新技术的发明与进展,折旧和报废速度,专利个数,专利保护情况,国家投入的研发费用,国家重点支持项目,技术商品化速度,技术传播速度更新速度等
2.5W2H分析法
why:用户购买的目的是什么?产品在哪方面吸引用户?
what:公司提供什么产品或服务?与用户需求是否一致?
who:谁是我们的用户?用户有何特点?
when:何时购买?多久再次购买?
where:用户在哪里购买?用户在各个地区的构成怎样?
how:用户购买支付方式是怎样?
how much:用户购买花费的时间,交通等成本各是多少?
3.逻辑树分析法
遵循三个原则:把相同问题总结归纳成要素
将各个要素组织成框架,遵守不重不漏的原则
框架内的各要素保持必要的相互关系,简单而不孤立
虽然用头脑风暴法把涉及的问题总结归纳出来,但还是难以避免在考虑不周全的地方
4.4P营销理论
帮助了解公司的整体运营情况,搭建公司业务分析框架
产品product:从市场营销的角度来看,产品是指能够提供给市场,被人们使用和消费并满足人们某种需要的任何东西,包括有形产品,服务,人员,组织,观念及它们的组合
价格price:是指顾客购买产品时的价格,包括基本价格,折扣价格,支付期限等。价格或价格决策关系到企业的利润,成本补偿,以及是否有利于产品销售,促销等问题。影响定价的主要因素有三个:需求,成本与竞争。最高价格取决于市场需求,最低价格取决于该产品的成本费用,在最高价格和最低价格的幅度内,企业能把这种产品价格定多高取决于竞争者的同种产品的价格
渠道place:是指产品从生产企业流转到用户手上的全过程中所经历的各个环节
促销promotion:是指企业通过销售行为的改变来刺激用户消费,以短期的行为(比如让利,买一送一,营销现场氛围等)促成消费的增长,吸引其它品牌的用户或导致提前消费来促进销售的增长。广告,宣传推广,人员推销,销售促进是一个机构促销组合的四大要素
5.用户行为理论
三.数据准备
1.理解数据
字段:事物或现象的某种特征
记录:事物或现象某种特征的具体表现
数据类型:字符型数据(不具有计算能力的文字数据类型)
数值型数据(直接使用自然数或度量单位进行计量的数值数据)
2.数据来源
导入数据:文本和网站数据来源
手工录入
四.数据处理
1.数据清洗
重复数据的处理
缺失数据的处理
检查数据逻辑错误
2.数据加工
数据抽取:保留原数据表中的某些字段的部分信息,组合成一个新字段。可以是截取某一字段的部分信息(字段分列),也可以是将某几个字段合并为一个新字段(字段合并),还可以是将原数据表没有但其他数据表中有的字段,有效地匹配过来(字段匹配)
数据计算:有时候数据表中的字段不能从数据源表字段中直接提取出来,通过简单计算达到目的
数据分组
数据转换:数据表的行列互换,集中录入方式之间的转换
3.数据抽样
最常见的调查方式主要有两种:普查和抽样调查
普查:指对总体中的对象进行观察,访问与记录,确定资料
抽样调查:指从调查对象总体中按照随机原则选取一部分对象作为样本进行调查分析,以此推论总体状况的一种调查方式
五.数据分析
数据分析方法的三大作用:现状分析,原因分析,预测分析
1.对比分析法
定义:是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。对比分析法的特点是可以非常直观地看出事物某方面的变化或差距,并且可以准确,量化地表示出这种变化或差距是多少
分类:静态比较是在同一时间条件下对不同总体指标的比较,如不同部门,不同地区,不同国家的比较,也叫横向比较;动态比较是在同一总体条件下对不同时期指标数值的比较,也叫纵向比较
实践运用:目前比较分析常用的有以下几个维度——与目标对比,不同时期对比,同级部门/单位/地区对比,行业内对比,活动效果对比
注意事项:进行对比分析时还要考虑到以下几点因素
指标的口径范围,计算方法,计量单位必须一致,如果各指标的口径范围不一致,必须进行调整之后才能进行对比
对比的对象要有可比性,在选择和确定对比对象时,一定要分析它们是否具有对比的意义
对比的指标类型必须一致
2.分组分析法
根据数据分析对象的特征,按照一定的指标,把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在联系和规律性
分组的目的就是为了便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性,组与组之间属性的差异性,以便进一步运用各种数据分析方法来解构内在的数量关系,因此分组法必须与对比法结合运用
分组分析法的关键在于确定组数和组距。在数据分组中,各组之间的取值界限称为组限,一个组的最小值称为下限,最大值称为上限,上限与下限的差值称为组距,上限值和下限值的平均数称为组中值,它是一组变量值的代表值
采用组距分组需要经过以下几个步骤
step1:确定组数。由数据分析师决定,根据数据本身的特点(数据的大小)来判断确定。由于分组的目的之一就是为了观察数据分布的特征,因此确定的组数应适中。如果组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律
step2:确定各组的组距。可根据全部数据的最大值和最小值及所分的组数来确定
step3:根据组距的大小,对数据进行分组整理,划归至相应组内
3.结构分析法
是指被分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。某部分的比例越大,说明其重要程度越高,对总体的影响越大
优点是简单实用
结构相对指标(比例)的计算公式为:
结构相对指标(比例)=(总体某部分的数值 / 总体总量)* 100%
4.平均分析法
就是运用计算平均数的方法来反映总体在一定时间,地点条件下某一数量特征的一般水平
平均指标可用于同一现象在不同地区,不同部门或单位间的对比,还可以用于同一现象在不同时间的对比
主要作用
利用平均指标对比同类现象在不同地区,不同行业,不同类型单位等之间的差异程度,比用总量指标对比更有说服力
利用平均指标对比某些现象在不同历史时期的变化,更能说明其发展规律与趋势
平均分析法要结合各种分组和指标对比来进行
5.交叉分析法
通常用于分析两个变量(字段)之间的关系,即同时将两个有一定联系的变量及其值交叉排列在一张表格内,使各变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系,所以也叫作交叉表分析法。交叉表也有二维以上的,维度越多,交叉表越复杂,所以在选择几个维度的时候需要根据分析的目的决定
6.综合评价分析法
人们通过对实践活动的总结,逐步形成了一系列运用多个指标对多个参评单位进行评价的方法
基本思想:将多个指标转化为一个能够反映综合情况的指标来进行分析评价,比如不同国家的经济实力,不同地区的社会发展水平,小康生活达标进程,企业经济效益评价等,都可以用这种方法
步骤
step1:确定综合评价指标体系,包含哪些指标,是综合评价的基础和依据
step2:收集数据,并对不同计量单位的指标数据进行标准化处理
step3:确定指标体系中各指标的权重,以保证评价的科学性
step4:对经处理后的指标再进行汇总计算出综合评价指数或综合评价分值
step5:根据评价指数或分值对参评单位进行排序,并由此得出结论
特点
评价过程不是逐个指标顺次完成的,而是通过一些特殊方法将多个指标的评价同时完成
在综合评价过程中,一般要根据指标的重要性进行加权处理
评价结果不再是具有具体含义的统计指标,而以指数或分值表示参评单位综合状况的排序
7.杜邦分析法
它是利用各主要财务指标间的内在联系,对企业财务状况及经济效益进行综合分析评价的方法
该体系以净资产收益率为龙头,以总资产收益率和权益乘数为核心,重点届时企业盈利能力及权益乘数对净资产收益率的影响,以及各相关指标间的相互影响关系,为各级管理者优化经营理财状况,提高公司经营效益提供了思路,提高总资产收益率的根本在于扩大销售,节约成本,优化投资配置,加速投资配置,加速资金周转,优化资金结构,确定风险意识等
特点:将若干个用以评价企业经营效率和财务状况的比率按其内在联系有机的结合起来,形成一个完整的指标体系,并最终通过权益收益率来综合反映
杜邦分析采用金字塔形结构,使财务比率分析的层次更加清晰,条理更突出,简洁明了地表达了各财务指标之间的关系
8.漏斗图分析法
漏斗图是一个适合业务流程比较规范,周期比较长,各流程环节涉及复杂业务过程比较多的管理分析工具
为什么要在分析业务流程的时候使用漏斗图?因为漏斗图是对业务流程最直观的一种表现形式,并且也最能说明问题的所在。通过漏斗图可以很快发现业务流程中存在问题的环节
单一漏斗图无法评价网站某个关键流程中各步骤转化率的好坏,可以利用之前介绍的对比分析法,对同一环节优化前后的效果进行对比分析,或对同一环节不同细分用户群的转化率作比较,或对同行业类似产品的转化率进行对比等等
漏斗图不仅能告诉我们用户在业务中的转化率和流失率,还可以告诉我们各种业务在网站中的受欢迎程度或重要程度。通过对不同业务的漏斗图进行对比,可以找出何种业务在网站中更受用户的欢迎或更吸引用户。只要掌握了对比分析方法,就可以从不同业务角度发现隐藏在其中的业务问题
9.矩阵关联分析法
也叫象限图分析法
是指根据事物(如产品,服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,在解决问题和资源分配时,为决策者提供重要参考依据。先解决主要矛盾,再解决次要矛盾,有利于提高工作效率,并将资源分配到最能产生绩效的部门,工作中,有利于决策者进行资源优化配置
10.高级数据分析方法
六.数据展现
七.图表可以更美的
1.注意事项
避免做出无意义的图表:有时候表格比图能更有效地传递信息,就没必要绘制图表
不可把图表撑破:不要在一张图表里塞太多信息
只选对的,不选复杂的
一句话标题
①饼图
要按照时钟表盘的刻度,把数据从12点钟的位置开始排列,最重要的成分紧靠12点钟的位置
数据项不要太多,保持在5项以内
不要使用爆炸式的 “ 饼图分离 ”
饼图不要使用图例
尽量不使用标签连线,如果要用则切忌凌乱
尽量不使用3D效果,如果要用厚度要尽量薄一些
当扇区使用颜色填充时,推荐使用白色的边框线,具有较好的切割感
②柱形图
同一数据序列使用相同的颜色
不要使用倾斜的标签,别让读者歪着脑袋看
纵坐标轴一般刻度从0开始
图表横坐标的标签倾斜显示
没有使用一句话标题
一般来说,柱形图最好添加数据标签,这样让读者一眼就能看到具体数值
如果柱形图已经有了数据标签,纵坐标刻度线和网格线则显得多余了,最好删除
③条形图
同一数据序列使用相同的颜色
尽量让数据由大到小排序,方便阅读
不要使用倾斜的标签
最好添加数据标签
④折线图
折线选用的线型要相对粗些,最好比网格线,坐标轴等更突出
线条一般不超过5条,否则非常杂乱,如果线条太多的话可以分开做图表
不要使用倾斜的标签
纵坐标轴一般刻度从0开始
2.图表美化
①原则
简约:简明扼要,清晰明了
整洁:整齐,干净,和谐自然
对比:突出某些重要元素,帮助读者快速抓住信息
②技巧
最大化数据墨水化:图表中的每一滴墨水都要有存在的理由,即尽量减少和弱化非数据元素,增强和突出数据元素
找出隐形的线:找一条明确的线,并用它来对齐,使元素与元素之间存在着某种视觉纽带
图表喜欢的数字格式:Arial字体
如何突出对比:利用对比色,使用直线,箭头或者阴影
八.专业的报告
1.写作原则
规范性:使用的名词术语要规范,标准统一,前后一致,要与业内公认的术语一致
重要性:一定要体现数据分析的重点,在各项数据分析中,应该重点选取关键指标,科学专业地进行分析。针对同一类问题,其分析结果也应当按照问题重要性的高低来分级阐述
谨慎性:基础数据必须真实完整,分析过程必须科学合理全面,分析结果要可靠,内容实事求是
创新性:适时引入科学家提出的各种新的研究模型或者分析方法
2.作用
展示分析结果:报告以某一种特定的形式将数据分析结果清晰地展示给决策者,使得他们能够迅速理解,分析,研究问题的基本情况,结论与建议等内容
验证分析质量:分析报告是对整个数据分析项目的一个总结,通过报告中对数据分析方法的描述,对数据结果的处理与分析等几个方面来检验数据分析的质量
提供决策参考:大部分数据分析报告都是具有时效性的,是决策者二手数据的重要来源之一
3.种类
①专题分析报告
是对社会经济现象的某一方面或某一个问题进行专门研究的一种数据分析报告,它的主要作用是为决策者指定某项政策,解决某个问题提供决策参考和依据
单一性:不要求反映事物的全貌,主要针对某一方面或某一问题进行分析,如用户流失分析,提升用户消费分析,提升企业利润率分析等
深入性:内容单一,重点突出。他不仅要对问题进行具体描述,还要对引起问题的原因进行分析,并且提出切实可行的解决方法
②综合分析报告
是全面评价一个地区,单位,部门业务或其他方面发展情况的一种数据分析报告
比如世界人口发展报告,全国经济发展报告,某企业运营分析报告等
全面性:必须以这个地区,这个部门,这个单位为分析总体,站在全局的高度,反映总体特征,做出总体评价,得出总体认识。在分析总体现象时,必须全面综合地反映对象各个方面的情况
联系性:要把互相关联的一些现象,问题综合起来进行全面系统的分析,这种综合分析不是对全面资料的简单罗列,而是在系统地分析指标体系的基础上,考察现象之间的内部联系和外部联系。因此,从宏观角度反映指标之间关系的数据分析报告一般属于综合分析报告
③日常数据通报
是以定期数据分析报告为依据,反映计划执行情况,并分析其影响和形成原因的一种数据分析报告,一般是按照日,周,月,季,年等时间阶段定期进行,也叫作定期分析报告
可以是专题性的,也可以是综合性的
进度性:主要反映计划的执行情况,因此必须把计划执行的进度与时间的进展结合起来分析,观察比较两者是否一致,从而判断计划完成的好坏,为此,需要进行一些必要的计算,通过一些绝对数和相对数指标来突出进度
规范性:一般包括以下几个基本部分——反映计划执行的基本情况;分析完成或未完成的原因;总结计划执行中的成绩和经验,找出存在的问题;提出措施和建议
时效性:是时效性最强的一种分析报告,只有及时提供业务发展过程中的各种信息,才能帮助决策者掌握企业经营的主动权,否则会丧失良机,贻误工作
4.结构
①标题页
标题要精简干练
常用类型
解释基本观点:点明基本观点
概括主要内容:叙述数据反映的基本事实,让读者抓住全文的中心
交代分析主题:反映分析的对象,范围,时间,内容等情况,不点明分析师的看法和主张
提出问题:引起读者的注意和思考
标题制作要求
直接:毫不含糊,开门见山,直截了当,加快对报告内容的理解
确切:文题相符,宽窄适度
简洁:高度概括,用较少的文字集中,准确,简洁地进行表述
②目录
帮助读者快捷方便地找到所需的内容
要在目录列出报告的主要章节的名称,如果在word中撰写报告,在章节后面还要加上对应的页码
目录相当于数据分析的大纲,可以体现出报告的分析思路
③前言
分析背景:主要阐述此项分析的主要原因,分析的意义,以及其他相关信息,如行业发展现状等
分析目的:了解开展此次分析能带来何种效果,可以解决什么问题
分析思路:用来指导数据分析师如何进行一个完整的数据分析,即确定需要分析的内容或指标
④正文
是数据分析报告的核心部分,它将系统全面地表述数据分析的过程与结果
包含所有数据分析事实和观点
通过数据图表和相关的文字结合分析
正文各部分具有逻辑关系
⑤结论与建议
结论是以数据分析结果为依据得出的分析结果,通常以综述性文字来说明,它不是分析结果的简单重复,而是结合公司实际业务,经过综合分析,逻辑推理形成的总体论点
结论应该措辞严谨,准确,鲜明
建议是根据数据分析结论对企业或业务等所面临的问题而提出的改进方法,主要关注在保持优势及改进劣势等方面。因为分析人员所给出的建议主要是基于数据分析结果而得到的,会存在局限性,因此必须结合公司的具体业务才能得出切实可行的建议
⑥附录
提供正文中涉及而未予阐述的有关资料,有时也含有正文中提及的资料
主要包括报告中涉及的专业名词解释,计算方法,重要原始数据,地图等内容
每个内容都需要编号,以备查询
并不是必须的,应该根据各自的情况再决定是否需要在报告结尾处添加附录
5.注意事项
结构合理,逻辑清晰
实事求是,反映真相
用词准确,避免含糊
篇幅适宜,简洁有效
结合业务,分析合理