一、module1 预测未来-总统大选
样本偏差
二、module2 优化现状-化妆品销售
1、数据分析师从业务类型上划分
2、目标:总销量 达到 目标销量
3、固定基本流程
(1)确定
一、目标值节节升高,是否合理?根据什么定的?
1、这个目标本来就该高,已在天猫京东建立直营店入驻,签了合同,一个月保我多少销量 --- 保障销量
2、一年赚10个亿,一个月拆解要赚1个亿
3、这个市场是否是增长的市场
二、是否投入固定?
加大广告投入?
三、数据是不是有误?
找市场、运营的人确认,数据的统计口径是否
四、是否需要数据分析师介入?
有竞争者,投入比我多,数据分析介入意义不大
(2)分解
(3)评估
1、【主观经验】单价降低对提升销售影响不明显
2、【客观分析】广告费 和 社交网络费的比例 ---计算机处理数据流程如下所示
① Excel - CSV
Excel 原始数据 --- 转成通用格式CSV
② Python加载CSV
通过Python把CSV加载出来,得到的数据放在计算机内存当中
③ 矩阵分析
要做一个矩阵分析:下面四项对 总销售额的影响
a.行列转置
首先做一个行列转置:
b.对行进行重命名:
c.得到线性关系
通过Python的corr方法,得到矩阵:特征和特征的线性关系:
1:非常相关,并且是正相关; -1:非常相关,但是是负相关; 0:不相关
d.相关度排序
与总销量的相关度做个排序:最相关的是社交网络费
e.直方图
根据统计学的知识,画的直方图:数据少,看着有点low
f.关联矩阵
数据特别少,效果不太好看
在PPT中对矩阵做个美化:
(4)决策
三、module3 总结问题-招聘市场
一、拉钩内部数据分析
MySQL取数,导出Excel到本地 ,转化为CSV格式:
Python导入CSV数据,加载到内存中:
Python数据分析三剑客:Numpy、Pandas和Matplotlib,对数据进行汇总
二、51job数据分析
数据存在对象型数据库:Robo 3T