目录
一、项目意义
二、项目流程
三、项目内容
1、导入数据
2、数据预处理
3、单变量分析
4、聚类分析—Kmeans算法
一、项目意义
客户价值分析就是一个客户分群问题,以客户为中心,从客户需求出发,搞清楚客户需要什么,他们有怎样的一个特征,需要什么样的产品,然后设计相应的产品满足客户的需求。进行客户价值分析,可以避免商家闭门造车以及主管臆断客户的需求。运营商能够将客户很好地进行分层是为客户推出差异化的服务的基础,好的用户分析也是提升用户体验的前提。
本项目处理分析客户数据,对客户进行分类,对不同客户类别进行特征分析,比较不同类别的客户价值,制定相应的营销策略,为其提供个性化服务。
二、项目流程
定义挖掘目标—>数据抽取—>数据探索与预处理—>分析与建模—>模型应用
三、项目内容
1、导入数据
2、数据预处理
(1)异常值处理
(2)缺失值处理
3、单变量分析
绘制图形及得出结论
客户用的最多的5种手机品牌分别为:S50、BS110、S80、WC95和ASAD170,可合理猜测这几种品牌是否与该网络运营商签订某些协议
客户群体中,男女比例基本为1:1,没有太大的差异
从客户选择使用的套餐来看,CAT 200 套餐用户使用量最多,占全部样本的44.12%,其次为 CAT 100,占比为21.89%,CAT 50套餐用户使用量最少,占全部样本的5.97%.
- 客户中,40—90岁年龄段的客户占比少,客户大多集中在12—40岁年龄段中,客户总体趋向于少龄化,且30岁的人群较多;
- 客户在网时长分布均匀,没有明显的趋势;
- 从高峰拨打频次密度直方图可知:大多数用户通话次数较少,只有少数的客户拨打次数较多,说明只存在少量的客户消费相对较多;高峰拨打频数及分钟,低谷拨打频数及分钟,周末拨打频数及分钟、国际通话分钟、套餐额外费用等的密度直方图都呈现偏态分布,且全部左偏,即表明大多数客户消费平常且平均,少数的客户消费较高。
4、聚类分析—Kmeans算法
(1)热力图——相关性分析
热力图右侧的刻度展示了不同相关系数对应的颜色深浅。从图中可以看出,Peak_mins(高峰分钟数)和Nat_call_cost(套餐额外费用)之间的相关性较高,为0.8,即存在很强的多重共线性。在进行特征工程时可以考虑剔除二者中的一个变量,以免导致因多重共线性造成的过拟合。
(2)数据整理
(3)数据零-均值标准化和0-1标准化(归一化),进行比较
结论: 结果都差不多
(4)摸索k的取值:层次聚类(谱系聚类图)、手肘法(SSE-K图)
通过两个方法对于K值的探究可得模型分成4个类比较合适,即确定聚类的类别数k=4
(5)Kmenas算法主要流程
由聚类图可得:
第0个class: Nat_call_cost(套餐额外费用)最高,Peak_calls(高峰拨打频次)第二高,International_mins(国际通话分钟)第三高,其余相对于来说较低,说明这类客户是老板型客户
第1个class: offline_mins(低峰期拨打频次)和offline_calls(低峰期拨打分钟)都比较高,其他比较低,说明这类客户是普通客户;
第2个class: weekend_mins(周末拨打频次)和weekend_calls(周末拨打分钟数)比较高,其他都很低,说明这类客户是周末娱乐性的打工人客户;
第3个class:所有特性都偏低,说明这是一个办了卡一般不用的低消费客户。