Python用K-Means均值聚类、LRFMC模型对航空公司客户数据价值可视化分析指标应用|数据分享...

全文链接：https://tecdat.cn/?p=38708

分析师：Yuling Fang

信息时代的来临使得企业营销焦点从产品中心转向客户中心，客户关系管理成为企业的核心问题（点击文末“阅读原文”获取完整代码数据）。

客户关系管理的关键是客户分群，通过客户分群，区分无价值客户和高价值客户，同时更好的了解客户的特征，使企业能够针对不同价值客户指定优化的个性化服务方案，实现精细化运营。客户分群是关键节点。

任务/目标

根据航空公司观测窗口内的客户社会信息、乘机信息和积分信息（查看文末了解数据免费获取方式）对客群进行价值分类，为业务提供运营策划参考。

数据源准备

选取宽度为两年的分析观测窗口，抽取观测窗口内有乘机记录的所有客户的详细数据，共62988行。对原始数据进行探索和数据清洗。

缺失值处理。通过数据探索分析，发现gender、age、sum分别有3、420、689个缺失值，由于变更比总记录数较少，故直接删除处理。

异常值处理。通过对数据观察，发现原始数据中存在平均折扣率不为0、总飞行公里数大于0、票价却为0的数据，属于有异常情况，需要剔除。

特征转换

把不能处理的特征做一些转换，处理成算法容易处理的干净特征：

时间信息。会员入会时间距离观测窗口结束的时间，需要通过入会时间和观测窗口的结束时间相减得到。

省份信息。work_province列存在省份书写格式不统一、部分出现错别字的问题，使用jieba将work_province列拆分字符分类统一格式。

数据变换

构建包含L、R、F、M、C五项指标的新数据表，并对应属性定义表，得到LRFMC模型中五项指标的计算公式：

采用标准差标准化的方法数据进行标准化计算，每项数据减去每项指标数据的平均值，得到的差除于每项指标数据的标准差值。

聚类个数

通过K_means聚类方法进行机器学习，绘图观察误差平方和SSE与中心点个数k的关系，比较每个k值的SSE，使用肘部法寻找误差平方和SSE突然变小时对应的k值，得到k=5，将客户群体聚类划分为5个客群。

建模

LRFMC模型是根据实际场景基于RFM模型优化调整后得到的，是衡量客户价值和客户创造利益能力的重要工具和手段。

聚类结果

将客群按照客户价值聚类划分为五类贴上群体标签，记为1、2、3、4、5五类，对聚类结果进行特征分析，其可视化图形如下：

点击标题查阅往期内容

PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

左右滑动查看更多

根据雷达图分布，对客群的类别、指标情况、重要特征、运营建议进行归纳总结，分别如下：

基于航空公司数据的客户价值分析|附数据代码

在当今竞争激烈的航空市场中，深入了解客户价值对于航空公司制定精准营销策略、优化资源配置以及提升客户满意度等方面都有着至关重要的意义。本文旨在通过对航空公司客户相关数据的分析，运用聚类等数据分析方法，挖掘不同客户群体的特征，进而对客户价值进行评估与分析。

数据准备与预处理

首先，我们需要导入一系列常用的数据处理和可视化相关的库，代码如下：

同时，为了确保在图形绘制中能够正确显示中文字体等相关设置，我们会进行如下配置：

mpl.rcParams\['font.sans-serif'\] = \['SimHei'\]
mpl.rcParams\['axes.unicode_minus'\] = False

接着，从指定路径读取航空公司的客户数据文件，并查看前10行数据，了解数据的大致样貌，代码如下：

data = pd.read_csv(r'/Us.csv',encoding='utf-8')
data.head(10)

这一步能让我们直观看到诸如会员卡号、入会时间、性别、年龄等众多字段以及对应的数据内容。然后，我们可以通过data.info()查看数据的详细信息，包括每列的数据类型、非空值数量等情况，以此来掌握数据的整体结构。还可以使用data.describe().T对数据进行描述性统计分析，像各列数据的均值、标准差、最小值、最大值等统计指标，有助于我们初步了解各特征的分布情况。
此外，分析数据中的缺失值情况也很关键，通过data.isnull().sum().sort_values(ascending=False)可以统计出每列的缺失值数量，并按照从多到少进行排序。针对存在缺失值的情况，我们做了相应的数据清洗操作，例如筛选出特定列非空的数据等，代码如下：

data=data\[data\['SUM\_YR\_1'\].notnull() & data\['SUM\_YR\_2'\].notnull()\]
t1 = data\['SUM\_YR\_1'\]!=0
t2 = data\['SUM\_YR\_2'\]!=0

经过上述一系列的数据预处理操作，我们为后续的客户价值分析打下了良好的数据基础。

LRFMC模型客户价值指标构建

在进行客户价值分析时，我们选取了几个关键的指标来综合衡量客户价值。其中，R代表最近消费时间间隔，具体是用最后一次乘机时间至观察窗口末端时长来衡量；F表示消费频率，也就是观测窗口内的飞行次数；M体现消费金额，由于航空票价受到距离和舱位等级等多种因素影响，这里的舱位因素考虑舱位所对应的折扣系数平均值，距离因素则是一定时间内累积的飞行里程；另外，考虑到航空公司的会员系统中，用户入会时间长短对客户价值有一定影响，所以增加了指标入会时间长度，即客户关系长度，通过观测窗口的结束时间减去入会时间（单位为月）来计算，也就是LOAD_TIME - FFP_DATE。
综合起来，我们构建了LRFMC这5个指标，具体如下：

L：LOAD_TIME - FFP_DATE（会员入会时间距观测窗口结束的月数）
R：LAST_TO_END（客户最近一次乘坐公司距观测窗口结束的月数）
F：FLIGHT_COUNT（观测窗口内的飞行次数）
M：SEG_KM_SUM（观测窗口的总飞行里程）
C：AVG_DISCOUNT（平均折扣率）
通过以下代码提取相关列数据并查看前几行：

df=data\[\["FFP\_DATE","LOAD\_TIME","LAST\_TO\_END","FLIGHT\_COUNT","SEG\_KM\_SUM","avg\_discount"\]\]
df.head()

然后，定义函数LRFMC来进一步处理数据，构建包含LRFMC指标的数据结构。

为了消除数据不同特征之间量纲的影响，我们还定义了函数zscore_data对数据进行标准化处理，代码如下：

def zscore_data(data):
 data2=(data-data.mean(axis=0))/data.std(axis=0)
 data2.columns=\['Z'+i for i in data.columns\]
 return data2
df4=zscore_data(df3)
df4.head()

客户K-Means聚类分析

接下来，运用K-Means聚类算法对处理好的数据进行聚类分析，以此来划分不同的客户群体。首先，我们设置聚类类别数目等参数，调用K-Means算法进行模型训练，代码如下：

k=5
# 调用k-means算法
# 输入聚类类别数目，n_jobs为并行数
#n_clusters就是K值，也是聚类值
#init初始化方法，可以是kmeans++，随机，或者自定义的ndarray
model.fit(df4) # 训练

通过model.labels_可以获取每个样本所属的类别标签，进而统计各个类别的数目以及找出聚类中心等：

r1 = pd.Series(model.labels_).value_counts() # 统计各个类别的数目
r2 = pd.DataFrame(model.cluster\_centers\_) # 找出聚类中心

将相关结果进行整合，并输出到Excel文件中方便查看和后续分析。

同时，还可以将每个样本对应的类别信息整合到数据中，并输出到Excel文件，代码如下：

r3 = pd.concat(\[df4, pd.Series(model.labels_, index=df4.index)\], axis=1) # 详细输出每个样本对应的类别
r3.columns = list(df4.columns) + \['聚类类别'\] # 重命名表头

为了确定合适的聚类数目，我们通过循环计算不同聚类数目下的簇内误方差（SSE），并绘制折线图进行可视化展示，代码如下：

#n_clusters就是K值，也是聚类值
 #init初始化方法，可以是kmeans++，随机，或者自定义的ndarray


plt.xlabel("簇数量")
plt.ylabel("簇内误方差（SSE）")

对应的可视化图像如下：

其能够帮助我们直观判断选择多少个聚类类别比较合适。

客户群体特征分析与价值评估

基于聚类结果，我们绘制雷达图来对不同客户群体的特征进行可视化分析：

对应的雷达图如下：

从“客户群特征分析图”中，结合业务情况，我们对不同客户群体进行特征分析与价值评估：

客户群1：在平均折扣率（C属性）上表现最为突出，这类客户可以定义为重要挽留客户，航空公司需要格外关注他们的动态，以防其流失。
客户群2：其在最近消费时间间隔（R属性）方面数值最大，而在消费频率（F属性）、总消费金额（M属性）方面是最小的，属于低价值客户群体，对航空公司的贡献相对较低。
客户群3：在消费频率（F属性）、总消费金额（M属性）上数值最大，在最近消费时间间隔（R属性）上最小，这类客户是航空公司的重要保持客户，航空公司应重点投入资源，进行差异化管理，提升他们的忠诚度和满意度，进一步巩固他们的价值。
客户群4：在客户关系长度（L属性）、平均折扣率（C属性）上最小，可将其归类为一般客户，对航空公司来说其价值处于中等偏下水平。
客户群5：在客户关系长度（L属性）上最大，可定义为重要发展客户，虽然他们当前价值可能不是很高，但有着较大的发展潜力，航空公司可以采取相应措施促使他们增加消费。
综上所述，通过对航空公司客户数据的深入分析和聚类处理，我们清晰地划分出了不同价值的客户群体，航空公司可以依据这些分析结果，制定精准的营销策略，合理分配资源，实现更好的运营和发展。