数分基础(03-1)客户特征分析

news2024/9/20 8:01:40

文章目录

  • 客户特征分析
    • 1. 数据集
    • 2. 思路与步骤
      • 2.1 特征工程
      • 2.2 识别方法
      • 2.3 可视化
    • 3. 分析准备
      • 3.1 读取数据集
      • 3.2 识别不同客户群体
        • 3.2.1 使用K-Means聚类进行初步细分
        • 3.2.2 关于聚类方法
          • (1)特征缩放
            • 1)平衡特征对模型的影响力,避免某些特征因为数值范围较大而主导聚类结果
            • 2)提高算法效率
          • (2)使用肘部法ElbowMethod确定最佳聚类数
            • 1)计算不同聚类数下的惯性
            • 2)绘制惯性曲线,寻找肘部点,即寻找合适的聚类数
    • 4.客户群体分析
      • 4.1 划分类别
      • 4.2 汇总各类特征
      • 4.3 “4.1-4.2”完整代码及运行结果
      • 4.4 结果分析
      • Cluster 0 - 2
    • 5. 你看出来了什么?
    • 6. 简单可视化

客户特征分析

识别不同类型的客户群体,以便更好地理解客户行为、优化营销策略并提高客户满意度

1. 数据集

数据集见 数分基础(01)示例数据集Global_Superstore

2. 思路与步骤

2.1 特征工程

客户群体特征,可以从购买行为、地理位置等多个维度进行区分。

  • 客户行为特征,例如购买频率、平均订单金额、总购买金额、退货次数等;
  • 地理位置特征,通常包括国家、省市等信息;
  • 时间特征,通常有季节、月份、工作日/周末等;
  • 其他特征,例如年龄、性别等。

2.2 识别方法

通常使用聚类算法对客户进行细分。常用的有:K-Means聚类、层次聚类、RFM分析等

2.3 可视化

散点图、热图等方式来展示不同群体特征,帮助业务理解客户群体有哪些

3. 分析准备

读取数据集并进行基本的数据预处理

3.1 读取数据集

先看看Excel文档有哪些 sheet

import pandas as pd

# Load the dataset from the provided Excel file
file_path = "Global_Superstore2.xlsx"

# Read the first sheet to understand the data structure
xls = pd.ExcelFile(file_path)
sheet_names = xls.sheet_names
sheet_names

运行结果
在在这里插入图片描述
这里插入图片描述

只有一个sheet,那么再看看这个表格有哪些字段,数据记录大体是怎样的

# Load the data from the identified sheet
data = pd.read_excel(file_path, sheet_name='Sheet1')

# Display the first few rows and basic information about the dataset
data.head(), data.info()

运行结果为:
在这里插入图片描述
在这里插入图片描述
数据集包含了51290条记录和24个字段,可以逐一过一下字段名称,搭配前5行记录数据,从中找到和这次分析相关的关键数据列:

  • 客户信息:Customer ID、Customer Name、Segment
  • 地理位置:City、State、Country、Region
  • 购买行为:Sales、Quantity、Profit、Discount

3.2 识别不同客户群体

3.2.1 使用K-Means聚类进行初步细分
  • 聚类前对数值型数据进行标准化(例如使用Min-Max Scaling)
  • 选取与客户行为相关的特征,如购买频率、平均订单金额等
  • 使用肘部法、轮廓系数或平均轮廓距离等方法来确定最优的聚类数量
  • 对标准化后的数据进行K-Means聚类

代码

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from matplotlib import font_manager


# 步骤1: 客户特征
# 根据客户ID进行分组,获取客户特定的度量指标
customer_data = data.groupby('Customer ID').agg({
    'Sales': 'sum',      # 总销售额
    'Quantity': 'sum',   # 总购买数量
    'Profit': 'sum',     # 总利润
    'Discount': 'mean'   # 平均折扣
}).reset_index()

# 重命名列名以便更清晰
customer_data.columns = ['Customer ID', 'Total Sales', 'Total Quantity', 'Total Profit', 'Average Discount']

# 步骤2: 特征缩放
scaler = StandardScaler()
scaled_features = scaler.fit_transform(customer_data[['Total Sales', 'Total Quantity', 'Total Profit', 'Average Discount']])

# 步骤3: 使用肘部法确定最佳聚类数
# 调整范围以加速计算并找到最佳聚类数
inertia_optimized = []
for n in range(1, 6):  # 将范围缩小到较少的聚类数
    kmeans = KMeans(n_clusters=n, random_state=42)
    kmeans.fit(scaled_features)
    inertia_optimized.append(kmeans.inertia_)


# 设置中文字体为 SimHei(黑体)
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 绘制优化的肘部图
plt.figure(figsize=(8, 5))
plt.plot(range(1, 6), inertia_optimized, marker='o')
plt.xlabel('聚类数量')
plt.ylabel('惯性')
plt.title('肘部法 (优化) 以确定最佳聚类数量')
plt.grid(True)
plt.show()

在这里插入图片描述

3.2.2 关于聚类方法
(1)特征缩放

是对数据进行预处理的重要步骤,将数据中的不同特征调整大同一量纲,方法常用标准化和归一化。这么做的主要目的是使得所有特征对模型的影响力相似。

1)平衡特征对模型的影响力,避免某些特征因为数值范围较大而主导聚类结果

不同特征的数值范围可能相差较大,例如,销售额可能是几千到几万,而折扣率通常在 0 到 1 之间。直接使用这些未经处理的数据会导致高数值范围的特征主导聚类结果

2)提高算法效率

K-Means依赖于距离计算,特征缩放能够让距离计算更加准确和稳定

在代码中使用了标准化方法

# 步骤2: 特征缩放
scaler = StandardScaler()
scaled_features = scaler.fit_transform(customer_data[['Total Sales', 'Total Quantity', 'Total Profit', 'Average Discount']])

利用 StandardScaler()对数据进行缩放处理,fit_transform 方法将选定的特征(总销售额、总购买数量、总利润、平均折扣)进行标准化,标准化后的数据将被输入聚类算法,使得每个特征在同等条件下对结果产生影响。具体:首先,对于每个特征,计算其平均值和标准差;其次,进行数据转换,将每个特征值减去该特征的均值,再除以该特征的标准差,使得转换后的数据具有零均值和单位方差。

(2)使用肘部法ElbowMethod确定最佳聚类数

选择适当的聚类数(簇的数量),肘部法是一个常用的启发式方法,用于确定这个合适的数量。

肘部法,绘制不同聚类数下的模型误差或惯性来评估聚类效果

惯性是指每个样本到其最近聚类中心的距离平方和的总和,是衡量聚类紧密度的指标,惯性越小,说明样本距离各自簇中心越近,聚类效果越好。

# 步骤3: 使用肘部法确定最佳聚类数
# 调整范围以加速计算并找到最佳聚类数
inertia_optimized = []
for n in range(1, 6):  # 将范围缩小到较少的聚类数
    kmeans = KMeans(n_clusters=n, random_state=42)
    kmeans.fit(scaled_features)
    inertia_optimized.append(kmeans.inertia_)
1)计算不同聚类数下的惯性

从聚类数为1开始,逐步增加聚类数,计算每个聚类数下的惯性值

  • for n in range(1, 6),测试从1到5的聚类数量。当然也可以是从 1 到 10 或更大,但计算时间会很长,所以选择 1 到 5 的范围,如果从结果看出合适的聚类数在这个范围内,可以进一步缩小,如果不在,可以进一步扩大范围

  • kmeans = KMeans(n_clusters=n, random_state=42)。创建一个 K-Means 聚类模型,n_clusters=n 指定当前循环的聚类数,random_state=42 是在使用 K-Means 聚类(或其他随机算法)时,为确保结果可重复的一种设置方式。
    – random_state:K-Means 算法,初始随机选择聚类中心点(质心),因此,每次运行算法时,即使输入的数据相同,输出的结果也可能不同。通过设置 random_state,可以固定随机种子,使得每次运行算法时的随机数序列相同
    例如,

# 不同的 random_state 会导致不同的初始化,结果也可能不同
kmeans_1 = KMeans(n_clusters=3, random_state=42)
kmeans_2 = KMeans(n_clusters=3, random_state=1)

# 如果 random_state 设置相同,结果将一致
kmeans_3 = KMeans(n_clusters=3, random_state=42)

kmeans_1 和 kmeans_3 会产生相同的聚类结果,kmeans_2 的结果可能不同

– 42 只是一个习惯用法,可选任何整数值,只要保证每次运行时使用相同的值即可。“42”只是常被编程和数据科学用于默认示例的数字(具体可以搜关键词“《银河系漫游指南》中“生命、宇宙及一切的答案 数字42”)

– 在 KMeans(n_clusters=n, random_state=42) 中,每次运行 K-Means 聚类时,算法都会以相同的方式初始化聚类中心,确保同样的数据产生相同的结果

2)绘制惯性曲线,寻找肘部点,即寻找合适的聚类数

不同聚类数对应的惯性值,绘制成曲线,观察,当增加聚类数时,惯性下降速度明显减缓,形成类似“肘部”的位置,这个点即为推荐的最合适的聚类数
在这里插入图片描述

  • X轴 —— 聚类数量
  • Y轴 —— 惯性值,衡量聚类内部的紧密度,越小,样本点越靠近各自的中心,好
  • 趋势,聚类数增加,惯性值逐渐下降,因为增加聚类数会使每个簇中的点更靠近其中心点
  • 下降速度,最初从一个簇到2个簇、再到3个簇,惯性值下降较快;
  • 寻找,当聚类数量从2增加到3时,惯性下降的速度,比,从3到4惯性下降的速度快,类似“肘部”的转折点 —— 3
  • 解释,惯性显著降低直到3个簇,意味着聚类质量提升明显,但是超过3个簇,惯性值下降速度变缓,意味着增加聚类数量改进不大,反而增加了复杂性

意义,肘部分析帮助我们合理选择聚类数量,使得模型既能够合理划分客户群体,又不会因为过多的聚类簇而导致结果过于复杂。

接下来,选择3个聚类数目进行客户群体细分。

4.客户群体分析

4.1 划分类别

按照前面讨论的,指定聚类数量为 3 ,将客户数据分为 3 个类,用 K-Means算法进行分类

# 设置 Pandas 显示浮点数格式,禁用科学计数法
pd.set_option('display.float_format', '{:.2f}'.format)

# 使用确定的聚类数量进行 K-Means 聚类
optimal_clusters = 3
kmeans_model = KMeans(n_clusters=optimal_clusters, random_state=42)
customer_data['Cluster'] = kmeans_model.fit_predict(scaled_features)

4.2 汇总各类特征

汇总每类客户特征,了解每类客户的销售额、购买数量、利润的均值和总和,了解每类客户的平均折扣,了解每类客户的数量

cluster_summary = customer_data.groupby('Cluster').agg({
    'Total Sales': ['mean', 'sum'],         # 总销售额的均值和总和
    'Total Quantity': ['mean', 'sum'],      # 总购买数量的均值和总和
    'Total Profit': ['mean', 'sum'],        # 总利润的均值和总和
    'Average Discount': 'mean',             # 平均折扣
    'Customer ID': 'count'                  # 每个聚类中的客户数量
}).reset_index()

重命名列名,便于理解和查看

cluster_summary.columns = [
    'Cluster', 'Avg Total Sales', 'Sum Total Sales', 
    'Avg Total Quantity', 'Sum Total Quantity', 
    'Avg Total Profit', 'Sum Total Profit', 
    'Avg Discount', 'Customer Count'
]
print(cluster_summary)

4.3 “4.1-4.2”完整代码及运行结果

# 设置 Pandas 显示浮点数格式,禁用科学计数法
pd.set_option('display.float_format', '{:.2f}'.format)

# 使用确定的最佳聚类数量进行 K-Means 聚类(这里为了简化选择 3 个聚类数)
optimal_clusters = 3
kmeans_model = KMeans(n_clusters=optimal_clusters, random_state=42)
customer_data['Cluster'] = kmeans_model.fit_predict(scaled_features)

# 汇总各个聚类的特征以了解其特性
cluster_summary = customer_data.groupby('Cluster').agg({
    'Total Sales': ['mean', 'sum'],         # 总销售额的均值和总和
    'Total Quantity': ['mean', 'sum'],      # 总购买数量的均值和总和
    'Total Profit': ['mean', 'sum'],        # 总利润的均值和总和
    'Average Discount': 'mean',             # 平均折扣
    'Customer ID': 'count'                  # 每个聚类中的客户数量
}).reset_index()

# 重命名列名以便更清晰
cluster_summary.columns = [
    'Cluster', 'Avg Total Sales', 'Sum Total Sales', 
    'Avg Total Quantity', 'Sum Total Quantity', 
    'Avg Total Profit', 'Sum Total Profit', 
    'Avg Discount', 'Customer Count'
]

# 打印聚类汇总表
print(cluster_summary)

# 还原 Pandas 默认显示设置(可选)
pd.reset_option('display.float_format')

在这里插入图片描述

4.4 结果分析

数据被分为三个聚类,即具有不同特征的客户群体,逐一看过来

Cluster 0 - 2

Cluster 0
平均总销售额 2841.24
总销售额	1,693,380.35
平均总购买数量 39.92
总购买数量	2,3792
平均利润	395.61
总利润	235,785.89
平均折扣	0.09
客户数量	596

Cluster 1
平均总销售额 14464.10
总销售额	10,399,685.24
平均总购买数量	202.25
总购买数量	145,416
平均利润	1,843.55
总利润	1,325,512.06
平均折扣	0.13
客户数量	719

Cluster 2
平均总销售额 1997.95
总销售额	5,49,436.32
平均总购买数量	33.11
总购买数量	9104
平均利润	-341.24
总利润	-93840.66
平均折扣	0.34
客户数量	275

5. 你看出来了什么?

简要总结如下:
Cluster 0 平均购买量和销售额相对适中,利润正,折扣较低
Cluster 1 销售额和购买量均为最高,带来利润最高,虽然折扣比 Cluster 0高,但是高购买量和高单笔交易值,成为公司最重要的利润来源
Cluster 2 平均购买金额和数量最低,利润为负,高折扣和低利润,带来小收益甚至损失

很明显,Cluster 2 客户是聪明的“薅羊毛”高手~~~能够利用折扣和优惠来最大化自己的购买价值,通过理性和策略性的购买来减少生活开支,价格敏感、不迷信某种品牌(品牌忠诚度低),这不仅是一种购物习惯,某种意义上也是一种理财方式。

然而,站在公司立场,Cluster 2 客户享受了高折扣,却带来了负利润,确实是需要优化的对象,但优化的同时也要保持一定的吸引力,避免过于苛刻的策略导致这部分客户中的潜在客户流失。

这部分群体既是挑战也是机会,需要通过更合理的策略,例如,设置最低消费门槛、调整折扣策略、会员积分优惠等等,将他们从“薅羊毛”型转化为更有价值的长期客户。

6. 简单可视化

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2082889.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

通过ICMP判断网络故障

一、ICMP协议 Internet控制消息协议ICMP(Internet Control Message Protocol)是IP协议的辅助协议。 ICMP协议用来在网络设备间传递各种差错和控制信息,对于收集各种网络信息、诊断和排除各种网络故障等方面起着至关重要的作用。 TypeCode描述备注00Echo Replyping…

C++从入门到起飞之——list使用 全方位剖析!

​ 🌈个人主页:秋风起,再归来~🔥系列专栏:C从入门到起飞 🔖克心守己,律己则安 目录 1、迭代器 2、push_back与emplace_back 3、list成员函数sort与库sort比较 4、merge 5、uniqu…

2024117读书笔记|《李煜词(果麦经典)》——一壶酒,一竿身,快活如侬有几人?一片芳心千万绪,人间没个安排处

2024117读书笔记|《李煜词(果麦经典)》——一壶酒,一竿身,快活如侬有几人?一片芳心千万绪,人间没个安排处 《李煜词(果麦经典)》李煜的词很美,插图也不错,很值…

基于粒子群优化算法的六自由度机械臂三维空间避障规划

摘要:本研究旨在解决机械臂在复杂环境中避障路径规划的问题。本文提出了一种利用粒子群优化算法(PSO)进行机械臂避障规划的方法,通过建立机械臂的运动模型,将避障问题转化为优化问题。PSO算法通过模拟群体中个体的社会…

ggml 简介

ggml是一个用 C 和 C 编写、专注于 Transformer 架构模型推理的机器学习库。该项目完全开源,处于活跃的开发阶段,开发社区也在不断壮大。ggml 和 PyTorch、TensorFlow 等机器学习库比较相似,但由于目前处于开发的早期阶段,一些底层…

8月28c++

c手动封装顺序表 #include <iostream>using namespace std; using datatype int;//类型重命名struct SeqList { private:datatype *data;//顺序表数组int size0;//数组大小int len0;//顺序表实际长度 public:void init(int s);//初始化函数bool empty();//判空函数bool …

python有主函数吗

python和C/Java不一样&#xff0c;没有主函数一说&#xff0c;也就是说python语句执行不是从所谓的主函数main开始的。 当运行单个python文件时&#xff0c;如运行a.py&#xff0c;这个时候a的一个属性__name__是__main__。 当调用某个python文件时&#xff0c;如b.py调用a.p…

HDD介绍

HDD是“Hard Disk Drive”的缩写&#xff0c;意为“硬盘驱动器”&#xff0c;是计算机中用于存储数据和程序的主要设备之一。 硬盘有机械硬盘(Hard Disk Drive&#xff0c;HDD)和固态硬盘(SSD)之分。机械硬盘即是传统普通硬盘&#xff0c;主要由&#xff1a;盘片&#xff0c;磁…

2024年华侨生联考英语真题全析:难度变化与备考策略

导读 在前面我们和大家一起分享了2024年华侨生联考各科真题的难度情况。今天我们就来和大家具体的看一下2024年港澳台华侨生联考英语真题试卷具体分析哈。 听力部分 今年的听力和去年的听力总体难度差别不大&#xff0c;一段听力材料对应一道听力题目&#xff08;简称一对一…

谐波电抗器选择的最佳方法

选择谐波电抗器的最佳方法取决于系统的具体要求和条件。 以下是选择谐波电抗器时需要考虑的关键因素和方法&#xff1a; 1、确定系统谐波频率 谐波分析&#xff1a;使用谐波分析仪测量系统中的谐波频率&#xff0c;确定主要的谐波频率和幅值。谐波电抗器的选择需要针对这些谐…

2024年6月GSEP(python)一级认证真题讲解

注意&#xff01;做题时长为2小时&#xff0c;孩子做完题目后对照讲解视频和讲解分析&#xff0c;针对薄弱点&#xff0c;进行有效的专项提高。 &#x1f451;讲解视频 &#xff08;暂无&#xff09; &#x1f451;讲解分析 1 单选题&#xff08;每题 2 分&#xff0c;共 3…

【CVPR‘23】CompletionFormer:用于深度补全的 Transformer 网络!已开源

【CVPR23】CompletionFormer:用于深度补全的 Transformer 网络! 摘要方法3.1 RGB 和深度嵌入3.2 联合卷积注意力和 Transformer 编码器3.3 解码器3.4 SPN 精化和损失函数主要贡献实验结果论文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_CompletionF…

C语言指针重学

学习要纲:建议掌握 gdb调试(b ,d ,fin ,bt ,print ,awatch ,up ,down ,set pretty等) SourceInsight软件看代码(全局搜索 文件搜索等) git如何调取分支合并(git branch,git blame,git log,git pull,git reset --hard等) 等内容,下面是对于指针的一个重新学习. C语言的指针&…

如何使用ssm实现基于java web的计算机office课程平台设计与实现+vue

TOC ssm277基于java web的计算机office课程平台设计与实现vue 绪论 1.1 研究背景 现在大家正处于互联网加的时代&#xff0c;这个时代它就是一个信息内容无比丰富&#xff0c;信息处理与管理变得越加高效的网络化的时代&#xff0c;这个时代让大家的生活不仅变得更加地便利…

WireShark网络分析~部署方式

一、《Wireshark网络分析就这么简单》 第一章学习 声明&#xff1a;文章只限于网络学习和实验&#xff0c;请遵守《网络安全法》。 第一章问题一&#xff1a;两台服务器A和B的网络配置如下(见图1)&#xff0c;B的子网掩码本应该是255.255.255.0&#xff0c;被不小心配成了255.…

LeetCode 热题100-37 二叉树的最大深度

二叉树的最大深度 给定一个二叉树 root &#xff0c;返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 示例 1&#xff1a; 输入&#xff1a;root [3,9,20,null,null,15,7] 输出&#xff1a;3示例 2&#xff1a; 输入&#xff1a;ro…

py 可视化图层

五张图&#xff1a;数据资源可联系1493175691qq.com import numpy as np import matplotlib.pyplot as plt from cartopy.mpl.ticker import LongitudeFormatter, LatitudeFormatter import cartopy.crs as ccrs import cartopy.feature as cfeature from cartopy.io.shaperead…

长亭雷池 WAF 部署及使用过程中遇到的问题

1、安装过程中遇到的问题 这里推荐使用官方的脚本命令&#xff0c;大概看了一下是先判断是否有容器&#xff0c;如果没有容器环境就安装&#xff0c;但是这一步就报错了。这里需要更换成阿里云或是国内其它的源来安装。 bash -c "$(curl -fsSLk https://waf-ce.chaitin.…

黑神话悟空丨资源合集,光追配置+修改器+各种奇奇怪怪的MOD

国产3A大作 黑神话悟空 推出了一些奇奇怪怪的mod(非官方)&#xff0c;作为一款备受瞩目的单机作品&#xff0c;黑神话悟空 不仅在剧情和画面上表现出色&#xff0c;同时也为玩家提供了丰富的Mod支持。 哈哈哈哈&#xff0c;总是就是奇奇怪怪&#xff0c;悟空被玩坏了&#xff…

unicode编码存在转义字符,导致乱码问题的解决方案

【前言】   本篇是为了记录一次解码出现乱码的解决方案&#xff0c;篇幅较短&#xff0c;废话不多说&#xff0c;请食用 【问题】后端针对一个字符串进行unicode编码后的&#xff0c;前端解码后出现乱码问题 unicode编码后的字符串&#xff0c;直接交给前端解码&#xff0c;…