一、项目背景
通过"扫描"零售商店电子销售点个别产品的条形码而获得的消费品销售的详细数据。
这些数据提供了有关所售商品的数量、特征和价值以及价格的详细信息。
二、数据来源
https://www.kaggle.com/marian447/retail-store-sales-transactions
三、提出问题
-
消费情况分析及用户购买模式分析
-
RFM和CLV分析
-
不同类别商品关联规则挖掘
四、理解数据
-
Date:购买日期
-
Customer_ID:用户ID
-
Transaction_ID:交易ID
-
SKU_Category:商品分类SKU编码
-
SKU:商品唯一SKU编码
-
Quantity:购买数量
-
Sales_Amount:购买金额
👇 👇 👇 更多精彩机密、教程,尽在下方,赶紧点击了解吧~
素材、视频教程、完整代码、插件安装教程我都准备好了,直接在文末名片自取就可
五、数据清洗
1.导入数据
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
%matplotlib inline
更改设计风格
plt.style.use('ggplot')
plt.rcParams['font.sans-serif'] = ['SimHei']
2.选择子集
第一列为数据编号,已有索引故删除
df.drop(columns='Unnamed: 0', inplace=True)
df.info()
3.删除重复值
df.duplicated().sum()
数据无重复值
4.缺失值处理
df.isnull().sum()
数据无缺失值
5.标准化处理
df.dtypes
Date为对象类型,需要标准化为日期类型格式
df.Date = pd.to_datetime(df.Date, format='%d/%m/%Y')
df.dtypes
6.异常值处理
df[['Quantity','Sales_Amount']].describe()
购买数量存在小于1是由于称重单位不足1所致,非异常值
六、分析内容
1.消费情况按月分析
(1)每月消费总金额趋势分析
df['Month'] = df.Date.astype('datetime64[M]')
df.head()
grouped_month.Sales_Amount.sum().head(12).plot()
由上图可知:消费金额波动较大,其中第一季度保持持续上升,后续波动较大,整体呈上升趋势
(2)每月交易次数趋势分析
grouped_month.Transaction_ID.nunique().head(12).plot()
由上图可知:交易次数波动较大,前期呈上升趋势,五月之后交易次数开始下降,在八月降至最低值,后续开始波动回升,在十二月份重回峰值
(3)每月商品购买数量趋势分析
grouped_month.Quantity.sum().head(12).plot()
由上图可知:商品购买数量波动较大,整体趋势同交易次数保持一致
(4)每月消费人数趋势分析
grouped_month.Customer_ID.nunique().head(12).plot()
由上图可知:每月购买人数可分简单为三个阶段,1-5月呈持续上升趋势,6—8呈持续下降趋势,9-12月呈波动上升趋势
2.用户分布分析
(1)新用户分布
grouped_customer = df.groupby('Customer_ID')
grouped_customer.Date.min().value_counts().plot()
由上图可知:新用户获取不稳定,波动较大,整体有略微下降趋势
grouped_customer.Month.min().value_counts().plot()
由上图可知:按月统计,每月新用户用户数有明显下降趋势。
说明新用户获取呈大幅下降趋势,需要引起注意,适当增加营销活动提升新用户的获取
(2)一次消费及多次消费用户占比分析
#仅消费一次用户占比
(grouped_customer.Transaction_ID.nunique() == 1).sum()/df.Customer_ID.nunique()
由计算得:存在一半的用户只进行了一次消费
#Date_x等于Date_y则为每月新用户
((merged_date.query('Date_x == Date_y')).groupby('Month').Customer_ID.count() / merged_date.groupby('Month').Customer_ID.count()).plot()
由上图可知:每月新用户占比整体呈下降趋势,结合每月消费人数趋势可知,第四季度消费人数有上升趋势,故期间复购人数有所提升
3.用户分层分析
(1)RFM分层分析
由上表及图可知:
-
销售额主要来源重要保持客户,人数占比最高的为一般发展客户
-
重要保持客户:销售额的主要来源,近期有消费,且消费高,消费频率不足,可以适当举行营销活动,提升此层客户的购买频率
-
重要价值客户:销售额的第二来源,近期有消费,消费高,频率高,尽可能使该层客户保持现状
-
重要发展客户:消费以及消费频次高,近期没有消费,可以使用适当策略召回用户,参与消费
-
重要挽留客户:消费高,但频次低且近期未消费,处在流失的边缘,可以通过适当活动,使其参与到消费中来,防止流失
-
一般价值客户:消费低,消费频率高且近期有消费,可以使用优惠券等形式活动刺激该层客户的消费,提升其消费额
-
一般发展客户:人数占比最高,近期有消费,但消费额以及消费频次不高,考虑到人数占比高,可以适当举办活动提升消费频次和消费额
-
一般保持客户:在成本与资源控制下,酌情考虑
-
一般挽留客户:在成本与资源控制下,酌情考虑
(2)用户状态分层分析
由上图可知:
-
新用户:新用户占比呈明显下降趋势,说明拉新运营不足
-
活跃用户:在二月占比达到最高,后续呈缓慢下降趋势,说明消费运营正在下滑
-
不活跃用户:不活跃用户呈明显上升趋势,客户流失较为明显
-
回流客户:有缓慢上升趋势,说明召回运营不错
4.用户生命周期分析
(1)用户生命周期分布
plt.scatter(x='lifetime', y='Sales_Amount', data=clv)
由上图可知:
-
用户生命周期与其期间客户价值不存在线性关系,当生命周期在300天内,部分生命周期较长用户贡献的价值高于生命周期较短的用户;
-
当生命周期大于300天,存在部分用户贡献价值较少,由于数据量不足等原因,结果仅供参考
5.回购率与复购率分析
(1)复购率分析
6.商品关联规则挖掘
(1)分析热销商品
尾语
感谢你观看我的文章呐~本次航班到这里就结束啦 🛬
希望本篇文章有对你带来帮助 🎉,有学习到一点知识~
躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。