数据分析案例(三):基于RFM分析的客户分群

news2024/11/19 18:25:52

实验2 基于RFM分析的客户分群

Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!

喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!"

一、实验目的

1掌握RFM分析方法和k-means聚类的方法,能够进行价值识别

2掌握Python 聚类的方法

3.EM聚类(基于高斯混合模型的EM聚类)

二、知识准备

RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在客户分类中,RFM模型是一个经典的分类模型利用通用交易环节中最核心的三个维度——最近消费(Recency)、消费频率(Frequency)、消费金额(Monetary)细分客户群体,从而分析不同群体的客户价值。

三、实验准备

1.使用算法:RFM模型、聚类算法

2. 数据来源

RFM数据集为英国在线零售商在2010年12月1日至2011年12月9日间发生的所有网络交易订单信息。该公司主要销售礼品为主,并且多数客户为批发商。

数据集介绍及来源:

https://www.kaggle.com/carrie1/ecommerce-data

https://archive.ics.uci.edu/ml/datasets/online+retail#

特征说明:

InvoiceNo:订单编号,由六位数字组成,退货订单编号开头有字母C

StockCode:产品编号,由五位数字组成

Description:产品描述

Quantity:产品数量,负数表示退货

InvoiceDate:订单日期与时间

UnitPrice :单价(英镑)

CustomerID:客户编号,由5位数字组成

Country:国家2. 操作环境

"This is a transnational data set which contains all the transactions occurring between 01/12/2010 and 09/12/2011 for a UK-based and registered non-store online retail.The company mainly sells unique all-occasion gifts. Many customers of the company are wholesalers."

3.后续学习:客户分类

Customer Segmentation | Kaggle

四、实验步骤

1、提出问题,确定目标

对。。。。。客户数据,探讨如何利用KMeans算法(EM聚类)对客户群体进行细分,以及细分后如何利用RFM模型对客户价值进行分析,并识别出高价值客户。主要希望实现以下三个目标:

1)对客户进行群体分类

2)对不同的客户群体进行特征分析,比较各细分群体的客户价值

3)对不同价值的客户制定相应的运营策略

2、数据获取

3、数据预处理

数据清洗缺失值异常值

变量转换、属性规约、标准化处理

(1)删除重复值

(2)查看缺失值比例

(3)删除缺失值严重的列

(4)删除订单异常值

根据官网https://www.kaggle.com数据介绍,InvoiceNo如果前缀是C,则表示退单号,且此时的Quantity(数量)是负数,因此需要删除这些数据!

(5)属性规约

(6)变量转换

(7)RFM——计算逻辑

R:最近一次购买时间R(Recency)

F:购买频率F(Frequency)

M:购买金额M(Money)

4、数据探索性分析(可视化显示)

(1)RFM-数量-季度,三维分析

(2)RFM组别数量关系

3RFM组别比例关系

(4)RFM字段相关性系数

5、建立模型和评价模型(聚成几类,效果好),聚类可视化

(1)数据提取

(2)数据标准化

(3)肘部法确定k值

(4)建立模型和评估模型

(5)聚类可视化

6、模型应用

会员升级?===============> 我觉得需要关注会员群体的比例!

积分兑换?===============> 普通群体也可以给少量积分兑换机制!

交叉销售?===============> 推荐的产品,可从rfm中r占比大的群体!

7、拓展思考(不用做)

本实验只针对客户价值进行分析,但客户流失并没有提出具体的分析,对客户流失有兴趣的,自己查阅资料学习

五、实验问题和体会

1、实验总结

        在本次实验过程中,由于本人想要探究RFM-季度-数量之间的关系,而数据集是2010年12月1日到2011年12月9日的数据,导致在划分季度的时候,2011年12月的数据是4季度,2011年12月的数据也是4季度。导致在计算R(Frequency)的时候,即季度最大时间-当前日期时间出现时间差=365天(1年)>90天(1季度)。

        这时候我反复检验之前实验记录,发现原来数据中的数据出现了跨年(即不同年的数据12月),因此导致即使同一个季度,时间差可以超过90天。因此本人采取数据规约的方式,抽取时间2011年01月01日到2011年12月01日的数据最为本次实验数据源。但是,这个决定也会导致一个问题,就是12月份的数据不全面,还差21天数据。

        本着尝试的心态,本人进行了一系列实验流程,进行数据标准化和k-means聚类后,最终发现实验准确率62.3%,而如果加上PCA降维,准确率会降低5%左右,因此本实验没有加上PCA降维,不知道会不会不妥?

        在探索性可视化实验过程中,我发现了原来RFM分组和季度没有明显关系(相关性系数显示:不足0.2),而其中RFM占比很大部分是222组合,最低的是331组合。

2结论建议

        经过上面的分析,得到了要分析的重点客户群体。可根据用户的量级分为两类:

        第1类是用户群体占比超过10%的群体;

        第2类是占比在个位数的群体。

        这两类人由于量级不同,因此需要分别有针对性的策略场景;

        第3类人群,虽然从用户量级上小,但是单个人的价值度非常高。

>>>第1类人群:

占比超过10%的群体。由于这类人群基数大,必须采取批量操作和运营的方式落地运营策略,一般需要通过系统或产品实现,而不能主要依赖于人工

222(占比17.1%):中等价值客户,企业可以通过提供个性化的优惠、加强客户关系维护等方式,进一步提升他们的满意度和忠诚度,进而增加他们的消费频次和金额,提升客户价值。

>>>第2类人群:

占比为1%~10%的群体。这部分人群数量适中,在落地时无论是产品还是人工都可接入

112(占比8.6%):可挽回的一般性群体。这类群体购买新近度低,说明距离上次购买时间较长,很可能用户已经处于沉默或预流失、流失阶段;购物频率低,说明对网站的忠诚度一般;订单金额处于中等层级,说明其还可能具有可提升的空间。因此,对这部分群体的策略首先是通过多种方式(例如邮件、短信等)触达客户并挽回,然后通过针对流失客户的专享优惠(例如流失用户专享优惠券)措施促进其消费。在此过程中,可通过增加接触频次和刺激力度的方式,增加用户的回访、复购以及订单价值回报

333(占比8%):绝对忠诚的高价值群体。虽然用户绝对数量只有355,但由于其各方面表现非常突出,因此可以倾斜更多的资源,例如设计VIP服务、专享服务、绿色通道等。另外,针对这部分人群的高价值附加服务的推荐也是提升其价值的重点策略

211(占比7.8%):可发展的低价值群体。这类群体相对于212群体在订单金额上表现略差,因此在211群体策略的基础上,可以增加与订单相关的刺激措施,例如组合商品优惠券发送、积分购买商品等

322(占比7.5%)、323(占比2.8%)和332(占比2.3%):有潜力的普通群体。这类群体最近刚完成购买,需要提升的是购买频次及购买金额。因此可通过交叉销售、个性化推荐、向上销售、组合优惠券、打包商品销售等策略,提升其单次购买的订单金额及促进其重复购买

212(占比4.1%):可发展的一般性群体。购买新近度和订单金额一般,且购买频率低。考虑到其最大的群体基础,以及在新近度和订单金额上都可以,因此可采取常规性的礼品兑换和赠送、购物社区活动、签到、免运费等手段维持并提升其消费状态。

233(占比6.6%)、223(占比3.6%)和133(占比1.2%):一般性的高价值群体。这类群体的主要着手点是提升新近购买度,即促进其实现最近一次的购买,可通过DM、电话、客户拜访、线下访谈、微信、电子邮件等方式直接建立用户挽回通道,以挽回这部分高价值用户

312(占比1.6%):有潜力的一般性群体。这类群体购买新近度高,说明最近一次购买发生在很短时间之前,群体对于公司尚有比较熟悉的接触渠道和认知状态;购物频率低,说明对网站的忠诚度一般;订单金额处于中等层级,说明其还具有可提升的空间。因此,可以借助其最近购买的商品,为其定制一些与上次购买相关的商品,通过向上销售等策略提升购买频次和订单金额

311(占比2.7%):有潜力的低价值群体。这部分用户与211群体类似,但在购物新近度上更好,因此对其可采取相同的策略。除此以外,在这类群体的最近接触渠道上可以增加营销或广告资源投入,通过这些渠道再次将客户引入网站完成消费。

111(占比6.4%):这是一类在各个维度上都比较差的客户群体。一般情况下,会在其他各个群体策略和管理都落地后才考虑他们。主要策略是先通过多种策略挽回客户,然后为客户推送与其类似的其他群体,或者当前热销的商品或折扣非常大的商品。在刺激消费时,可根据其消费水平、品类等情况,有针对性地设置商品暴露条件,先在优惠券及优惠商品的综合刺激下使其实现消费,再考虑消费频率以及订单金额的提升。

>>>第3类群体:

占比非常少,但却是非常重要的群体

213(占比0.8%):可发展的高价值群体。这类人群发展的重点是提升购物频率,因此可指定不同的活动或事件来触达用户,促进其回访和购买,例如不同的节日活动、每周新品推送、高价值客户专享商品等。

313(占比0.5%):有潜力的高价值群体。这类群体的消费新近度高且订单金额高,但购买频率低,因此只要提升其购买频次,用户群体的贡献价值就会倍增。提升购买频率上,除了在其最近一次的接触渠道上增加曝光外,与最近一次渠道相关的其他关联访问渠道也要考虑增加营销资源。另外,213中的策略也要组合应用其中

113(占比0.3%):可挽回的高价值群体。这类群体与112群体类似,但订单金额贡献更高,因此除了应用112中的策略外,可增加部分人工的参与来挽回这些高价值客户,例如线下访谈、客户电话沟通等

231(占比0.3%):较活高频低价值群体。企业应通过提供定制化的优惠和服务、加强互动沟通、了解客户需求并提供精准推荐等手段,来刺激他们的购买欲望并提升他们的消费价值。

131(占比0.2%):近期不活跃高频低价值群体,需要思考吸引该群体的商品种类,重新启动激活消费策略。

331(占比0.2):近期活跃高频低价值群体,企业应加强与他们的互动和沟通,提供个性化的优惠和推荐,深入分析他们的消费需求和习惯,并提供优质的客户服务,以维持和提升他们的消费价值和忠诚度。

 数据源在下载区啦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1594125.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

读书笔记:高效能人士的七个习惯

前言 恐惧感和不安全感 现代社会,太多的人饱受恐惧感的折磨。他们恐惧将来,恐惧失业,恐惧无力养家。这种弱点,常常助长了一种倾向:无论在工作时,还是回到家中,都倾向于零风险的生活&#xff0…

CMMI认证是什么?如何确定CMMI认证的目标和范围

CMMI(Capability Maturity Model Integration)认证是一种用于评估和改进组织软件和项目管理过程的框架。它由美国国防部软件工程所(SEI)开发,旨在帮助组织提高其软件和项目管理的成熟度水平。 CMMI认证的意义在于&…

Python求利率

要求 编写程序计算在给定利率、指定年数的情况下投资的未来值。这个计算公式如下。 使用文本域输入投资额、年份和利率。当用户单击“calculate”按钮时,在文本域中显示未来的投资值,如图所示。 代码实现 import tkinter as tkdef calculate():amou…

求圆、圆球和圆柱的面积和体积(C语言)

一、运行结果&#xff1b; 二、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h> //定义π常量的值&#xff1b; # define π 3.141526int main() {//初始化变量值&#xff1b;float r, h, S1, S2, P1, V1, V2;int judge 0;//提示用户&#x…

【Spring进阶系列丨第九篇】基于XML的面向切面编程(AOP)详解

文章目录 一、基于XML的AOP1.1、打印日志案例1.1.1、beans.xml中添加aop的约束1.1.2、定义Bean 1.2、定义记录日志的类【切面】1.3、导入AOP的依赖1.4、主配置文件中配置AOP1.5、测试1.6、切入点表达式1.6.1、访问修饰符可以省略1.6.2、返回值可以使用通配符&#xff0c;表示任…

设计模式之大话西游

8年前深究设计模式&#xff0c;现如今再次回锅&#xff5e; 还是大话设计模式 这本书还是可以的 大话西游经典的台词&#xff1a;“曾经有一份真挚的爱情摆在我面前,我没有珍惜,等我失去的时候,我才后悔莫及,人世间最痛苦的事莫过于此。如果上天能够给我一个再来一次的机会,我会…

内网通如何去除广告,内网通免广告生成器

公司使用内网通内部传输确实方便&#xff01;但是会有广告弹窗推送&#xff01;这个很烦恼&#xff01;那么如何去除广告呢&#xff01; 下载&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1CVVdWexliF3tBaFgN1W9aw?pwdhk7m 提取码&#xff1a;hk7m ID&#xff1a;…

大数据产品有哪些分类?各类里知名大数据产品都有哪些?

随着互联网技术的持续进步和全球数字化转型的推进&#xff0c;我们正处于一个数据爆炸的时代。在这样的大背景下&#xff0c;大数据已经逐渐崭露头角&#xff0c;成为了推动各行各业发展的关键因素和核心资源。大数据不仅仅是指数据的规模巨大&#xff0c;更重要的是它蕴含的价…

消除 BEV 空间中的跨模态冲突,实现 LiDAR 相机 3D 目标检测

Eliminating Cross-modal Conflicts in BEV Space for LiDAR-Camera 3D Object Detection 消除 BEV 空间中的跨模态冲突&#xff0c;实现 LiDAR 相机 3D 目标检测 摘要Introduction本文方法Single-Modal BEV Feature ExtractionSemantic-guided Flow-based AlignmentDissolved…

每日一题(leetcode238):除自身以外数组的乘积--前缀和

不进阶是创建两个数组&#xff1a; class Solution { public:vector<int> productExceptSelf(vector<int>& nums) {int nnums.size();vector<int> left(n);vector<int> right(n);int mul1;for(int i0;i<n;i){mul*nums[i];left[i]mul;}mul1;for…

阿迪Akamai 逆向 第二部分

声明&#xff1a; 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01;wx a15018601872 …

利用vip.item_get API接口,唯品会电商发展再上新台阶,VIP商品详情尽在掌握

唯品会作为中国领先的折扣电商平台&#xff0c;一直致力于为消费者提供高品质的商品和优质的服务。近年来&#xff0c;随着技术的不断发展和电商行业的竞争加剧&#xff0c;唯品会不断寻求创新&#xff0c;以满足消费者的多样化需求。在这个过程中&#xff0c;vip.item_get API…

深入理解大型项目服务器部署与数据库优化策略

我们先了解一下大概的数据量&#xff1a; 复杂的数据库语句&#xff1a;Mysql每秒大概可以执行100-200个 一台服务器就可以做到每秒几十个并发&#xff08;配置&#xff1a;4核8G&#xff09; 一万块钱的服务器的配置&#xff1a;16核32g内存4T硬盘 如果是微型的服务&#…

Elasticsearch中父子文档的关联:利用Join类型赋予文档的层级关系

码到三十五 &#xff1a; 个人主页 心中有诗画&#xff0c;指尖舞代码&#xff0c;目光览世界&#xff0c;步履越千山&#xff0c;人间尽值得 ! Elasticsearch是一个强大的搜索引擎&#xff0c;它提供了丰富的功能来满足复杂的搜索需求。其中&#xff0c;父子索引类型的join功…

离谱!奇安信人事总监透露:Web安全不会岗位这些就别投简历了

有人的地方就有江湖&#xff0c;有互联网安全的地方&#xff0c;就必然有Web安全工程师的身影。但其实Web安全是近几年才备受关注的&#xff0c;从事这方面的专业人员并不多&#xff0c;这就导致整个市场Web安全研究员的供求严重不平衡。 这种供求不平衡直接反映在Web安全研究…

Windows沙盒:sandboxie-plus工作原理及安装使用指导

文章目录 1、简介2、工作原理3、主要功能4、安装4.1、下载安装文件4.2、运行安装程序4.3、选择安装路径 5、使用方法6、总结 1、简介 Sandboxie是一款安全软件&#xff0c;也被称为沙箱。它的主要功能是创建一个隔离的虚拟环境&#xff0c;用户能够在其中运行或安装应用程序&a…

mmdetection模型使用mmdeploy部署在windows上的c++部署流程【详细全面版】

0. 前置说明: 该文档适用于:已经使用mmdetection训练好了模型,并且完成了模型转换。要进行模型部署了。 1. 概述 MMDeploy 定义的模型部署流程,如下图所示: 模型转换【待撰写,敬请期待…】 主要功能是:把输入的模型格式,转换为目标设备的推理引擎所要求的模型格式…

973: 统计利用先序遍历创建的二叉树叶结点的个数

解法&#xff1a; #include<iostream> #include<queue> using namespace std; // 定义二叉树结点 struct TreeNode {char val;TreeNode* left;TreeNode* right;TreeNode(char x) :val(x), left(NULL), right(NULL) {}; }; // 先序递归遍历建立二叉树 TreeNode* bu…

C++11---多线程

看前须知&#xff1a;如果对线程不了解的&#xff0c;可以先去看Linux---多线程(上)&#xff0c;(下)这两篇文章 那里主要讲了线程的一些基础概念和底层相关理解&#xff0c;对我们阅读这篇文章会有所帮助 一、thread --- 线程 1、thread相关接口介绍 在C11之前&#xff0c;涉…

汇编语言程序设计-1-绪论

1. 绪论 文章目录 1. 绪论1.1 导学1.2 为什么要学汇编语言1.3 由机器语言到汇编语言1.4 计算机的组成1.5 内存的读写与地址空间1.6 汇编语言实践环境搭建 参考视频&#xff1a;烟台大学贺利坚老师的网课《汇编语言程序设计系列专题》&#xff0c;或者是B站《汇编语言程序设计 贺…