利用Python群组分析方法剖析客户行为

news2025/1/24 17:53:05

大家好,如今的企业有能力收集大量的数据,这些数据可以帮助企业制定更好的策略并了解其客户的行为。Cohort分析可以在其中发挥作用,Cohort分析是一种了解客户行为或用户互动的强大工具,并为企业提供有价值的见解,本文中将介绍如何使用Python进行Cohort分析。

Cohort分析

Cohort分析是一种经常在市场营销、客户忠诚度、用户体验和产品开发等领域使用的数据分析技术。通过这种分析方法,我们可以详细了解特定时期内人群或群体的行为。Cohort用于识别具有相似特征或经历的人群或群体。

例如,对于电子商务业务,可以使用Cohort分析来监测不同的群体,比如客户群体、来自特定地区的群体或偏好特定产品类别的群体。通过这种分析,我们可以研究特定群体在一段时间内的行为和倾向。

应用Cohort分析

本文有一个由12个表组成的关系数据库,将在Python通过MS SQL从这个表中提取所需的特征。在进行必要的预处理操作后,本文将使数据适合进行分析。

本文需要两个特征,分别是客户ID和订单日期。本文的目标是查看能够保留多少客户,并在其首次到达日期后的每个月基础上保留多长时间。

本文想要的特征包含在一个单独的表中,因此在查询过程中,不需要从其他表中提取属性。然而,为了举例说明,假设本文将在两个表上工作,接下来使用MS SQL中的JOIN获取本文想要的特征。

SELECT * FROM ORDERS

图片

SELECT * FROM USERS

图片

SELECT U.ID, O.DATE_ FROM USERS U JOIN ORDERS O ON U.ID= O.ID

图片

本文通过JOIN从USERS和ORDERS表中调用具有相同ID值的属性,为了在Python中进行分析,本文将访问该数据库,在其中运行我们的查询,并将数据作为数据帧在我们的操作中使用。

首先导入本文所需要的库:

import pandas as pd
import sqlalchemy as sa
import urllib
from datetime import datetime

在第二步中,本文使用urllib.parse.quote_plus函数来保护连接字符串免受环境因素的影响,并将连接信息写入这个将用于连接SQL Server数据库的字符串中。

params = urllib.parse.quote_plus("DRIVER={SQL Server};"
 "SERVER=DESKTOP-F3H252;"
 "DATABASE=E-COMMERCE;")

注:如果不知道服务器名称,可以通过查询"SELECT @@SERVERNAME"来找到它。

接下来,本文使用"SQLAlchemy (sa)"库创建与SQL Server数据库的连接,使用"sa.create_engine"函数,我们可以利用连接字符串和其他连接设置创建一个链接引擎。"odbc_connect"参数用于ODBC连接,并包含之前转换的连接字符串。

engine = sa.create_engine("mssql+pyodbc:///?odbc_connect={}".format(params))

在下一步中将创建一个SQL查询,使用查询"SELECT U.ID, O.DATE_ FROM USERS U JOIN ORDERS O ON U.ID= O.ID"来获取我们想要的特征。

qry ="SELECT U.ID, O.DATE_ FROM USERS U JOIN ORDERS O ON U.ID= O.ID"

我们通过"engine"对象建立数据库连接,并在"with"代码块中使用该连接,我们使用"con.execute(qry)"运行SQL查询并获取结果集(rs),最后将结果集转换为Pandas DataFrame。

with engine.connect() as con:
    rs = con.execute(qry)
    df = pd.DataFrame(rs)

图片

我们知道没有缺失数据,但在这一点上检查并消除它。

df.isnull().sum()
ID 0

DATE_ 0

dtype: int64

由于我们将按月进行工作,所以小时数对我们来说并不重要,所以我们首先要删除小时数,然后再删除天数。首先,我们将日期列(DATE_)转换为日期时间格式,然后只获取日期。

df['DATE_'] = pd.to_datetime(df['DATE_'])
df['DATE_'] = df['DATE_'].dt.date

图片

本文的下一步行动是删除天数,接下来为此定义一个lambda函数,希望保留年份和月份的值。datetime(x.year, x.month, 1)将使用年份和月份信息创建一个新的日期对象,其中包含该月的第一天。

get_year_month = lambda x: datetime(x.year, x.month, 1)

接下来使用这个函数创建一个新的变量,并将新数据存储在'DATE_MONTH'列中。

df['DATE_MONTH'] = df['DATE_'].apply(get_year_month)

将根据客户ID对要执行的流程进行分组,并通过创建'COHORT_MONTH'变量在这一列中保留每个客户的首次到达日期。

user_first_date = df.groupby('ID')['DATE_MONTH']
df['COHORT_MONTH'] = user_first_date.transform('min')

图片

当我们查看所获得的值时,如果对第一个订单日期和其他订单日期进行评估,就可以很容易地找到差异,可以通过创建一个新的'COHORT_INDEX'变量,将差异保留在这一列中。

years_diff = df['DATE_MONTH'].dt.year - df['COHORT_MONTH'].dt.year
months_diff = df['DATE_MONTH'].dt.month -df['COHORT_MONTH'].dt.month
df['COHORT_INDEX'] = years_diff * 12 + months_diff + 1

接下来计算每个首次到达日期的活跃客户的月度数量,通过分组创建名为cohort_data的数据帧,其中包含了每个月首次到达的唯一客户数量。

grouping_count = df.groupby(['COHORT_MONTH', 'COHORT_INDEX'])
cohort_data = grouping_count['ID'].apply(pd.Series.nunique)
cohort_data = cohort_data.reset_index()
cohort_data.head()

图片

进而将cohort_data数据帧整理到数据透视表中,并创建一个名为cohort_user_counts的新数据帧,该数据帧将包含每个群体的月活跃客户数量,计算每个客户的活跃百分比,通过将每个月群体中的客户数除以初始客户数来实现此目的。

cohort_sizes = cohort_user_counts.iloc[:,0]
retention = cohort_user_counts.divide(cohort_sizes, axis=0)
retention.index = retention.index.strftime('%m-%Y')

图片

最后在热图上可视化retention数据帧:

sns.set(style = 'white')
plt.figure(figsize = (15, 6))
plt.title('Cohort: Retention rate by month')
sns.heatmap(
            retention
            ,cmap = plt.cm.Reds
            ,annot = True
            ,fmt = '.0%'
            )
plt.xlabel("Ongoing months"
plt.ylabel("First arrival date")
plt.show()

图片

如上所述,图表中的百分比表达的是活跃率,从中可以推断出的内容回答了可以保留客户多长时间的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1205717.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

优雅的Java编程:将接口对象作为方法参数

theme: smartblue 目录 概述 在Java编程中,方法的参数传递方式通常是通过基本类型、对象引用或者集合等方式。然而,一种更加优雅且灵活的设计模式是将接口对象作为方法的参数。这种方式为我们带来了许多好处,包括降低耦合性、实现多态性和可…

微信小程序display常用属性和子元素排列方式介绍

wxss中display常用显示属性与css一致,介绍如下: 针对元素本身显示的属性: displayblock,元素显示换行displayinline,元素显示换行,但不可设置固定的宽度和高度,也不可设置上下方向的margin和p…

postgreSQL中的高速缓存

1. 高速缓存简介 ​如下图所示,当一个postgreSQL进程读取一个元组时,需要获取表的基本信息(例如:表的oid、索引信息和统计信息等)及元组的模式信息,这些信息被分别记录在多个系统表中。通常一个表的模式信…

2019年12月 Scratch(一级)真题解析#中国电子学会#全国青少年软件编程等级考试

一、单选题(共25题,每题2分,共50分) 第1题 下列关于舞台的描述,不正确的是? A:Scratch只能设置一个舞台 B:舞台不能进行编程 C:舞台可以有多个背景 D:舞台上可以有角色 答案:B A选项,scratch只有一个舞台,B选项,可以在舞台区进行编程,例如切换背景,设置背景…

[pytorch]设备选择以及卷积神经网络的应用

0.写在前面: 首先这篇文章还没写完,因为今天要尝试对我之前的一个框架做一个简单的更新迭代,所以目前先更新这么多. 1.关于设备的选择 首先,目前的大多数电脑都是自带一些GPU(图形计算单元,在这里被称之为cuda), 需要安装相关的驱动才能正常使用这些设备和调用他们的具体情况…

在Vue.js中,什么是Vuex?它的作用是什么?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

Model Inspector—软件模型静态规范检查工具

产品概述 Model Inspector(MI)原厂商是韩国Suresoft,是KOLAS国际公认测评机构,旨在提升安全关键领域软件可信度。MI用于开发过程中模型的静态检查,包括规范检查、复杂度度量,提供MAAB、HIS、CG、MISRA_AC_…

C++模拟实现——AVL树

AVL树 1.介绍 AVL树是对搜索二叉树的改进,通过特定的方法使得每个节点的左右子树高度差绝对值不超过1,使得避免出现歪脖子的情况,最核心的实现在于插入值部分是如何去实现平衡调整的,由于前面详细实现和解析过搜索二叉树&#x…

算法笔记-贪心1

算法笔记-贪心 什么是贪心算法分配饼干例题理解二分割字符串最优装箱整数配对最大组合整数分配区间问题买股票的最佳时机区间选点 问题什么是贪心算法 分配饼干例题 //贪心算法 //保证局部最优,从而使最后得到的结果是全局最优的 #include<iostream> #include<a…

No199.精选前端面试题,享受每天的挑战和学习

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云课上架的前后端实战课程《Vue.js 和 Egg.js 开发企业级健康管理项目》、《带你从入…

Android framework添加自定义的Product项目,lunch目标项目

文章目录 Android framework添加自定义的Product项目1.什么是Product&#xff1f;2.定义自己的Product玩一玩 Android framework添加自定义的Product项目 1.什么是Product&#xff1f; 源码目录下输入lunch命令之后&#xff0c;简单理解下面这些列表就是product。用于把系统编…

Transformers 中原生支持的量化方案概述

本文旨在对 transformers 支持的各种量化方案及其优缺点作一个清晰的概述&#xff0c;以助于读者进行方案选择。 目前&#xff0c;量化模型有两个主要的用途: 在较小的设备上进行大模型推理对量化模型进行适配器微调 到目前为止&#xff0c;transformers 已经集成并 原生 支持了…

阿里云添加端口

目录 阿里云添加端口的方法与步骤详解 一、登录阿里云控制台 二、创建安全组 三、添加入站规则 四、添加出站规则 五、完成添加端口操作 也可 1&#xff1a;搜索轻量级服务器 2&#xff1a;点击服务器 3&#xff1a;点击添加规则 4&#xff1a;保存即可 总结 阿里云…

Redis 常用的类型和 API

前言 在当今的软件开发中&#xff0c;数据存储与操作是至关重要的一部分。为了满足日益增长的数据需求和对性能的追求&#xff0c;出现了许多不同类型的数据库。其中&#xff0c;Redis 作为一种基于内存且高性能的键值存储数据库&#xff0c;因其快速的读取速度、丰富的数据结…

Flink SQL --命令行的使用(02)

1、窗口函数&#xff1a; 1、创建表&#xff1a; -- 创建kafka 表 CREATE TABLE bid (bidtime TIMESTAMP(3),price DECIMAL(10, 2) ,item STRING,WATERMARK FOR bidtime AS bidtime ) WITH (connector kafka,topic bid, -- 数据的topicproperties.bootstrap.servers m…

Javaweb之javascript事件的详细解析

1.6 JavaScript事件 1.6.1 事件介绍 如下图所示的百度注册页面&#xff0c;当我们用户输入完内容&#xff0c;百度可以自动的提示我们用户名已经存在还是可以使用。那么百度是怎么知道我们用户名输入完了呢&#xff1f;这就需要用到JavaScript中的事件了。 什么是事件呢&…

拆位线段树 E. XOR on Segment

Problem - E - Codeforces 区间求和&#xff0c;区间异或的操作跟线段树的区间求和、区间相见相似&#xff0c;考虑用线段树。 发现数组初始值最多是1e6&#xff0c;有不到25位&#xff0c;可以知道异或最大值是这些位数全是1的情况。 发现可以对每一位进行运算就和。 我们开…

图论14-最短路径-Dijkstra算法+Bellman-Ford算法+Floyed算法

文章目录 0 代码仓库1 Dijkstra算法2 Dijkstra算法的实现2.1 设置距离数组2.2 找到当前路径的最小值 curdis&#xff0c;及对应的该顶点cur2.3 更新权重2.4 其他接口2.4.1 判断某个顶点的连通性2.4.2 求源点s到某个顶点的最短路径 3使用优先队列优化-Dijkstra算法3.1 设计内部类…

通过Python设置及读取PDF属性,轻松管理PDF文档

PDF文档属性是嵌入在PDF文档中的一些与文档有关的信息&#xff0c;如作者、制作软件、标题、主题等。PDF属性分为默认属性和自定义属性两种&#xff0c;其中默认属性是一些固定的文档信息&#xff0c;部分信息自动生成&#xff08;如文件大小、页数、页面大小等信息&#xff09…

Linux上C++通过LDAP协议使用kerberos认证AES加密连接到AD服务器

一.前言 记录自己在实现这个流程遇到的各种问题&#xff0c;因为我也是看了许多优质的文章以及组内大佬的帮助下才弄成的&#xff0c;这里推荐一个大佬的文章&#xff0c;写的非常优秀&#xff0c;比我这篇文章写得好得很多&#xff0c;最后我也是看这个大佬的代码最终才实现的…