【电商API接口项目实战分享】项目实战案例一:电商平台零售数据分析

news2024/9/24 19:13:51

本文以真实案例,带领大家一起学习如何搭建电商零售的用户画像。

“项目介绍”


此次项目数据来自Kaggle,包含了2010年12月1日至2011年12月9日在英国注册的非实体网上零售发生的所有交易。

字段如下:

  • Invoice: 订单编号,每笔交易有6个整数。

  • StockCode: 产品编号,由5个整数组成。

  • Description: 产品描述。

  • Quantity: 产品数量,有负号的表示退货。

  • InvoiceDate: 订单日期和时间。

  • Price: 单价(英镑),单位产品的价格

  • Customer ID:客户编号,每个客户编号由5位数字组成。

  • Country:国家的名称,每个客户所在国家/地区的名称。

“RFM模型介绍”


RFM模型是一种用户分类模型,通过对比分析不同用户群体在时间、地区等维度下的交易量、交易金额指标,并根据分析结果提出优化建议。

  • R(Recency):最近一次消费时间(最近一次消费到参考时间的长度)

  • F(Frequency):消费的频次(单位时间内消费了多少次)

  • M(Money):消费的金额(单位时间内总消费金额)

下面是项目实战的代码实现过程:

01 导入库


本例所需的库包括pandas、numpy、matplotlib、seaborn、datetime、os六个模块。

图片

  • Pandas:Pandas有两种结构,分别是Series和DataFrame。其中Series拥有Numpy的所有功能,可以认为是简单的一维数组;而DataFrame是将多个Series按列合并而成的二维数据结构,每一列单独取出来是一个Series。

  • Numpy:Numpy是Python语言的一个扩充程序库。支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。

  • Matplotlib:Matplotlib用于在 Python 中创建静态、动画和互动的可视化

  • Seaborn:Seaborn是一种开源的数据可视化工具,它在Matplotlib的基础上进行了更高级的API封装,因此可以进行更复杂的图形设计和输出。Seaborn是Matplotlib的重要补充,可以自主设置在Matplotlib中被默认的各种参数,而且它能高度兼容Numpy与Pandas数据结构以及Scipy与statsmodels等统计模式。

  • Datetime:datetime是Python处理日期和时间的标准库。

  • os:os.chdir() 方法用于改变当前工作目录到指定的路径。

02 数据准备


此处使用Pandas的read_excel方法读取数据文件,并使用info函数查看数据类型。

图片

图片

03 数据预处理


  • (1)缺失值处理

利用lambda函数对缺失值进行统计。

图片

结果如下图:

图片

可以发现Description和Customer ID字段存在缺失值。Description字段对本项目分析意义不大,可以直接删除;对Customer ID字段的缺失部分进行填充,用‘U’表示缺失。

图片

  • (2)日期处理

提取日期、时间、年、月、日。

图片

结果如下图:

图片

  • (3)重复值处理

使用drop_duplicates函数对重复值进行删除。

图片

  • (4)异常值处理

使用describe函数对数据进行探索性分析。

图片

可以发现对Price(单价)列有负数,因此需要对Price列的异常值进行处理。

首先计算异常值比例:

图片

查看具体的异常值:

图片

共2512条异常记录,其中单价为负数有2条,单价为0有2510条,单价为0可能是促销产品,因此我们只对负数进行剔除:

图片

为了后续分析,需要增加amount列:

图片

结果如下图:

图片

04 数据分析


  • (1)退货率计算

利用数据透视表计算退货金额。

图片

结果如下图:

图片

再利用数据透视表计算成功交易订单总金额。

图片

结果如下图:

图片

最后计算退货率:

图片

图片

绘制2011年各月份退货率折线图:

图片

图片

结果如下图:

图片

  • (2)RFM模型分析

计算R、F、M三个指标的值。

图片

对R进行探索性分析:

图片

可以发现客户最近一次消费到参考时间的最大时间间隔为373天,平均时间间隔92天。

绘制柱状图如下:

图片

结果如下图:

图片

对F进行探索性分析:

图片

绘制柱状图如下:

图片

M指标的柱状图如下:

图片

客户等级划分

图片

图片

结果如下图:

图片

绘制柱状图:

图片

图片

绘制饼图:

图片

图片

05 结论和建议


(1)针对退货订单,2011年1月与12月退货率存在异常,我们需要了解是外部因素还是内部因素所导致的,从产品、渠道、价格、促销四个方面来分析具体的原因加以改进。

(2)根据用户分层得到八类客户,针对不同的客户需要采取不同的营销手段。根据数据可知,客户最多的类别是重要价值客户和重要发展客户,这类客户是为公司创造价值的主力军。对于重要发展客户,由于最近消费频次较少,建议公司获取相关信息来挽回客户;对于一般挽留客户和一般发展客户,获取用户的详细数据分析用户画像,了解客户的消费需求,进行精准的营销,即时推送产品信息;对于重要保持客户和重要挽留客户,以赠送优惠券或推送折扣等活动来增加客户活跃度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1981699.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在IoT中的TCP增强

本文内容节选自一篇系统性文献综述(Systematic Literature Review, SLR),标题为“TCP Performance Enhancement in IoT and MANET”,由 Sultana Parween 和 Syed Zeeshan Hussain 撰写,发表在《International Journal …

F4Pan网盘解析获取下载链接的工具系统源码

F4Pan网盘解析获取下载链接的工具系统源码,F4Pan(下称本项目)使用的接口全部来自于官方,无任何破坏接口的行为,本项目所有代码全部开源,仅供学习参考使用,请遵守相关的法律法规,禁止商用,若无视…

【网络安全】本地文件包含及远程文件包含漏洞详解

一、文件包含漏洞概述 1.1 什么是文件包含 开发人员将需要重复调用的函数写入一个文件,对该文件进行包含时产生的操作。这样编写代码能减少冗余,降低代码后期维护难度。 保证网站整体风格统一:导航栏、底部footer栏等,把这些不…

从‘古都’到‘数都’,西安数字产业园龙头正式落地,西安国际数字影像产业园汇聚全球智慧赋能产业升级

在全球数字化浪潮的推动下,数字影像产业正成为科技创新和经济发展的新引擎。作为一座历史与现代交汇的城市,西安正以前所未有的姿态迈向数字经济的新高地。近日,西安数字产业园龙头落地——西安国际数字影像产业园,这不仅是西安市…

MySQL—— Navicat的下载、Navicat连接MySQL的方法、创建表和导入数据

文章目录 Navicat的下载Navicat与MySQL连接创建数据库和表导入数据 Navicat的下载 这里直接提供Navicat 16 版本的下载连接,自取后按照步骤操作即可: 链接: https://pan.baidu.com/s/1JChDTjtvfXKHrE0L2l4A6w 提取码: 1822 Navicat与MySQL连接 点击连…

好酒的五个标准,你知道几个

1.不辣喉 白酒在下咽的过程中不辛辣刺激喉咙,也没有过于灼烧的感觉,口感较为温润,几杯过后,身体就会微微出汗。 2.不上头 白酒在饮用时会较长时间处于微醺的美好状态,头脑清醒,身体放松,不会…

自动化测试常见问题总结

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 选择适合自己的,落地应用,是当下我们应该做的。目前国内的互联网行业,大环境来说,还处在一个快速发展,…

Django异步请求和后台管理实战

项目概述 项目实现Ajax异步请求局部刷新使用XAdmin后台模板提供图片上传接口在明细页应用了富文本编辑器在加载图书信息的时候使用LazyLoad(图片懒加载) # 环境 asgiref3.7.2 crispy-bootstrap32024.1 defusedxml0.7.1 diff-match-patch20230430 Djang…

内网穿透原理,免费内网穿透(简单使用),公网主动访问内网。

内网穿透的本质就是流量转发,把一个电脑的网卡上的流量数据,转发到另一个网卡的流量数据。 实现原理 网络协议分层就是,物理层,数据链路层,网络层,传输层,应用层。我简单解释一下这些分层协议…

全球情绪分析软件市场规划预测:未来六年CAGR为13.6%

一、引言 随着人工智能和机器学习技术的进步,情绪分析软件市场正迅速成为科技行业的重要组成部分。本文旨在探索情绪分析软件行业的发展趋势、潜在商机及其未来展望。 二、市场趋势 全球情绪分析软件市场的增长主要受企业对客户反馈分析的需求增加、社交媒体监控的…

河底地形的表达形式及与倾斜模型的融合效果

0序: 无人机航测可以解决地表的现状获取,做流域管理,河道管理,生态管理的经常关注河床的变化。其中淤泥的堆积状态是关注的重中之重。 当前对水下高程的测绘,主要是使用无人测量船。设定个轨迹,就和无人机…

03、DQL(数据查询语句)

目录 1、编写顺序 2、基本查询 3、条件查询 4、聚合函数 5、分组查询 6、排序查询 7、分页查询 8、执行顺序 1、编写顺序 SELECT 字段列表 FROM 表名列表 WHERE 条件列表 GROUP BY 分组字段列表 HAVING 分组后条件列表 ORDER BY 排序字段列表 LIMIT 分页参数2、基本查…

手写chatGPT——fetch解析text/event-stream会话流并逐字回显到页面——js技能提升

直接上效果图&#xff1a; 页面分上下两部分&#xff0c;上面是会话界面&#xff0c;底部是提交框。 直接上代码&#xff1a; 解决步骤1&#xff1a;引入vueelementUi <head><meta charset"UTF-8" /><title>Fetch Stream Example</title>…

【java计算机毕设】社团管理系统MySQL springboot vue maven项目设计源码代码+文档 前后端可分离也可不分离

目录 1项目功能 2项目介绍 3项目地址 1项目功能 【java计算机毕设】社团管理系统MySQL springboot vue maven项目设计源码代码文档 前后端可分离也可不分离 2项目介绍 系统功能&#xff1a; 社团管理系统包括管理员、团长、学生三种角色。 管理员功能包括个人中心模块用于修…

ElasticSearch集成webFlux响应式开发

目录 前言 1.Weflux特点&#xff1a; 2.WebFlux简单集成ElasticSearch 2.1 引入基本依赖模块 3.application.yml文件的配置 4.定义Product实体类 5.定义ElasticSearch的数据访问层接口 6.定义Controller 7.启动SpringBoot程序&#xff0c;用postman进行接口测试 前言 We…

mysql的 undo log、redo log、bin log、buffer pool

文章目录 Buffer Pool为什么需要Buffer PoolBuffer Pool 缓存了什么 Redo log为什么需要 redo log&#xff1f;redo log 什么时候刷盘&#xff1f;redo log 文件写满了怎么办&#xff1f; undo log 本文章内容都来自小林coding博主&#xff0c;基于他的文章内容&#xff0c;加一…

保研408真题练习:2010年全国硕士研究生入学统一考试(单选篇1)

&#x1f9ca;&#x1f9ca;&#x1f9ca;单项选择题&#xff08;共40道&#xff09; &#x1f9ca;数据结构&#xff08;11道&#xff09; &#x1f965;1.2.考察的都是栈和队列的入栈&#xff08;队&#xff09;出栈&#xff08;队&#xff09;问题 这道题目重点是掌握各种…

linux网络编程(2)

什么是多线程服务器&#xff1f; 先认识什么是单线程服务器 就是服务器只处理一个客户端信息。 多线程服务器类似的&#xff0c;就是处理很多个客户端的信息。 多进程服务器的核心理念 使用while循环&#xff0c;让服务器一直处于接收状态&#xff0c;每接收到一个客户端&am…

翰德恩赋能新能源龙头企业硬件敏捷研发

该企业始创于1984年&#xff0c;是全球知名的智慧能源系统解决方案提供商。创立40年来&#xff0c;形成了集“发电、储电、输电、变电、配电、售电、用电”为一体的全产业链优势&#xff0c;业务遍及140多个国家和地区&#xff0c;拥有4大全球研发中心&#xff0c;建立6大国际营…

Ldap未授权访问漏洞

LDAP中文全称为&#xff1a;轻型目录访问协议&#xff08;Lightweight Directory Access Protocol&#xff09;&#xff0c;默认使用389&#xff0c; LDAP 底层一般使用 TCP 或 UDP 作为传输协议。目录服务是一个特殊的数据库&#xff0c;是一种以树状结构的目录数据库为基础。…