超市销售数据-python数据分析项目

news2025/1/16 15:39:25

Python数据分析项目-基于Python的销售数据分析项目

文章目录

  • Python数据分析项目-基于Python的销售数据分析项目
  • 项目介绍
    • 数据
    • 分析结果导出
    • 数据查阅
  • 数据分析内容
    • 哪些类别比较畅销?
    • 哪些商品比较畅销?
    • 不同门店的销售额占比
    • 哪个时间段是超市的客流高封期?
    • 查看源数据类型
    • 计算本月的相关的指标
    • 计算上月相关指标
    • 计算去年同期相关指标
    • 创建DataFrame 添加同比和环比字段

项目介绍

数据

在这里插入图片描述
在这里插入图片描述

分析结果导出

在这里插入图片描述

近些年来,国内大型连锁超市如雨后春笋般迸发,对于各个超市来说,竞争压力不可谓 不大,为了拓展、保留客户,各种促销手段应运而生。 以下为国内某连锁超市的成交统计数据,针对于该数据,挖掘其中价值,为该超市的促销手段提供技术支持。

数据查阅

import pandas as pd
from datetime import datetime

# 导入数据源,parse_dates:将时间字符串转为日期时间格式
data=pd.read_csv("order-14.3.csv",parse_dates=["成交时间"],encoding='gbk')
print(data.shape)
data.head()

(3478, 7)
商品ID	类别ID	门店编号	单价	销量	成交时间	订单ID
0	30006206	915000003	CDNL	25.23	0.328	2017-01-03 09:56:00	20170103CDLG000210052759
1	30163281	914010000	CDNL	2.00	2.000	2017-01-03 09:56:00	20170103CDLG000210052759
2	30200518	922000000	CDNL	19.62	0.230	2017-01-03 09:56:00	20170103CDLG000210052759
3	29989105	922000000	CDNL	2.80	2.044	2017-01-03 09:56:00	20170103CDLG000210052759
4	30179558	915000100	CDNL	47.41	0.226	2017-01-03 09:56:00	20170103CDLG000210052759

数据分析内容

哪些类别比较畅销?

# ascending=False 降序
data.groupby("类别ID")["销量"].sum().reset_index().sort_values(by="销量",ascending=False).head(10)
  1. data.groupby("类别ID")["销量"].sum(): 这一部分首先对数据集 data 按照 “类别ID” 进行分组,然后针对每个类别的销量("销量"列)进行求和操作。

  2. .reset_index(): 对分组后的结果进行重置索引,将其转换为一个新的DataFrame,以便后续操作。

  3. .sort_values(by="销量", ascending=False): 对DataFrame按照销量("销量"列)进行降序排序,即将销量最高的类别排在最前面。参数 ascending=False 表示按降序排列。

  4. .head(10): 获取排序后的前10行数据,即销量最高的10个商品类别。

哪些商品比较畅销?

pd.pivot_table(data,index="商品ID",values="销量",aggfunc="sum").reset_index().sort_values(by="销量",ascending=False).head(10)
  1. pd.pivot_table(data, index="商品ID", values="销量", aggfunc="sum"):这部分代码使用了 Pandas 库中的 pivot_table 函数,它用于创建透视表。在这里,它的参数含义如下:

    • data:指定数据源,即数据集。
    • index="商品ID":表示将 “商品ID” 列作为透视表的行索引。
    • values="销量":表示将 “销量” 列作为需要聚合的数值列。
    • aggfunc="sum":表示对 “销量” 列进行汇总计算,这里使用的是求和函数 sum
  2. .reset_index():对生成的透视表结果进行重置索引,将其转换为一个新的DataFrame对象。

  3. .sort_values(by="销量", ascending=False):对透视表结果按照 “销量” 列进行降序排序,即将销量最高的商品排在最前面。参数 ascending=False 表示按降序排列。

  4. .head(10):获取排序后的前10行数据,即销量最高的10个商品。

不同门店的销售额占比

data["销售额"]=data["销量"]*data["单价"]
# 不同门店销售
print(data.groupby("门店编号")["销售额"].sum())
# 不同门店销售额占比
dfbb = data.groupby("门店编号")[["销售额"]].sum()/data["销售额"].sum()
dfbb.rename(columns={'销售额':'销售额占比'},inplace=True)
dfbb
  1. data["销售额"]=data["销量"]*data["单价"]:首先,创建了一个新的列 “销售额”,其值为 “销量” 列和 “单价” 列对应位置的乘积,表示每个商品的销售额。

  2. print(data.groupby("门店编号")["销售额"].sum()):使用 groupby 函数按照 “门店编号” 对数据进行分组,然后对每个门店的销售额进行求和操作,得到不同门店的销售额总和。

  3. dfbb = data.groupby("门店编号")[["销售额"]].sum()/data["销售额"].sum():这一部分是计算各门店销售额在总销售额中的占比。首先,使用 groupby 函数按照 “门店编号” 分组,然后对每个门店的销售额进行求和操作。接着,将每个门店的销售额与总销售额相除,得到销售额占比。

  4. dfbb.rename(columns={'销售额':'销售额占比'},inplace=True):对生成的 DataFrame 对象进行重命名,将列名 “销售额” 改为 “销售额占比”,以便更清晰地表示数据含义。

import matplotlib as plt

plt.rcParams['figure.figsize'] = (16.0, 8.0) # 设置figure_size尺寸
plt.rcParams['font.sans-serif']=['SimHei']    # 用来设置字体样式以正常显示中文标签
plt.rcParams['axes.unicode_minus']=False    # 默认是使用Unicode负号,设置正常显示字符,如正常显示负号
plt.rcParams['font.size'] = 15

(data.groupby("门店编号")["销售额"].sum()/data["销售额"].sum()).plot.pie()

在这里插入图片描述

哪个时间段是超市的客流高封期?

# 利用自定义时间格式函数strftime提取小时数
data["小时"]=data["成交时间"].map(lambda x:int(x.strftime("%H")))
# 对小时和订单去重
traffic=data[["小时","订单ID"]].drop_duplicates()
# 求每小时的客流量
traffic.groupby("小时")["订单ID"].count().plot()
  1. data["小时"]=data["成交时间"].map(lambda x:int(x.strftime("%H"))):这一部分代码使用了 map 函数和 lambda 表达式,将 “成交时间” 列中的时间信息提取出小时数,并存储到新的列 “小时” 中。strftime("%H") 方法用于将时间转换为字符串,并提取小时部分。

  2. traffic=data[["小时","订单ID"]].drop_duplicates():这一部分代码将数据集中的 “小时” 和 “订单ID” 列提取出来,并对其进行去重操作,得到每小时的订单数量。

  3. traffic.groupby("小时")["订单ID"].count().plot():这部分代码计算了每小时的客流量,首先使用 groupby 函数按照 “小时” 列进行分组,然后对每个小时的订单ID数量进行计数操作。最后,调用 plot 方法绘制曲线图,横轴为小时,纵轴为客流量(订单数量)。

在这里插入图片描述

查看源数据类型

import pandas as pd
from datetime import datetime

data=pd.read_csv("order-14.1.csv",parse_dates=["成交时间"],encoding='gbk')
data.head()
# print(data.head(5))
# 查看源数据类型
data.info()
  1. import pandas as pd:这行代码导入了Pandas库,并将其重命名为 pd,以便在后续代码中使用。

  2. from datetime import datetime:从 datetime 模块中导入 datetime 类。这是为了后续在解析日期时间时使用。

  3. data=pd.read_csv("order-14.1.csv",parse_dates=["成交时间"],encoding='gbk'):这行代码使用 pd.read_csv() 函数读取名为 “order-14.1.csv” 的CSV文件,并将其加载到名为 data 的DataFrame中。其中的参数解释如下:

    • "order-14.1.csv":指定要读取的CSV文件的路径。
    • parse_dates=["成交时间"]:指定要解析为日期时间类型的列名。在这里,“成交时间” 列会被解析为日期时间类型,以便后续进行时间序列的分析。
    • encoding='gbk':指定文件的编码格式为GBK,以正确解析包含中文字符的数据。
  4. data.head():这行代码输出 data DataFrame 的前5行数据,以便查看数据的样式和结构。

  5. data.info():这行代码用于打印有关DataFrame的基本信息,包括每列的名称、非空值的数量以及每列的数据类型等。这有助于了解数据的完整性和结构。

计算本月的相关的指标

# 计算本月的相关的指标
This_month=data[(data["成交时间"]>=datetime(2018,2,1))&(data["成交时间"]<=datetime(2018,2,28))]
# 销售额计算
sales_1=(This_month["销量"]*This_month['单价']).sum()
# 客流量计算
traffic_1=This_month["订单ID"].drop_duplicates().count()
# 客单价计算
s_t_1=sales_1/traffic_1
print("本月销售额为:{:.2f},客流量为:{},客单价为:{:.2f}".format(sales_1,traffic_1,s_t_1))

  1. This_month=data[(data["成交时间"]>=datetime(2018,2,1))&(data["成交时间"]<=datetime(2018,2,28))]:这行代码根据成交时间筛选出了本月的订单数据。使用了DataFrame的布尔索引,选择了成交时间在2月1日至2月28日之间的数据。

  2. sales_1=(This_month["销量"]*This_month['单价']).sum():这行代码计算了本月的销售额。首先,将销量和单价相乘得到每笔订单的销售额,然后对所有订单的销售额进行求和。

  3. traffic_1=This_month["订单ID"].drop_duplicates().count():这行代码计算了本月的客流量。首先,对订单ID列进行去重操作,然后计算去重后的订单数量,即客流量。

  4. s_t_1=sales_1/traffic_1:这行代码计算了本月的客单价,即销售额除以客流量。

  5. print("本月销售额为:{:.2f},客流量为:{},客单价为:{:.2f}".format(sales_1,traffic_1,s_t_1)):这行代码将计算结果打印输出,格式化输出了本月的销售额、客流量和客单价,保留两位小数。

计算上月相关指标

# 计算上月相关指标
last_month=data[(data["成交时间"]>=datetime(2018,1,1))&(data["成交时间"]<=datetime(2018,1,31))]

# 销售额计算
sales_2=(last_month["销量"]*last_month['单价']).sum()
# 客流量计算
traffic_2=last_month["订单ID"].drop_duplicates().count()
# 客单价计算
s_t_2=sales_2/traffic_2
print("本月销售额为:{:.2f},客流量为:{},客单价为:{:.2f}".format(sales_2,traffic_2,s_t_2))

  1. last_month=data[(data["成交时间"]>=datetime(2018,1,1))&(data["成交时间"]<=datetime(2018,1,31))]:这行代码根据成交时间筛选出了上月的订单数据。使用了DataFrame的布尔索引,选择了成交时间在1月1日至1月31日之间的数据。

  2. sales_2=(last_month["销量"]*last_month['单价']).sum():这行代码计算了上月的销售额。首先,将销量和单价相乘得到每笔订单的销售额,然后对所有订单的销售额进行求和。

  3. traffic_2=last_month["订单ID"].drop_duplicates().count():这行代码计算了上月的客流量。首先,对订单ID列进行去重操作,然后计算去重后的订单数量,即客流量。

  4. s_t_2=sales_2/traffic_2:这行代码计算了上月的客单价,即销售额除以客流量。

  5. print("本月销售额为:{:.2f},客流量为:{},客单价为:{:.2f}".format(sales_2,traffic_2,s_t_2)):这行代码将计算结果打印输出,格式化输出了上月的销售额、客流量和客单价,保留两位小数。

计算去年同期相关指标

# 计算去年同期相关指标
same_month=data[(data["成交时间"]>=datetime(2017,2,1))&(data["成交时间"]<=datetime(2017,2,28))]

sales_3=(same_month["销量"]*same_month["单价"]).sum()

traffic_3=same_month["订单ID"].drop_duplicates().count()
s_t_3=sales_3/traffic_3
print("本月销售额为:{:.2f},客流量为:{},客单价为:{:.2f}".format(sales_3,traffic_3,s_t_3))

  1. same_month=data[(data["成交时间"]>=datetime(2017,2,1))&(data["成交时间"]<=datetime(2017,2,28))]:这行代码根据成交时间筛选出了去年同期(2017年2月)的订单数据。使用了DataFrame的布尔索引,选择了成交时间在2017年2月1日至2017年2月28日之间的数据。

  2. sales_3=(same_month["销量"]*same_month["单价"]).sum():这行代码计算了去年同期的销售额。首先,将销量和单价相乘得到每笔订单的销售额,然后对所有订单的销售额进行求和。

  3. traffic_3=same_month["订单ID"].drop_duplicates().count():这行代码计算了去年同期的客流量。首先,对订单ID列进行去重操作,然后计算去重后的订单数量,即客流量。

  4. s_t_3=sales_3/traffic_3:这行代码计算了去年同期的客单价,即销售额除以客流量。

  5. print("本月销售额为:{:.2f},客流量为:{},客单价为:{:.2f}".format(sales_3,traffic_3,s_t_3)):这行代码将计算结果打印输出,格式化输出了去年同期的销售额、客流量和客单价,保留两位小数。

# 利用函数提高编码效率
def get_month_data(data):
    sale=(data["销量"]*data["单价"]).sum()
    traffic=data["订单ID"].drop_duplicates().count()
    s_t=sale/traffic
    return (sale,traffic,s_t)

# 本月相关指数
sales_1,traffic_1,s_t_1=get_month_data(This_month)
print(sales_1,traffic_1,s_t_1)

# 上月相关指数
sales_2,traffic_2,s_t_2=get_month_data(last_month)
print(sales_2,traffic_2,s_t_2)

# 去年同期相关指数
sales_3,traffic_3,s_t_3=get_month_data(same_month)
print(sales_3,traffic_3,s_t_3)

  1. def get_month_data(data)::这行代码定义了一个名为 get_month_data() 的函数,它接受一个数据集 data 作为输入参数。

  2. sale=(data["销量"]*data["单价"]).sum():在函数内部,这行代码计算了给定数据的销售额。首先,将销量和单价相乘得到每笔订单的销售额,然后对所有订单的销售额进行求和。

  3. traffic=data["订单ID"].drop_duplicates().count():这行代码计算了给定数据的客流量。首先,对订单ID列进行去重操作,然后计算去重后的订单数量,即客流量。

  4. s_t=sale/traffic:这行代码计算了给定数据的客单价,即销售额除以客流量。

  5. return (sale,traffic,s_t):这行代码将销售额、客流量和客单价作为元组返回给调用方。

  6. sales_1,traffic_1,s_t_1=get_month_data(This_month):这行代码调用 get_month_data() 函数计算了本月的销售额、客流量和客单价,并将结果分别赋值给了 sales_1traffic_1s_t_1 变量。

  7. 类似地,sales_2,traffic_2,s_t_2=get_month_data(last_month)sales_3,traffic_3,s_t_3=get_month_data(same_month) 分别计算了上月和去年同期的相关指数。

  8. 最后,print(sales_1,traffic_1,s_t_1)print(sales_2,traffic_2,s_t_2)print(sales_3,traffic_3,s_t_3) 分别打印出了本月、上月和去年同期的销售额、客流量和客单价。

创建DataFrame 添加同比和环比字段

# 创建DataFrame
report=pd.DataFrame([[sales_1,sales_2,sales_3],[traffic_1,traffic_2,traffic_3],[s_t_1,s_t_2,s_t_3]],
                    columns=["本月累计","上月同期","去年同期"],index=["销售额","客流量","客单价"])
# print(report)
# 添加同比和环比字段
report["环比"]=report["本月累计"]/report["上月同期"]-1

report["同比"]=report["本月累计"]/report["去年同期"]-1

  1. report=pd.DataFrame([[sales_1,sales_2,sales_3],[traffic_1,traffic_2,traffic_3],[s_t_1,s_t_2,s_t_3]], columns=["本月累计","上月同期","去年同期"], index=["销售额","客流量","客单价"]):这行代码创建了一个DataFrame对象 report。其中:

    • [[sales_1,sales_2,sales_3],[traffic_1,traffic_2,traffic_3],[s_t_1,s_t_2,s_t_3]]:是一个二维列表,包含了本月累计、上月同期和去年同期的销售额、客流量和客单价。
    • columns=["本月累计","上月同期","去年同期"]:指定了DataFrame的列标签,分别对应本月累计、上月同期和去年同期。
    • index=["销售额","客流量","客单价"]:指定了DataFrame的行标签,分别对应销售额、客流量和客单价。
  2. report["环比"]=report["本月累计"]/report["上月同期"]-1:这行代码计算了环比,即本月累计与上月同期的销售额、客流量和客单价的增长率。

  3. report["同比"]=report["本月累计"]/report["去年同期"]-1:这行代码计算了同比,即本月累计与去年同期的销售额、客流量和客单价的增长率。

# 查看报表
report
# 将结果导出本地
report.to_csv("order.csv",encoding="utf-8-sig")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1565127.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTML - 请你谈一谈img标签图片和background背景图片的区别

难度级别&#xff1a;中级及以上 提问概率&#xff1a;65% 面试官当然不会问如何使用img标签或者background来加载一张图片&#xff0c;这些知识点都很基础&#xff0c;相信只要从事前端开发一小段时间以后&#xff0c;就可以轻松搞定加载图片…

stream使用

stream流式计算 在Java1.8之前还没有stream流式算法的时候&#xff0c;我们要是在一个放有多个User对象的list集合中&#xff0c;将每个User对象的主键ID取出&#xff0c;组合成一个新的集合&#xff0c;首先想到的肯定是遍历&#xff0c;如下&#xff1a; List<Long> u…

游戏引擎中的物理系统

一、物理对象与形状 1.1 对象 Actor 一般来说&#xff0c;游戏中的对象&#xff08;Actor&#xff09;分为以下四类&#xff1a; 静态对象 Static Actor动态对象 Dynamic Actor ---- 可能受到力/扭矩/冲量的影响检测器 TriggerKinematic Actor 运动学对象 ---- 忽略物理法则…

go: go.mod file not found in current directory or any parent directory.如何解决?

这个错误表明你正在执行 go get 命令&#xff0c;但是当前目录或任何父目录中都找不到 go.mod 文件。这可能是因为你的项目还没有使用 Go Modules 进行管理。 要解决这个问题&#xff0c;有几种方法&#xff1a; go mod init <module-name> 其中 <module-name>…

【力扣】11. 盛最多水的容器

11. 盛最多水的容器 题目描述 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明&…

Python | Leetcode Python题解之第7题整数反转

题目&#xff1a; 题解&#xff1a; def reverse_better(self, x: int) -> int:y, res abs(x), 0# 则其数值范围为 [−2^31, 2^31 − 1]boundry (1<<31) -1 if x>0 else 1<<31while y ! 0:res res*10 y%10if res > boundry :return 0y //10return re…

数字化赋能农业:数字乡村促进农业现代化

随着信息技术的迅猛发展&#xff0c;数字化浪潮正以前所未有的速度席卷各行各业&#xff0c;农业领域也不例外。数字乡村战略作为推动农业现代化的重要手段&#xff0c;通过数字化技术的深度应用&#xff0c;为农业生产带来了革命性的变革。本文旨在探讨数字化如何赋能农业&…

用于HUD平视显示器的控制芯片:S2D13V40

一款利用汽车抬头显示技术用于HUD平视显示器的控制芯片:S2D13V40。HUD的全称是Head Up Display&#xff0c;即平视显示器&#xff0c;以前应用于军用飞机上&#xff0c;旨在降低飞行员需要低头查看仪表的频率。起初&#xff0c;HUD通过光学原理&#xff0c;将驾驶相关的信息投射…

隐私计算实训营第七讲-隐语SCQL的架构详细拆解

隐私计算实训营第七讲-隐语SCQL的架构详细拆解 文章目录 隐私计算实训营第七讲-隐语SCQL的架构详细拆解1.SCQL Overview1.1 多方数据分析场景1.2 多方数据分析技术路线1.2.1 TEE SQL方案1.2.2 MPC SQL方案 1.3 Secure Collaborative Query Language(SCQL)1.3.1 SCQL 系统组件1.…

C++ 2024-4-2 作业

1.模板类实现顺序栈 #include <iostream> #define MAX 8 using namespace std; template<typename T> class stack {T data[MAX];int top; public:stack():top(-1){}bool empty_stack();bool full_stack();void push_stack(T data);void pop_stack();void show();…

用于AGV物流机器人的爱普生陀螺仪传感器XV7000系列

适用于AGV物流机器人的爱普生陀螺仪传感器XV7000系列:XV7001BB&#xff0c;XV7011BB。以前我们都知道XV7001BB&#xff0c;XV7011BB适用于扫地机器人&#xff0c;其实对于AGV物流机器人来说&#xff0c;XV7000系列生陀螺仪传感器也是其中重要一环。AGV机器人又叫做AGV搬运机器人…

刷题DAY41 | LeetCode 343-整数拆分 96-不同的二叉搜索树

343 整数拆分&#xff08;medium&#xff09; 给定一个正整数 n &#xff0c;将其拆分为 k 个 正整数 的和&#xff08; k > 2 &#xff09;&#xff0c;并使这些整数的乘积最大化。 返回 你可以获得的最大乘积 。 思路&#xff1a;动态规划 动规五部曲&#xff0c;分析…

Penpad Season 2 质押突破350ETH,还有望获Scroll生态空投

Scroll 是被 Vitalik Buterin 给予高度评价的 zk Rollup Layer2 项目&#xff0c;也一直是市场长期关注的重点。自 10 月 17 日宣布主网上线后&#xff0c;Scroll 的热度节节攀升&#xff0c;目前其 TVL 达到 1.5 亿美元&#xff0c;是众多 Layer2 生态中 TVL 数据增长最快的生…

九河云:在AWS上实现跨region VPC互联

如何跨region实现不同VPC之间的对等链接&#xff1f;九河云为您介绍AWS跨region连接方案。 说明&#xff1a;VPC-A位于弗吉尼亚region&#xff0c;VPC-B位于俄勒冈region 本文将在同一账户的弗吉尼亚和俄勒冈VPC中各启用一台EC2&#xff08;本文已提前创建好VPC、EC2等资源&am…

非线性SVM模型

通过5个条件判定一件事情是否会发生&#xff0c;5个条件对这件事情是否发生的影响力不同&#xff0c;计算每个条件对这件事情发生的影响力多大&#xff0c;写一个非线性SVM模型程序,最后打印5个条件分别的影响力。 示例一 在非线性支持向量机&#xff08;SVM&#xff09;模型中…

OpenCV 4.9基本绘图

返回&#xff1a;OpenCV系列文章目录&#xff08;持续更新中......&#xff09; 上一篇&#xff1a;OpenCV使用通用内部函数对代码进行矢量化 下一篇&#xff1a;OpenCV系列文章目录&#xff08;持续更新中......&#xff09; ​目标 在本教程中&#xff0c;您将学习如何&am…

【云呐】固定资产盘点报告表怎么填

报告表以表述清晰为主,避免繁琐,重要数据及问题使用表格形式展示。通过签字对报告负责认同度。内容应全面反映本次盘点,提供参考依据。一、标题 包含单位名称、报告期间等基本信息二、前言 概括本次盘点的目的和任务签署三、盘点范围与时间 明确盘点的固定资产项目和时…

代码签名证书OV跟EV的区别

代码签名证书中的OV和EV分别代表“Organization Validation”&#xff08;组织验证&#xff09;和“Extended Validation”&#xff08;增强验证&#xff09;。这两种类型的代码签名证书均用于对软件或应用程序进行数字签名&#xff0c;确保用户下载的代码来自于经过验证的真实…

git源码泄露

Git 源码泄露 开发人员会使用 git 进行版本控制&#xff0c;对站点自动部署。但如果配置不当&#xff0c;可能会将 .git 文件夹直接部署到线上环境&#xff0c;这就引起了 git 泄露漏洞&#xff0c;我们可以利用这个漏洞直接获得网页源码。 确定是否存在泄漏 &#xff08;1&…

开发必备8套工具都有哪些你知道嘛?

经过多年的使用&#xff0c;收集。我发现大部分的人员都在使用上面的某一种工具来开发。 认识了解上面开发环境工具&#xff0c;有利于你更快的写出高效的代码。没有看错上面是全部的8套 我把他们捆绑在一起。目的就是为了更好的让大家。学习。不管你是java的。.net语言的。p…