【促销定价】背后的算法技术 2

【促销定价】背后的算法技术 2 - 数据预处理生成

- 01 数据探查
- 02 数据清洗
- 03 数据聚合
- 04 数据补全
- 05 小结
- 参考文献

导读：在日常生活中，我们经常会遇见线上/线下商家推出各类打折、满减、赠品、新人价、优惠券、捆绑销售等促销活动。一次成功的促销对于消费者和商家来说是双赢的。一方面，促销活动能让消费者买到低价的商品；另一方面，促销活动也能为商家带来可观的利润。因此，对于商家来说，如何科学合理地制定促销策略是必须仔细思考的问题。

作者1：张哲铭，算法专家，某互联网大厂
作者2：向杜兵，算法专家，某制造业龙头

大家好！我们是IndustryOR团队，致力于分享业界落地的OR+AI技术。欢迎关注微信公众号/知乎【运筹匠心】 。本期我们来谈一谈《促销定价背后的算法技术》。促销活动五花八门、玩法多变，但其底层的核心商业逻辑是“价格”。因此，本期案例将选择某零售商超“促销定价”场景，共分5篇文章依次讲解：（1）业务问题拆解；（2）数据预处理生成；（3）数据挖掘分析；（4）模型算法实现-价格弹性模型；（5）模型算法实现-运筹决策模型。

本篇文章讲解（2）数据预处理生成。

共分为5个部分，依次为：
01 数据探查
02 数据清洗
03 数据聚合
04 数据补全
05 小结

注：本案例数据改编自【2019年全国大学生数学建模E题】公开数据集。

01 数据探查

本案例主要用到销售流水表1/2（附件1/2）和商品信息表（附件4），表结构如下：

销售流水表

字段	含义
order_id	订单ID
is_finished	订单是否完成
sku_id	商品ID
sku_name	商品名称
sku_prc	门店价
sku_sale_prc	销售价
sku_cost_prc	成本价
sku_cnt	销售数量
upc_code	UPC码
create_dt	创建时间

商品信息表

字段	含义
skuid	sku名称
skuname	sku名称
first_category_id	一级类目id
second_category_id	二级类目id
third_category_id	三级类目id
first_category_name	一级类目名称
second_category_name	二级类目名称
third_category_name	三级类目名称

1）数据加载

# 读取订单明细表、sku明细表  
order_detail_df1 = pd.read_csv('附件1.txt', sep=',', encoding='utf8')  
order_detail_df2 = pd.read_csv('附件2.txt', sep=',', encoding='utf8')  
sku_detail_df = pd.read_csv('附件4.txt', sep=',', encoding='utf8')

注：原数据文件是excel，笔者将其转成的txt，同学在复现时需要注意一下这里

2）数据概览

<<< 左右滑动见更多 >>>

我们发现：销售流水表upc_code字段部分缺失，其他字段不缺失。商品信息表无缺失字段。

3）数据细节

02 数据清洗

1）合并销售流水表，并拼接商品信息表

# 合并订单明细表  
order_detail_df = pd.concat(objs=[order_detail_df1, order_detail_df2], axis=0)  
# 拼接sku明细表  
data_df = pd.merge(left=order_detail_df, right=sku_detail_df, on=['sku_id','sku_name'], how='left')

2）合并之后探查整体数据

我们发现：销售流水表共有1221855条订单商品（SKU)流水信息，有类目信息的有804158条。

3）异常样本过滤

首先过滤掉类目为空的SKU，再剔除掉未完单的样本，最后剔除销量、门店价、销售价、成本价为负的样本。代码如下：

# 异常样本过滤  
data_df = data_df[~data_df['third_category_id'].isnull()] # 过滤类项目信息为空的sku  
data_df = data_df[data_df['is_finished'] == 1] # 剔除未完单样本  
data_df = data_df[(data_df['sku_cnt'] >= 0) & (data_df['sku_sale_prc'] >= 0) & \  
(data_df['sku_prc'] >= 0 )  & (data_df['sku_cost_prc'] >= 0 )] # 剔除销量、价格<=0样本

03 数据聚合

1）将SKU流水数据合并到天，销量取和，价格取均值

# 订单聚合至sku日流水  
data_df = data_df.\  
groupby(['create_dt', 'sku_id', 'sku_name', 'first_category_id', 'second_category_id', 'third_category_id', 'first_category_name', 'second_category_name', 'third_category_name']).\  
agg({'sku_cnt':'sum', 'sku_prc':'mean', 'sku_sale_prc':'mean'}).reset_index()

2）将日期格式转换为YYYY-MM-DD格式，以便于排序

# create_dt日期格式转换  
data_df['create_dt'] = data_df.apply(func=IOR_DP.date_style_convert, axis=1)

3）对数据进行排序，以便观察

# 排序  
data_df = data_df.sort_values(by=['sku_id', 'create_dt'], ascending=[True,True]).reset_index(drop=True,inplace=False)

4）避开长假，截取2018-03-01至2018-09-30的数据进行研究

# 截取非长假半年时间段  
data_df = data_df[(data_df['create_dt'] >= '2018-03-01') & (data_df['create_dt'] <= '2018-09-30')]

5）对数据统一进行重命名

# 列原名太长，重命名  
data_df = data_df.rename(columns={'first_category_id':'cate1_id', 'first_category_name':'cate1_name', \  
                                 'third_category_id':'cate3_id', 'third_category_name':'cate3_name', \  
                                 'sku_prc':'ori_prc','sku_sale_prc':'sale_prc', 'sku_cnt':'sale_cnt', 'create_dt': 'sale_dt'})

04 数据补全

1）由于成本价缺失严重，因此进行补全操作

根据数据集提示：零售商的毛利率大概在0.2-0.4之间。因此，可先生成毛利率，然后用门店价（原价）、销售价（折扣价）反推成本价。步骤如下：

假设原价相较成本价的毛利率符合正态分布，最大值为0.4，最小值为0.2；
假设折扣价相较成本价的毛利率符合正态分布，最大值为0.05，最小值为0.35；
成本价 = （原价反推的成本价，折扣价反推的成本价）

注：实际业务中，价格大概率不符合正态分布，需要用真实数据。

# 原数据成本价异常（大部分缺失，未缺失的与折扣价相同），无法使用，需要重新制作  
## 一个sku历史一个成本价，暂不考虑波动，简化处理  
cost_prc_df = data_df[['sku_id', 'ori_prc', 'sale_prc']].\  
groupby(['sku_id']).agg({'ori_prc':'mean', 'sale_prc':'mean'}).reset_index()   
  
## 正态分布造原价毛利N(0.3,0.05)、折扣价毛利N(0.2,0.05)  
ori_prc_profit_ratio_array = IOR_DP.generate_norm_data(mean = 0.3, std = 0.05, x_min = 0.2, x_max = 0.4, n = len(cost_prc_df))  
sale_prc_profit_ratio_array = IOR_DP.generate_norm_data(mean = 0.2, std = 0.05, x_min = 0.05, x_max = 0.35, n = len(cost_prc_df))  
  
## 制作成本价，保证要比折扣价低，不能赔本卖  
cost_prc_df['ori_prc_profit_ratio'] = ori_prc_profit_ratio_array  
cost_prc_df['sale_prc_profit_ratio'] = sale_prc_profit_ratio_array  
cost_prc_df['ori_prc_cost_prc'] = cost_prc_df['ori_prc'] / (cost_prc_df['ori_prc_profit_ratio'] + 1) # 原价反推的成本价  
cost_prc_df['sale_prc_cost_prc'] = cost_prc_df['sale_prc'] / (cost_prc_df['sale_prc_profit_ratio'] + 1) # 折扣价反推的成本价  
cost_prc_df['cost_prc'] = cost_prc_df.apply(func=lambda x: min(x['ori_prc_cost_prc'], x['sale_prc_cost_prc']), axis=1) # 取小者  
data_df = pd.merge(left=data_df, right=cost_prc_df[['sku_id', 'cost_prc']], on=['sku_id'], how='left') # 拼接回主表

2）最后修改特征字段类型并输出至csv

# 修改列类型、小数点后位数、展示顺序  
data_df['sku_id'] = data_df['sku_id'].astype('int')  
data_df['cate1_id'] = data_df['cate1_id'].astype('int')  
data_df['cate2_id'] = data_df['cate2_id'].astype('int')  
data_df['cate3_id'] = data_df['cate3_id'].astype('int')  
data_df['sale_cnt'] = data_df['sale_cnt'].astype('int')  
data_df['ori_prc'] = data_df['ori_prc'].astype('float').round(2)  
data_df['sale_prc'] = data_df['sale_prc'].astype('float').round(2)  
data_df['cost_prc'] = data_df['cost_prc'].astype('float').round(2)  
data_df = data_df[['sku_id', 'sku_name', 'ori_prc', 'sale_prc', 'cost_prc', 'sale_cnt', 'cate1_id', 'cate2_id', 'cate3_id', 'cate1_name', 'cate2_name', 'cate3_name', 'sale_dt']]  
# 输出  
data_df.to_csv('promotional_pricing_data1.csv', sep=',', encoding='utf8', index=False)

05 小结

第一篇（业务问题拆解）：我们把一个实际的促销定价问题拆解成了一系列的数学问题。

本篇（数据预处理生成）：我们选择了一份公开的促销定价数据集，将其加工成了可分析求解的数据。

下一篇（数据挖掘分析）：我们将介绍如何对数据进行全方位的挖掘和分析。敬请期待~~~

参考文献

Hua J, Yan L, Xu H,et al. Markdowns in E-Commerce Fresh Retail: A Counterfactual Prediction and Multi-Period Optimization Approach[J]. arxiv, 2021.(https://arxiv.org/pdf/2105.08313.pdf)
Kui Zhao, Junhao Hua, Ling Yan, et al. A Unified Framework for Marketing Budget Allocation[J]. arxiv, 20.(https://arxiv.org/pdf/1902.01128.pdf)
用相关系数进行Kmeans聚类，利用利润率、打折率、销售额、毛利润得到商品价格弹性标签，建立价格折扣力度模型(https://blog.csdn.net/weixin_45934622/article/details/114382037)
2019全国大学生数学建模竞赛讲评：“薄利多销”分析(https://dxs.moe.gov.cn/zx/a/hd_sxjm_sxjmstjp_2019sxjmstjp/210604/1699445.shtml)
策略算法工程师之路-基于线性规划的简单价格优化模型(https://zhuanlan.zhihu.com/p/145192690)