基于机器学习的电商优惠券核销预测

1. 项目简介

随着移动互联网的快速发展，O2O（Online to Offline）模式已成为电商领域的一大亮点。优惠券作为一种有效的营销工具，被广泛应用于吸引新客户和激活老用户。然而，传统的随机投放方式往往效率低下，不仅对用户造成干扰，还可能损害品牌形象。因此，个性化优惠券投放成为提高营销效果的关键。本文将详细介绍如何利用机器学习技术进行电商优惠券使用预测，以实现优惠券的精准投放。

2. 数据准备

2.1 数据来源与收集

本研究使用的数据集包括线下和线上两个部分。线下数据集包含用户ID、商户ID、优惠券ID、折扣率、距离、领券日期和消费日期等信息。线上数据集则包含用户ID、商户ID、行为类型、优惠券ID、折扣率、领券日期和消费日期等信息。

2.2 数据预处理

数据预处理是机器学习中的关键步骤。首先，我们需要处理缺失值，例如将字符串类型的缺失值替换为np.nan。其次，对于异常值，如距离字段中的null值，我们将其替换为-1，并转换为整数类型。最后，我们需要对数据类型进行转换，确保所有数值字段都是正确的数据类型。

# 处理缺失值和异常值
t2.replace('null', -1, inplace=True)
t2.distance = t2.distance.astype('int')
t2.replace(-1, np.nan, inplace=True)

3. 特征工程

特征工程是机器学习中提高模型性能的重要环节。我们从以下几个方面构建特征：

3.1 优惠券相关特征

优惠券类型（直接优惠为0，满减为1）
优惠券折率
满减优惠券的最低消费
历史出现次数
历史核销次数
历史核销率
历史核销时间率
领取优惠券是一周的第几天
领取优惠券是一月的第几天
历史上用户领取该优惠券次数
历史上用户消费该优惠券次数
历史上用户对该优惠券的核销率

def get_coupon_related_feature(dataset3, filename='coupon3_feature'):
    # 计算折扣率函数
    def calc_discount_rate(s):
        s = str(s)
        s = s.split(':')
        if len(s) == 1:
            return float(s[0])
        else:
            return 1.0 - float(s[1]) / float(s[0])

    # 提取满减优惠券中，满对应的金额
    def get_discount_man(s):
        s = str(s)
        s = s.split(':')
        if len(s) == 1:
            return 'null'
        else:
            return int(s[0])

    # 提取满减优惠券中，减对应的金额
    def get_discount_jian(s):
        s = str(s)
        s = s.split(':')
        if len(s) == 1:
            return 'null'
        else:
            return int(s[1])

    # 是不是满减卷
    def is_man_jian(s):
        s = str(s)
        s = s.split(':')
        if len(s) == 1:
            return 0
        else:
            return 1.0

    # 周几领取的优惠券
    dataset3['day_of_week'] = dataset3.date_received.astype('str').apply(
        lambda x: date(int(x[0:4]), int(x[4:6]), int(x[6:8])).weekday() + 1)

    # 每月的第几天领取的优惠券
    dataset3['day_of_month'] = dataset3.date_received.astype('str').apply(
        lambda x: int(x[6:8]))

    # 领取优惠券的时间与当月初距离多少天
    dataset3['days_distance'] = dataset3.date_received.astype('str').apply(
        lambda x: (date(int(x[0:4]), int(x[4:6]), int(x[6:8])) - date(2016, 6, 30)).days)

    # 满减优惠券中，满对应的金额
    dataset3['discount_man'] = dataset3.discount_rate.apply(get_discount_man)

    # 满减优惠券中，减对应的金额
    dataset3['discount_jian'] = dataset3.discount_rate.apply(get_discount_jian)

    # 优惠券是不是满减卷
    dataset3['is_man_jian'] = dataset3.discount_rate.apply(is_man_jian)

    # 优惠券的折扣率（满减卷进行折扣率转换）
    dataset3['discount_rate'] = dataset3.discount_rate.apply(calc_discount_rate)

    # 特定优惠券的总数量
    d = dataset3[['coupon_id']]
    d['coupon_count'] = 1
    d = d.groupby('coupon_id').agg('sum').reset_index()
    dataset3 = pd.merge(dataset3, d, on='coupon_id', how='left')

    dataset3.to_csv(os.path.join('features', filename + '.csv'), index=None)
    return dataset3

3.2 商户相关特征

商家优惠券被领取次数
商家优惠券被领取后不核销次数
商家优惠券被领取后核销次数
商家优惠券被领取后核销率
商家优惠券核销的平均/最小/最大消费折率
核销商家优惠券的不同用户数量，及其占领取不同的用户比重
商家优惠券平均每个用户核销多少张
商家被核销过的不同优惠券数量
商家被核销过的不同优惠券数量占所有领取过的不同优惠券数量的比重
商家平均每种优惠券核销多少张
商家被核销优惠券的平均时间率
商家被核销优惠券中的平均/最小/最大用户-商家距离

def get_merchant_related_feature(feature3, filename='merchant3_feature'):
    merchant3 = feature3[['merchant_id', 'coupon_id', 'distance', 'date_received', 'date']]

    # 提取不重复的商户集合
    t = merchant3[['merchant_id']]
    t.drop_duplicates(inplace=True)

    # 商户的总销售次数
    t1 = merchant3[merchant3.date != 'null'][['merchant_id']]
    t1['total_sales'] = 1
    t1 = t1.groupby('merchant_id').agg('sum').reset_index()

    # 商户被核销优惠券的销售次数
    t2 = merchant3[(merchant3.date != 'null') & (merchant3.coupon_id != 'null')][['merchant_id']]
    t2['sales_use_coupon'] = 1
    t2 = t2.groupby('merchant_id').agg('sum').reset_index()

    # 商户发行优惠券的总数
    t3 = merchant3[merchant3.coupon_id != 'null'][['merchant_id']]
    t3['total_coupon'] = 1
    t3 = t3.groupby('merchant_id').agg('sum').reset_index()

    # 商户被核销优惠券的用户-商户距离，转化为int数值类型
    t4 = merchant3[(merchant3.date != 'null') & (merchant3.coupon_id != 'null')][['merchant_id', 'distance']]
    t4.replace('null', -1, inplace=True)
    t4.distance = t4.distance.astype('int')
    t4.replace(-1, np.nan, inplace=True)

    # 商户被核销优惠券的最小用户-商户距离
    t5 = t4.groupby('merchant_id').agg('min').reset_index()
    t5.rename(columns={'distance': 'merchant_min_distance'}, inplace=True)

    # 商户被核销优惠券的最大用户-商户距离
    t6 = t4.groupby('merchant_id').agg('max').reset_index()
    t6.rename(columns={'distance': 'merchant_max_distance'}, inplace=True)

    # 商户被核销优惠券的平均用户-商户距离
    t7 = t4.groupby('merchant_id').agg('mean').reset_index()
    t7.rename(columns={'distance': 'merchant_mean_distance'}, inplace=True)

    # 商户被核销优惠券的用户-商户距离的中位数
    t8 = t4.groupby('merchant_id').agg('median').reset_index()
    t8.rename(columns={'distance': 'merchant_median_distance'}, inplace=True)

    # 合并上述特征
    merchant3_feature = pd.merge(t, t1, on='merchant_id', how='left')
    merchant3_feature = pd.merge(merchant3_feature, t2, on='merchant_id', how='left')
    merchant3_feature = pd.merge(merchant3_feature, t3, on='merchant_id', how='left')
    merchant3_feature = pd.merge(merchant3_feature, t5, on='merchant_id', how='left')
    merchant3_feature = pd.merge(merchant3_feature, t6, on='merchant_id', how='left')
    merchant3_feature = pd.merge(merchant3_feature, t7, on='merchant_id', how='left')
    merchant3_feature = pd.merge(merchant3_feature

4. 数据集可视化分析

4.1 预测标签的类别分布

可以看出，标签为 1 的占比非常少，是一个类别极度不均衡的二分类问题。

4.2 特征相关性分析

4.3 商户的总销售次数分布情况

4.4 领取优惠券的时间与当月初距离天数分布

由于特征太多篇幅有限，此处只列出部分特征的分布可视化。

5. 训练集和验证集切分

由于比赛已结束，所以此处将手动切分出训练集、验证集、测试集，测试集用于不同模型的性能对比。

df_columns = dataset12_x.columns.values
print('===> feature count: {}'.format(len(df_columns)))

X_train, X_valid, y_train, y_valid = train_test_split(dataset12_x, dataset12_y, test_size=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.1, random_state=42)
print('train: {}, valid: {}, test: {}'.format(X_train.shape[0], X_valid.shape[0], X_test.shape[0]))

===> feature count: 53
train: 327856, valid: 40477, test: 36429

6. Xgboost 建模预测

Xgboost是一种高效的梯度提升框架，它可以用来解决分类、回归等多种机器学习任务。Xgboost通过集成多个弱学习器（通常是决策树），并优化损失函数来提高模型的准确性。

xgb_params = {
    'eta': 0.01,
    'min_child_weight': 20,
    'colsample_bytree': 0.5,
    'max_depth': 15,
    'subsample': 0.9,
    'lambda': 2.0,
    'eval_metric': 'auc',
    'objective': 'binary:logistic',
    'nthread': -1,
    'silent': 1,
    'booster': 'gbtree'
}

pre_xgb_model = xgb.train(dict(xgb_params),
                      dtrain,
                      evals=watchlist,
                      verbose_eval=50)

交叉验证获取最佳迭代次数：

print('---> cv train to choose best_num_boost_round')
cv_result = xgb.cv(dict(xgb_params),
                   dtrain,
                   num_boost_round=5000,
                   early_stopping_rounds=100,
                   verbose_eval=100,
                   show_stdv=False,
                   )
best_num_boost_rounds = len(cv_result)
mean_train_logloss = cv_result.loc[best_num_boost_rounds-11 : best_num_boost_rounds-1, 'train-auc-mean'].mean()
mean_test_logloss = cv_result.loc[best_num_boost_rounds-11 : best_num_boost_rounds-1, 'test-auc-mean'].mean()
print('best_num_boost_rounds = {}'.format(best_num_boost_rounds))

print('mean_train_auc = {:.7f} , mean_test_auc = {:.7f}\n'.format(mean_train_logloss, mean_test_logloss))

[0]	train-auc:0.87954	test-auc:0.87309
[100]	train-auc:0.90277	test-auc:0.89217
[200]	train-auc:0.90981	test-auc:0.89533
[300]	train-auc:0.91590	test-auc:0.89786
[400]	train-auc:0.92089	test-auc:0.89978
[500]	train-auc:0.92522	test-auc:0.90138
[600]	train-auc:0.92873	test-auc:0.90252
[700]	train-auc:0.93169	test-auc:0.90334
[800]	train-auc:0.93411	test-auc:0.90396
[900]	train-auc:0.93610	test-auc:0.90444
[1000]	train-auc:0.93786	test-auc:0.90482
[1100]	train-auc:0.93937	test-auc:0.90512
[1200]	train-auc:0.94078	test-auc:0.90540
[1300]	train-auc:0.94218	test-auc:0.90564
[1400]	train-auc:0.94347	test-auc:0.90583
[1500]	train-auc:0.94468	test-auc:0.90595
[1600]	train-auc:0.94578	test-auc:0.90607
[1700]	train-auc:0.94686	test-auc:0.90616
[1800]	train-auc:0.94787	test-auc:0.90626
[1900]	train-auc:0.94886	test-auc:0.90632
[2000]	train-auc:0.94986	test-auc:0.90636

6.1 特征重要程度分析

6.2 性能评估

# predict train
predict_train = xgb_model.predict(dtrain)
after_xgb_train_auc = evaluate_score(predict_train, y_train)

# predict validate
predict_valid = xgb_model.predict(dvalid)
after_xgb_valid_auc = evaluate_score(predict_valid, y_valid)

dtest = xgb.DMatrix(X_test, feature_names=df_columns)
predict_test = xgb_model.predict(dtest)
after_xgb_test_auc = evaluate_score(predict_test, y_test)

print('训练集 auc = {:.7f} , 验证集 auc = {:.7f} , 测试集 auc = {:.7f}\n'.format(
    after_xgb_train_auc, after_xgb_valid_auc, after_xgb_test_auc))

训练集 auc = 0.9042264 , 验证集 auc = 0.8958611 , 测试集 auc = 0.8960916

6.3 调参前后模型性能对比

可以看出，调参后，训练集、验证集和测试集的 AUC 都得到了不同程度的提升、

6.4 预测性能 ROC 曲线

7. 随机森林（RandomForest）建模预测

随机森林是一种集成学习方法，它通过构建多个决策树并将它们的预测结果进行汇总来提高整体模型的性能。随机森林在处理高维数据时表现出色，并且对于过拟合具有一定的抵抗力。

用RandomSearch+CV选取超参数：

# 建立一个分类器或者回归器
rf_clf = RandomForestClassifier()

# 给定参数搜索范围：list or distribution
param_dist = {
    "n_estimators": [100, 500, 1000, 1500, 2000],
    "max_depth": [3, 5, 8, 12, 15],
    "max_features": [2, 5, 10,],
    "min_samples_split": [2, 4, 6, 8, 10, 12],
    "bootstrap": [True, False],
    "criterion": ["gini", "entropy"],
}

n_iter_search = 20
random_search_cv = RandomizedSearchCV(rf_clf, param_distributions=param_dist, n_iter=n_iter_search, cv=5, n_jobs=-1, verbose=1)

最佳参数训练 RF 模型：

rf_model = RandomForestClassifier(
    n_estimators=3000, criterion='gini', max_depth=12, 
    min_samples_split=1000, min_samples_leaf=6, min_weight_fraction_leaf=0.0, 
    max_features='sqrt', max_leaf_nodes=None, min_impurity_decrease=0.0, 
    bootstrap=True, n_jobs=-1, random_state=42, 
    verbose=1, warm_start=False, 
    max_samples=None
)

训练集 auc = 0.6242629 , 验证集 auc = 0.6232508 , 测试集 auc = 0.6194697

8. Stochastic Gradient Descent(SGD算法)

SGD是一种优化算法，它通过随机选择样本来更新模型参数，从而减少计算量并加快收敛速度。SGD适用于大规模和在线机器学习任务。

同样的方法，测试 SGD 算法建模预测性能，此处省略。

9. 模型对比

import matplotlib.pyplot as plt
import numpy as np

species = ['训练集', '验证集', '测试集']
penguin_means = {
    'Xgboost': (xgb_train_auc, xgb_valid_auc, xgb_test_auc),
    'RandomForest': (rf_train_auc, rf_valid_auc, rf_test_auc),
    'SGD': (sgd_train_auc, sgd_valid_auc, sgd_test_auc),
}
xgb_train_auc
x = np.arange(len(species))
width = 0.25
multiplier = 0

plt.figure(figsize=(40, 20))
fig, ax = plt.subplots(layout='constrained', figsize=(30, 15))

for attribute, measurement in penguin_means.items():
    offset = width * multiplier
    rects = ax.bar(x + offset, measurement, width, label=attribute)
    ax.bar_label(rects, padding=3, fontsize=26)
    multiplier += 1

ax.set_ylabel('数据集', fontsize=26)
ax.set_title('不同模型的评测性能对比', fontsize=40)
ax.set_xticks(x + width, species, fontsize=26)
ax.legend(loc='upper left', fontsize=26)
ax.set_ylim(0, 1.5)

plt.show()