1.项目背景
博彩业,作为全球经济中一个庞大而复杂的行业,吸引了无数用户参与其中,然而,在巨大的利益诱惑背后,博彩业对个人和社会造成的潜在危害却不容忽视,尽管博彩活动常被包装为“娱乐”或“休闲活动”,但其背后隐藏的风险和对参与者的负面影响日益显现,无论是从财务损失、心理健康,还是社会影响的角度来看,博彩活动对参与者的危害都显得格外突出。
本研究通过对博彩用户的全面分析,揭示了博彩活动的本质及其对参与者的危害,数据表明,没有用户能够在长期内保持正收益,反而投注越多,损失越大。因此,远离赌博,保持清醒的财务意识,保护心理健康,是每一个个体应当遵循的基本原则。只有避免卷入博彩的泥潭,才能真正守护自身的财务和心理健康。
2.数据说明
列名 | 说明 |
---|---|
customer_id | 用户ID |
first_name | 用户的名字 |
last_name | 用户的姓氏 |
country | 用户所在国家 |
age | 用户年龄 |
gender | 用户性别 |
income_level | 用户收入水平 |
Winning_percentage | 用户的获胜率(百分比) |
Days_Since_Last_Bet | 距离上次投注的天数 |
Active_Days | 用户活跃天数 |
Total_Number_of_Bets | 总投注次数 |
Total_Amount_Wagered | 总投注金额 |
Average_Bet_Amount | 平均投注金额 |
Number_of_Bonuses_Received | 收到的奖金次数 |
Amount_of_Bonuses_Received | 收到的奖金总额 |
Revenue_from_Bonuses | 从奖金中获得的收入 |
Increase_in_Bets_After_Bonus | 获得奖金后投注增加的次数 |
Increase_in_wagering_after_Bonus | 获得奖金后投注金额的增加 |
Should_Receive_Bonus | 是否应再次获得奖金(0 = 否,1 = 是) |
3.Python库导入及数据读取
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import chi2_contingency,spearmanr
from imblearn.over_sampling import RandomOverSampler
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report,confusion_matrix,roc_curve, auc
from sklearn.ensemble import RandomForestClassifier
data = pd.read_csv('/home/mw/input/08307470/Betting users Data .csv')
4.数据预览及数据预处理
查看数据信息:
查看重复值:
0
检查 Winning_percentage 是否有超过 100 的情况:
数据中不存在Winning_percentage超过100的值,也就是这一列不算有异常值了,构建 ‘name’ 列并删除 ‘first_name’ 和 ‘last_name’ 列。判断是否存在同一个ID对应多个name的情况:
可以看到出现了同一个ID对应多个名字的情况,这就说明ID并不是唯一的,可能也是数据的问题,这里就直接删除ID列。检查所有姓名是否在各个变量中对应多个值:
通过观察发现:一个名字只对应一个国家,一个年龄,一个收入水平数值,但是对应的其他特征是存在多个值的。
5.描述性分析
- country: 5000条记录,共223个唯一国家,最常见的国家是Korea(71次)。
- age: 用户平均年龄49.3岁,范围从18到80岁。
- gender: 共有2个性别,女性用户较多(2582次)。
- income_level: 平均收入83197,范围从20000到164955。
- Winning_percentage: 平均获胜率42.2%,范围从0%到100%。
- Days_Since_Last_Bet: 用户上次投注平均为20.7天前,范围从0到40天。
- Active_Days: 用户平均活跃天数227天,范围从5到364天。
- Total_Number_of_Bets: 用户平均总投注次数35次,范围从2到57次。
- Total_Amount_Wagered: 平均总投注金额89208,范围从71057到99998。
- Average_Bet_Amount: 平均每次投注金额977,范围从949到999。
- Number_of_Bonuses_Received: 用户平均收到99次奖金,范围从88到103次。
- Amount_of_Bonuses_Received: 平均收到奖金金额997,范围从880到1030。
- Revenue_from_Bonuses: 用户平均从奖金中获利4992,范围从4400到5500。
- Increase_in_Bets_After_Bonus: 用户在奖金后投注次数平均增加500次,范围从439到550。
- Increase_in_wagering_after_Bonus: 奖金后投注金额平均增加49949,范围从43900到55000。
- Should_Receive_Bonus: 72%的用户应再次获得奖金。
- name: 共622个唯一名字,最常见的是Charles Hernandez(17次)。
6.用户分析
6.1构建新数据
如何构建一个以name为聚合的新数据,需要考虑的比较多,大概构建如下特征:
- name: 用户的姓名
- country: 用户所在的国家
- age: 用户的年龄
- gender: 用户的性别
- income_level: 用户的收入水平
- Average_Winning_Percentage: 每个用户的平均获胜率
- Average_Bet_Amount: 每个用户的平均每次投注金额
- Average_Active_Days: 每个用户的平均活跃天数
- Total_Bets: 每个用户的总投注次数
- Total_Wagered: 每个用户的总投注金额
- Total_Revenue_from_Bonuses: 每个用户从奖金中获得的总收入
- Std_Dev_Bets: 每个用户投注次数的标准差
- Std_Dev_Increase_in_Wagering_after_Bonus: 每个用户在获得奖金后投注金额的标准差
- Recent_Days_Since_Last_Bet: 用户最近距离上次投注的天数
6.2人口特征分析
- 从性别与年龄的联合分布图中可以看出,男性和女性用户在各个年龄段的分布相对均衡。
- 不同年龄段的用户数量波动较大,特别是在50岁左右的年龄段,用户数量达到了一个高峰。
- 用户的收入水平分布较为分散,没有明显的集中趋势,显示出较大的收入多样性。
- 从用户国家分布的柱状图来看,用户主要集中在Germany(德国)、South Georgia and the South Sandwich Islands(南桑威奇群岛)、Comoros(科摩罗)等国家。
6.3用户行为分析
- 用户平均获胜率分布:大多数用户的平均获胜率集中在40%到60%之间,呈现正态分布的特征。
- 用户平均投注金额分布:大部分用户的平均投注金额集中在950-1000左右,分布呈现右偏。
- 用户总投注次数分布:用户的总投注次数分布较为均匀,在0-600次之间有多个峰值。
- 活跃天数与总投注次数/总投注金额的关系:这两个散点图显示,随着活跃天数的增加,总投注次数和总投注金额都会呈现一定的上升趋势,但是并不是严格的线性关系。
- 中奖后投注次数的波动性分布:大多数用户的投注次数标准差集中在5-10次之间,峰值在7-8次左右。这表明用户在中奖后的投注行为有一定的变化,但变化程度相对适中。
- 中奖后投注金额的波动性分布:绝大多数用户的投注金额标准差非常小,集中在0-2500左右,呈现出极度右偏的分布。这意味着大部分用户在中奖后的投注金额变化不大,但有少数用户可能会有较大的波动。
- 不同国家的平均获胜率:展示了平均获胜率排名前五的国家,其中Tokelau(托克劳)最高,约70%,其他国家依次为Bahamas(巴哈马)、Guadeloupe(瓜德罗普)、French Guiana(法属圭亚那)和Gambia(冈比亚)。
- 不同国家的平均投注金额:显示了平均投注金额前10的国家,Nigeria(尼日利亚)最高。
6.4博彩用户真的“赢”了吗?
我们都知道赌博是十赌九输,可是通过之前的分析,不难发现,大多数的用户平均获胜率竟然在40%-60%之间,难道网赌真的是一个运气游戏?输钱的都是运气不好吗?博彩用户真的也能靠着运气赚到钱吗?
乍一看,确实发现,真的有人通过博彩收入了8万元,而且随着投注次数和投注金额的增多,获奖的金额也在越来越大,可是真的是这样吗?真的能通过博彩赚到钱吗?接下来,我将引入一个新的特征,净收益,通过获奖的金额减去投入的金额,通过这一特征,再来判断博彩用户真的赢了吗?
看样子,赌博已经不是十赌九输了,而是逢赌必输!在数据中有622个用户,竟然没有一个是正收益的,而且随着投注次数和投注金额的增加,损失的钱也是越来越多的,因此,博彩用户并没有“赢”得这场博彩游戏,千万要远离赌博,赌博是不会有好下场的。
6.5用户价值分析
这里是站在一个正常、非违法的网络平台分析自己的用户情况,在这里也是做一个学习,回顾之前的RFM模型。
RFM模型是一种衡量用户价值和用户为平台创造利益能力的重要工具。通过RFM模型,我们可以在特定时间范围内,通过用户的近期活跃行为、总投注频次和总投注金额这三个指标,全面描述用户的价值状况。
-
R(Recency):最近一次活跃时间间隔,即用户距离上次投注的时间间隔,通常以天为单位进行衡量。R值越低,表示用户最近一次与平台的互动时间较近,活跃度高;R值越高,表示用户距离上次活跃时间较远,活跃度下降,流失风险较高。
-
F(Frequency):总投注频次,即用户在一定时间范围内进行投注的累计次数。F值越大,表示用户与平台的互动频繁,忠诚度高,粘性强;反之,F值越小,表示用户投注频率低,互动较少,忠诚度较低。
-
M(Monetary):总投注金额,即用户在一定时间范围内投注的累计金额。M值越大,表示用户的投注金额高,可能为平台带来更高的收入;反之,M值越小,表示用户投注金额较少,贡献度较低。
根据RFM模型,用户通常被分为以下8类:
-
重要价值用户(Champions):这类用户活跃度高(R值低),投注频次多(F值高),投注金额大(M值高),是平台的核心用户群体,创造了最大的价值。
-
重要保持用户(Loyal Customers):这些用户投注频次高(F值高),投注金额大(M值高),活跃度稍低(R值较高),但仍然是平台的重要客户,保持其活跃度对于平台至关重要。
-
重要发展用户(Potential Loyalists):这些用户投注金额大(M值高),活跃度高(R值低),但投注频次较少(F值较低),具有很大的发展潜力,未来可能成为重要价值用户。
-
重要挽留用户(At Risk):这些用户投注金额大(M值高),但活跃度低(R值高),投注频次也少(F值较低),正面临流失风险,需采取措施进行挽留。
-
一般价值用户(Average Customers):这些用户活跃度高(R值低),投注频次多(F值高),但投注金额较小(M值较低),他们为平台贡献了一定的价值,是平台的中坚力量。
-
一般保持用户(Need Attention):这些用户投注频次高(F值高),投注金额较少(M值较低),且活跃度较低(R值高),需要特别关注,以防止他们流失。
-
一般发展用户(New Customers):这些用户活跃度高(R值低),投注金额较少(M值较低),投注频次也较少(F值较低),他们是刚刚接触平台的潜在客户,值得进一步培养。
-
一般挽留用户(Hibernating):这些用户活跃度低(R值高),投注金额少(M值较低),投注频次也低(F值较低),正处于流失边缘,需要采取措施唤醒他们的活跃度。
划分后用户如下:
Customer_Segment
Champions 170
Hibernating 155
New Customers 146
Loyal Customers 131
Need Attention 8
At Risk 6
Potential Loyalists 4
Average Customers 2
Name: count, dtype: int64
站在正规的电商平台角度分析:
用户群体呈现出较为明显的两极分化现象。一方面,平台拥有大量的高价值用户(Champions)和忠诚客户(Loyal Customers),这是平台的核心资产;另一方面,也存在相当数量的休眠用户(Hibernating)和新客户(New Customers),这些用户群体蕴含着巨大的潜力,中间价值段的用户相对较少,这表明平台在用户价值提升方面还有很大的改进空间。
针对各类用户的策略建议:
1. Champions(170位)
- 实施VIP会员计划,提供专属优惠和服务
- 邀请参与新产品测试和反馈
- 开展会员专属活动,增强其与平台的情感联系
- 鼓励他们成为品牌大使,通过口碑营销吸引新用户
2. Loyal Customers(131位)
- 发送个性化的感谢信息,表达对其长期支持的感激
- 提供定制化的产品推荐,基于其历史购买行为
- 设计针对性的促销活动,鼓励更频繁的购买
- 收集反馈,了解他们的需求和建议,不断改善服务
3. New Customers(146位)
- 发送欢迎礼包,包含平台使用指南和初次购买优惠
- 提供新手教程,帮助他们熟悉平台功能
- 设计阶梯式奖励计划,鼓励持续购买
- 定期跟进,收集使用体验反馈,及时解决可能遇到的问题
4. Hibernating(155位)
- 发送"我们想念你"的个性化信息
- 提供特别的"回归"优惠,吸引他们重新开始购物
- 调查其不活跃的原因,针对性地改进服务
- 推送最新的产品信息和平台更新,唤起其兴趣
5. 其他群体(Need Attention、At Risk、Potential Loyalists和Average Customers)
- 进行深入的用户调研,了解其需求和痛点
- 提供个性化的产品推荐和优惠
- 设计针对性的用户体验改善计划
- 密切监控这些用户的行为变化,及时调整策略
6.6用户留存率分析
这里设定时间阈值为30天,如果用户最近距离上次投注的天数超过30天,那么就算流失了。
用户留存率: 76.69%
基于对流失用户和未流失用户的数据对比分析,我们得出以下结论:
-
获胜概率:
- 未流失用户的平均获胜概率为42.70%,略高于流失用户的41.56%。
- 这表明获胜体验可能对用户留存有轻微正面影响,但差异不大。
-
活跃度:
- 流失用户的平均活跃天数(230.03天)略高于未流失用户(228.15天)。
- 这一反直觉的结果可能表明,活跃时间长不一定能确保用户留存。
-
投注行为:
- 未流失用户的总投注次数(283.84次)和总投注金额(722,273.42)均高于流失用户(272.17次和700,107.30)。
- 这表明更频繁和更高额的投注可能与用户留存有正相关关系。
-
收益情况:
- 未流失用户的总奖金收入(40,469.25)高于流失用户(39,003.83)。
- 然而,两组用户都呈现净亏损状态,未流失用户的净亏损(-681,804.17)甚至略高于流失用户(-661,103.48)。
-
关键洞察:
- 用户留存似乎与更高的投注频率和金额相关,而不是与更好的财务结果相关。
- 获胜概率的微小差异可能影响用户体验和留存意愿。
- 长期活跃并不能保证用户不流失,可能需要关注其他因素如用户体验、奖励机制等。
7.再次获得奖金的影响因素分析
7.1斯皮尔曼相关分析
-
获胜率越高,用户越有可能再次获得奖金。
-
平均投注金额与获得奖金的可能性呈较强的负相关,意味着小额频繁投注的用户更可能获得奖金。
-
总投注金额、已获得的奖金次数和金额,以及奖金带来的收入和投注增加,都与再次获得奖金的可能性呈负相关。
-
用户的活跃度(最近投注时间、活跃天数)与获得奖金的可能性有弱正相关。
-
年龄和收入水平对是否应该获得奖金几乎没有影响。
7.2卡方检验
通过卡方检验发现:姓名(不同的用户)、性别、博彩用户所在的国家对再次获得奖金的影响不显著。
8.随机森林
8.1数据预处理
这里先剔除斯皮尔曼相关性分析和卡方检验中不显著的因素,然后检查目标变量,查看样本是否平衡,如果不平衡就需要使用SMOTE去平衡样本。
检查样本平衡性:
Should_Receive_Bonus
1 3593
0 1407
Name: count, dtype: int64
样本不平衡使用SMOTE去平衡样本。
8.2建立模型
8.3重要度分析
该随机森林模型在预测博彩用户是否应再次获得奖金方面表现出色,可以被认为是一个可靠的决策工具,其中获胜率是最重要的预测因素,其次是平均投注金额。
9.结论与警示
9.1结论
本项目通过构建新数据集,以个体博彩用户为研究对象,深入剖析了用户特征、价值评估和留存情况,运用斯皮尔曼相关性分析和卡方检验,探究了影响用户再次获得奖金的关键因素。基于这些发现,构建了随机森林模型,不仅预测用户再次获得奖金的可能性,还量化了各因素的影响力。以下是主要发现和洞察:
-
用户人口统计特征
- 样本包含622名博彩用户,年龄分布呈现中年主导趋势,50岁左右用户占比最高。
- 用户来自223个不同国家或地区,其中德国、南桑威奇群岛和科摩罗的用户数量并列最多(各7名)。
-
投注行为分析
- 用户平均获胜率呈正态分布,集中在40%-60%区间。
- 平均投注金额分布右偏,主要集中在950-1000单位。
- 活跃度与投注行为呈正相关,但非严格线性关系。
-
盈利状况分析
- 所有用户均呈现负收益状态。
- 投注频次和金额与损失程度呈正相关。
-
用户价值分层
- 用户群体呈现明显的两极分化:
- 高价值用户(Champions)和忠诚客户(Loyal Customers)构成平台核心资产。
- 大量休眠用户(Hibernating)和新客户(New Customers)蕴含巨大潜力。
- 中间价值段用户相对较少,揭示了用户价值提升的巨大空间。
- 用户群体呈现明显的两极分化:
-
用户留存分析
- 留存率达76.69%,表现优秀。
- 高频高额投注用户倾向于保持较高留存率。
- 财务结果与留存率无显著相关性。
- 长期活跃不等同于高留存,提示需关注用户体验和奖励机制等其他因素。
-
奖金获取影响因素
- 获胜率与再次获得奖金呈强正相关。
- 小额高频投注用户更易获得奖金。
- 总投注金额、已获奖金次数和金额与再次获奖呈负相关。
- 用户活跃度与获奖可能性呈弱正相关。
- 人口统计特征(年龄、收入、性别、国籍等)对获奖影响不显著。
-
预测模型洞察
- 随机森林模型在预测用户再次获奖方面表现卓越,可作为可靠决策工具。
- 获胜率和平均投注金额是最关键的预测因素。
9.2警示
尽管本研究揭示了博彩行业的诸多内部机制和用户行为模式,但最重要的发现是:博彩活动从长远来看对参与者造成的损失远大于收益。数据清晰地表明,没有用户能够长期保持正收益,投注越多,损失越大。
因此,本研究的核心结论是:远离赌博,保护自己的财务健康和心理健康。在博彩业,唯一的赢家是平台本身。