为进一步培养学生创新精神和实践能力,鼓励学生运用统计学模型、机器学习模型等数据科学专业知识,协助解决经济社会领域中的实际问题,由四川省教育厅主办,西南财经大学与四川新网银行承办,四川省普通本科高等学校统计学类专业教学指导委员会、四川省统计学会协办的2024年四川省大学生数据科学与统计建模竞赛正式启动。目前模型竞赛报名截止时间到11月7日,还没有报名的同学赶紧报名!
举办方:
四川省教育厅 承办:西南财经大学、新网银行 协办:四川省普通本科高等学校统计学类专业教学指导委员会、四川省统计学会
大赛背景
机器学习模型在信用风险评估领域已被广泛应用,在疫情、经济增速变化等事件冲击下,经济环境和数据规律会发生变化,可能导致机器学习模型面临概念漂移(Concept Drift)问题,如何在跨周期样本上构建区分能力稳定的风险模型是金融机构风险管理关注的重要问题,新网银行以建设“新一代数字科技普惠银行”为愿景, 始终坚持技术立行,通过敏捷的信息科技体系和精准的智能风控体系,推动数字普惠金融业务发展。本次比赛将提供真实业务场景下的跨越长周期客户脱敏信贷数据,包含多产品(客群)的高维特征数据,以及风险表现标签;邀请参赛者对数据进行探索分析,综合利用机器学习算法、深度学习算法、大模型等技术设计区分能力高、稳定性强的信用风险预测模型。
赛题描述
题目:跨经济周期智能风控模型算法大赛
赛题介绍:参赛选手基于所提供的数据构建模型准确预测客户风险,数据涵盖人口统计、借还款行为等多个维度的特征信息,以及贷款申请后的风险表现数据,期望选手开发模型,对客户风险进行识别,帮助金融机构进一步提升模型在跨经济周期样本上的风险识别和防范能力。
初赛任务:
预测验证集上的客户违约概率,通过大赛网页提交预测结果。
复赛任务:
模型解决报告评审
展示任务:
现场汇报交流,含挑战创意任务:尝试运用大模型,提升风险建模的效率、改进效果,形式不限;如通过agent实现自动化的数据清洗、风险建模、报告生成、端到端的智能风控策略设计等。
评分标准
提交的结果使用AUC稳定性指标进行评估。对于每个date对应的预测,都会计算一个AUC。通过每个date的AUC,拟合一条线性回归线a * x+ b,并计算下降率min(0, a),用于惩罚预测能力下降的模型。通过计算上述线性回归残差的标准差,对模型的波动性施加惩罚。
指标计算:AUC稳定性指标 = mean(AUC) + 4* min(0, a) - std(残差)
复赛评分规则:
复赛评分 = 70%* MAX(100 - 初赛评分排名,0) + 30%*主观评审成绩
其中:主观评审成绩总分100,包含以下维度:报告完整性(20%) ,代码规范性(20%) ,问题分析和探索(30%),方案创新性(30%) ,每项维度打分,分为5个档次,优异-100分,优秀-90分,良好-80分,中等-70分,中等以下60分。
参赛与组队规则
全国在校大学生(本科、硕士/博士生)均可报名参赛,每支队伍由不超过3名参赛选手及1名指导老师组成,指导老师必须是参赛选手所属院校在职教师,1名学生至多加入一支队伍,鼓励同学们跨学校、跨年级、跨专业组队参赛。
数据说明
特征:数据包括客户基本信息类(x0-x20),征信数据-历史金融借贷类(x20-x256)、征信数据-其他行为类(x256-x3805)
风险标签:客户在授信后是否发生逾期,其中y=1代表逾期,y=0代表未逾期。
时间变量:变量date记录了客户的授信所属的阶段。
样本量:总计8万,其中训练集数据量6.2万,测试集数据量1.8万。训练集正样本(y=1)约占比18%。测试集正样本占比11%。
说明:相关数据经过脱敏,分层抽样、模拟转换等处理,不涉及客户隐私,不反映金融机构真实业务数据指标。
排行榜
Toby老师观察目前有71支团队参赛,估计后续会增加。
目前比赛第一名最优成绩为0.70628,最差成绩0.44,差异挺大。
Toby老师初步快速测试了一下,线下AUC可达到0.68397,和目前第一名相差0.022。这只是快速测试,后期加上变量特征工程处理,融合模型,调参,模型还有提升空间。现在大学生团队还是挺厉害,比2年前强多了。这次模型竞赛AUC要上0.7,需要在诸多环节下功夫,没有大量建模经验学生要做到这点很难,Toby老师隐隐嗅到背后职业战队的味道。诸多参数选手可谓人才!新网银行可以特招入职。
该数据集质量不太好,建模AUC很一般。即使通过衍生大量变量或做融合模型来提升模型性能,上千变量的模型实际上很难部署上线,出现问题,也很难找bug。
由于篇幅有限,今天就讲到这里,过几天会写文章开箱测评《2024年四川省大学生数据科学与统计建模竞赛(算法赛)》大赛,欢迎大家及时关注。