2023年金融科技建模大赛(初赛)开箱点评-基于四川新网银行数据集

news2025/1/11 19:47:57

各位同学大家好,我是Toby老师。2023年金融科技建模大赛(初赛)从今年10月14日开始,11月11日结束。

图片

比赛背景

发展数字经济是“十四五”时期的重大战略规划。2023年,中共中央、国务院印发了《数字中国建设整体布局规划》,提出建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。加快数字中国建设,对全面建设社会主义现代化国家、全面推进中华民族伟大复兴具有重要意义和深远影响。其中,做强做优做大数字经济,推动数字技术和实体经济深度融合,在农业、工业、金融、教育、医疗、交通、能源等重点领域,加快数字技术创新应用。金融科技聚焦数字经济时代之下的金融领域,其在大数据、人工智能、云计算等颠覆性科技在金融行业的创新应用,正在深刻影响金融业务的发展和转型。金融科技正成为金融发展不可或缺的核心要素。

在此背景下,由四川省教育厅主办,西南财经大学承办“2023年全国大学生金融科技建模大赛暨第四届四川省大学生金融科技建模大赛”将于10月14日开赛。本届大赛得到四川新网银行股份有限公司和东方财富信息股份有限公司的大力支持,将金融科技建模大赛定位成全国一流的新财经学科竞赛。现将有关事项通知如下:

一、组织架构

主办单位:四川省教育厅

承办单位:西南财经大学

协办单位:西南财经大学金融学院、西南财经大学教务处、西南财经大学经管实验教学中心、西南财经大学金融建模协会

支持单位:四川新网银行股份有限公司、东方财富信息股份有限公司

二、比赛目的

2023年全国大学生金融科技建模大赛暨第四届四川省大学生金融科技建模大赛面向全国高校全日制专科生、本科生及研究生,提出金融行业的智能决策问题,要求参赛选手利用脱敏数据,自发探索宏观数据,完成建模过程、呈现解决方案。旨在通过赛事帮助参赛者触摸金融科技行业前沿课题,学以致用,培养解决实际问题的综合能力和知识应用能力。

三、赛项说明

1.参赛对象:本次大赛面向全国高校的全日制专科生、本科生和研究生

2.参赛语言:Python

3.赛题设置:本次比赛的主题是“客户复购行为预测”。银行不仅关注新客户获客,也关注老客户的复购行为,希望增加客户黏性。客户在金融产品和服务上的重复购买行为越多,客户黏性越大。银行可以通过识别这些黏性客户,更好地分析他们的需求,并向他们推送新产品,进行客户关系管理。本次比赛的目标是对客户复购频率的三分类预测。比赛选手需要根据客户信息(包括基础客户画像信息、产品购买行为信息以及第三方客户画像补充信息)预测客户复购行为标签:低频(0)、中频(1)、高频(2),并根据客户平均价值(低频1、中频3、高频5),在独立样本上检验预测准确性(加权准确性)。

4.参赛形式:参赛形式为个人赛,每人需填报一名指导老师,指导老师需为本校专兼职教师。

四、竞赛流程

(一)竞赛报名

1.报名时间:2023年9月29日-2023年11月11日

(二)竞赛时间

报名阶段:(9月29日-11月11日)

本次大赛使用为该赛区专门搭建的基于Python程序语言的在线竞赛平台Credit Lab线上报名参加,按要求填写、上传相关信息并通过审核后完成报名。

初赛阶段:(10月14日-11月11日)

初赛时间为10月14日至11月11日,选手在报名审核通过后直接在比赛平台提供的云服务器进行模型构建和结果提交,比赛平台会自动对代码进行查重并且生成查重报告。除比赛提供的脱敏数据外,选手可使用choice数据库探索宏观数据优化模型。

复赛阶段:(11月11日-11月22日)

复赛为11月11日至11月22日,初赛阶段选手综合排名(分数计算方式章程中附件2中初赛评分标准)前50%的选手有资格进入复赛。复赛阶段组委会将更换数据集,复赛结束后将进行资格和结果复审,并按奖项设置颁发奖项。综合成绩靠前的选手将被邀请参加决赛。

决赛阶段:(11月30日)

决赛形式为现场或线上答辩,参赛选手对自己的建模思路进行展示,评委会会对知识和能力进行提问,组委会依据决赛最终成绩决出特别奖项。时间暂定为11月30日。

比赛评分规则

图片

参赛数据说明

图片

开箱点评:

这次模型竞赛目标变量有三个类别,比之前二分类模型要难。分类统计发现属于非平衡数据,0低频,1中频,2高频的人群占比分别为65%,20%,14.6%。看来消费频率高的人群占比并不高,只有14.6%。营销只要抓住了这14.6%高价值人群,即可实现利润最大化,行内人俗称智慧营销。智慧营销具体介绍可以参考之前文章《RMF模型-实现银行信用卡用户分级_电商VIP客户挖掘(精准营销/智慧营销)》,《谁主沉浮?银行,消金,互联网公司的精准营销_智慧营销完全解读(收藏)》。

图片

这是比赛数据的表格。

图片

这次模型竞赛的建模有3个表格需要整合,分别是X1_train,X2_train,X3_train。X1_train和X3_train是基础客户画像信息和第三方客户画像补充信息,共69个变量,用客户编号即可把这两个表数据链接在一起。X2_train是客户上一年产品购买行为信息,属于行为数据,隐藏了大量重要信息,但没法直接通过客户编号与其它2个表格整合。但我们可以写脚本数据预处理,从X2_train表里提取有价值衍生变量,组合到其它两个表里。

我把数据整理一下,整合为data.xls数据集,给大家看看。

图片

这次竞赛有大量数据预处理工作,包括很多变量没有价值,需要删除。例如下图变量绝大多数值为空缺值,或全部为空缺值,这些变量对模型没有意义,应该删除。

图片

图片

数据存在大量字符串类型数据的变量,需要转换为数值型后才能建模。

图片

我转换后把数据保存为encode_data.xls,大家看转换后就没有字符串数据类型的值了。

图片

通过变量价值评估,我发现很多变量价值低。我把价值含量低变量删除,只五十五个变量。

图片

通过相关性分析,发现大量高相关性变量。我们还能删除大量变量,预估20多个变量入模即可。

图片

这次竞赛是三分类器模型,我建模后得到target=0的性能如下

precision :0.90327381

sensitivity:0.70417633

f1_score:0.79139505

具体实现多分类器模型脚本在《python风控建模实战lendingClub》课程的《机器学习多分类模型解决方案-multiClass》章节可以找到,有现成脚本下载。

我把target的0和1合并后,建立筛选VIP客户的信用评分卡模型,下图见AUC: 0.79。模型质量还不错。

图片

通过设置评分卡,我们可以生成客户信用分数,如果信用分数越高,客户购物意愿越强,反之亦然。我们看客户编号为2的信用分数较高,为735分,购买意愿强,可以发送给营销部门重点推广。我们观察到客户编号为18的客户信用分数为570分,分数较低,购买意愿不强,不需要在这个客户上浪费营销资源。

图片

构建python信用评分卡模型具体代码和理论可以收藏课程了解教程《python信用评分卡建模(附代码)》

模型竞赛总结-僵尸数据

此模型竞赛整体设计较好,有一定难度,特别是在数据预处理上需要花很多功夫,不仅要关联3张表格,还要筛选有价值变量,处理各种数据类型的值。

模型竞赛不足的是变量没有中文释义,而且很多变量是脱敏后数据,缺乏实际意义。我们对这样数据称为僵尸数据,这样模型竞赛称为僵尸模型竞赛。参加僵尸模型竞赛不能得到有价值业务意义,只能为了玩数字游戏而玩数字游戏。比如我们在变量重要性分析时候,发现A3是一个非常重要变量,但不知道A3到底是什么,这样结论没法反馈到业务方。

变量没有中文释义,容易产生数据泄露问题。X2_train里存储着行为变量,我们可以从中挖掘大量有价值衍生变量。但这些行为变量可能发生数据泄露情况,需要业务知识来判断。我们不知道变量中文释义,就没法用业务知识筛选数据泄露变量,进而为模型存在隐患埋下伏笔。我之前写过数据泄露的相关文章可参考《数据泄露-揭秘机器学习模型如何作弊》。

我建议模型竞赛举报方以后用真实数据为学生建模,这样学生既能提高建模能力,又能把得到重要结论反馈给业务方,还能加深对业务理解能力。

作为写论文学生,这样模型竞赛很那用于写论文。没有中文释义变量怎么做用户画像?

因为僵尸数据,我不想在这项目花费太多时间,只从X2_train里衍生了一个B3变量入模,这个变量看着像客户评级,根据经验,应该能提升模型。我相信很多参赛者的模型性能比我好,他们从X2_train里提取了更多变量。

图片

唯一能够解释主办方用脱敏数据理由是担心泄露公司内部商业信息,Toby老师觉得主办方大可不必这样担忧。美国lendingclub,捷信举报的模型竞赛能够提供真实数据,我们只要隐藏客户身份证,电话等敏感信息即可,客户编号0,1,2又不能说明客户真实身份。即使我们通过数据挖掘发现一些问题,也可反馈给业务方,做出重大贡献,就像hacker找出bug,这是有利事情。隐瞒糟糕业务不一定是好事,就像恒大集团,不断隐瞒债务风险,最终暴雷。如果恒大集团早点发现和处理公司风险,就不会沦落成过街老鼠的形象了。

总之,我呼吁大家去参加基于真实数据的模型竞赛,可以获取最大收益。我期待明年主办方能提供更好数据为大家参赛。

欢迎学习更多风控建模相关知识《python金融风控评分卡模型和数据分析微专业课》,我们提供专业评分卡模型等知识,实现自动化信用评分功能

原创作者Toby,文章来源公众号:python风控模型,2023年金融科技建模大赛(初赛)开箱点评

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1173415.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tomcat免安装版修改标题名称和进程

tomcat免安装版启动后闪退问题 问题描述 在官网下载的tomcat免安装版的你安装完环境后发现启动闪退,tomcat启动依赖环境是JDK,所以需要tomcat对应版本的JDK支持。 tomcat8官网下载地址:https://tomcat.apache.org/ JDK环境官网下载地址&…

【python 深拷贝与浅拷贝】

python 深拷贝与浅拷贝 问题: 在用影刀编写流程的时候发现,明明只修改人名为“小张”对应的字典里面的值,但是所有的人名对应的值都被修改了。 原因: 第14行,设置键值对,值对应的变量“初始打卡类型字…

Java 多线程的三大特性

在JAVA中,线程有原子性、可见性和有序性三大特性。 1.原子性 1.1 定义 对于涉及共享变量的操作,若该操作从其执行线程以外的任意线程来看都是不可分割的,那么我们就说该操作具有原子性。它包含以下两层含义: 访问(读、…

基于8086的出租车计价器系统设计

**单片机设计介绍,1665基于8051单片机与1601LCD的计算器设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 一个基于8086的出租车计价器系统可以分为硬件和软件两部分。 硬件部分包括输入设备(例如计价器…

LangChain+LLM实战---Midjourney高级技巧的极简教程

原文:An advanced guide to writing prompts for Midjourney ( text-to-image) 作者:Lars Nielsen Midjourney生成的图像,文本Prompt:beautiful, fantasy city unreal engine 一句话介绍midjourney ? 对于那些还没有听说过Mid…

【教3妹学编程-java基础5】java多态详解

3妹:“太阳当空照,花儿对我笑,小鸟说早早早,你为什么背上炸药包” 2哥 :3妹,什么事呀这么开心呀。 3妹:2哥你看今天的天气多好啊,阳光明媚、万里无云、秋高气爽,适合秋游。 2哥&…

Zinx框架-游戏服务器开发003:架构搭建-需求分析及TCP通信方式的实现

文章目录 1 项目总体架构2 项目需求2.1 服务器职责2.2 消息的格式和定义 3 基于Tcp连接的通信方式3.1 通道层实现GameChannel类3.1.1 TcpChannel类3.1.2 Tcp工厂类3.1.3 创建主函数,添加Tcp的监听套接字3.1.4 代码测试 3.2 消息类的结构设计和实现3.2.1 消息的定义3…

【Agent模型1】MemGPT: Towards LLMs as Operating Systems

论文标题:MemGPT: Towards LLMs as Operating Systems 论文作者:Charles Packer, Vivian Fang, Shishir G. Patil, Kevin Lin, Sarah Wooders, Joseph E. Gonzalez (UC Berkeley) 论文原文:https://arxiv.org/abs/2310.08560 论文出处&#x…

分享86个工作总结PPT,总有一款适合您

分享86个工作总结PPT,总有一款适合您 PPT下载链接:https://pan.baidu.com/s/12aRTr5NKG5YTnMnwNbqOrQ?pwd8888 提取码:8888 Python采集代码下载链接:采集代码.zip - 蓝奏云 学习知识费力气,收集整理更不易。知…

delphi 监测某音新增评论以及解决x-bogus签名验证(2023-11-5)

一、工作原理及流程: 1、从aweme接口取得aweme评论总数量; 2、与之前的数量比较,如果有新增评论; 3、从comment评论接口统计评论以及评论回复数量,得出新增评论数量; 4、按时间排序评论&#x…

Oracle(13)Maintaining Data Integrity

目录 一、基础知识 1、Data Integrity 数据库的完整性 2、Types of Constraints 约束类型 3、Constraint States 约束状态 4、Guidelines for Constraints 约束准则 二、基础操作 1、Enabling Constraints 启用约束 2、命令方式创建约束 3、修改表创建的约束 4、删除约…

【移远QuecPython】EC800M物联网开发板调用网络API(使用SIM卡联网并调用高德地图API的定位坐标转换)

【移远QuecPython】EC800M物联网开发板调用网络API(使用SIM卡联网并调用高德地图API的定位坐标转换) 高德API使用方法: 文章目录 API相关配置SIM卡联网网络操作API调用 高德地图API产品介绍适用场景使用限制使用说明坐标转换 附录&#xff…

UUID 的 5 个版本

UUID 的全称是 Universally Unique Identifier,中文为通用唯一识别码。 在对 UUID 进行说明之前,我们来看一个标准的 UUID。 下面就是一个标准的 UUID,使用横杠分隔符来进行分隔: 123e4567-e89b-42d3-a456-556642440000 xxxxxxx…

几个浏览GitHub开源项目的高级技巧,你知道几个?

大家好,我是豆小匠。GitHub作为全球最大的开源社区,里面有大量优质的开源项目。为了让用户更好浏览这些开源项目,GitHub其实提供了一些高级的使用方式,这期就来看看有没有你不知道的~ 一、使用在线VS Code查看源码 GitHub官方提供…

Linux常用命令及主流服务部署大全

目录 Linux 系统目录 一、常用操作命令 1、目录操作 2、文件内容操作(查看日志,更改配置文件) 3、压缩和解压缩 4、更改文件权限 二、各服务部署命令 1、增加虚拟内存 2、JDK 2.1 删除系统自带的openjdk 2.2 安装jdk 2.3 删除jd…

2024最新免费的mac电脑清理垃圾的软件有哪些?

mac电脑是许多人喜爱的电子产品,它拥有优美的设计、流畅的操作系统和强大的性能。但是,随着使用时间的增长,mac电脑也会积累一些不必要的垃圾文件,这些文件会占用宝贵的存储空间,影响电脑的运行速度和稳定性。因此&…

项目部署文档

申请SSL证书 先申请,用免费的 下载证书 先将下载下来的保存起来 服务器安装JDK: 创建develop目录 mkdir /usr/local/develop/ 把JDK压缩包上传到/usr/local/develop/目录 解压安装包 并且将安装到指定目录 tar -zxvf /usr/local/develop/jdk-8u191-linux-x64.tar.gz -C /us…

JavaSpringbootMySQL高校实训管理平台01557-计算机毕业设计项目选题推荐(附源码)

目 录 摘要 1 绪论 1.1 研究背景 1.2 研究意义 1.3论文结构与章节安排 2 高校实训管理平台系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据增加流程 2.2.2 数据修改流程 2.2.3 数据删除流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系…

RT-Thread内核移植

目录 前言一、实验平台简介1.1 W601简介1.2 RT-Thread简介1.3 开发环境 二、W601的SDK移植三、RT-Thread内核移植四、下载验证4.1 串口下载程序4.2 ST-Link下载 前言 本文以正点原子W601开发板为基础,讲解如何移植RT-Thread,本文所用资料见附件资源 一、…

SQL数据库使用方法

首先打开sqlite3.exe所在文件夹,如图1 图1 在文件夹路径中将路径改为cmd,如图2所示 图2 在弹出的cmd窗口中输入如图3所示。 图3 sqlite3 tichiceliang.db 其中tichiceliang是数据库名称。然后按enter,再在cmd中输入.table,可以看到文件夹目…