报名了,奖金6万!2024年四川省大学生数据科学与统计建模竞赛(算法赛)-基于新网银行数据集

news2024/10/27 1:14:26

为进一步培养学生创新精神和实践能力,鼓励学生运用统计学模型、机器学习模型等数据科学专业知识,协助解决经济社会领域中的实际问题,由四川省教育厅主办,西南财经大学与四川新网银行承办,四川省普通本科高等学校统计学类专业教学指导委员会、四川省统计学会协办的2024年四川省大学生数据科学与统计建模竞赛正式启动。目前模型竞赛报名截止时间到11月7日,还没有报名的同学赶紧报名!

举办方:

四川省教育厅 承办:西南财经大学、新网银行 协办:四川省普通本科高等学校统计学类专业教学指导委员会、四川省统计学会

大赛背景

机器学习模型在信用风险评估领域已被广泛应用,在疫情、经济增速变化等事件冲击下,经济环境和数据规律会发生变化,可能导致机器学习模型面临概念漂移(Concept Drift)问题,如何在跨周期样本上构建区分能力稳定的风险模型是金融机构风险管理关注的重要问题,新网银行以建设“新一代数字科技普惠银行”为愿景, 始终坚持技术立行,通过敏捷的信息科技体系和精准的智能风控体系,推动数字普惠金融业务发展。本次比赛将提供真实业务场景下的跨越长周期客户脱敏信贷数据,包含多产品(客群)的高维特征数据,以及风险表现标签;邀请参赛者对数据进行探索分析,综合利用机器学习算法、深度学习算法、大模型等技术设计区分能力高、稳定性强的信用风险预测模型。

赛题描述

题目:跨经济周期智能风控模型算法大赛

赛题介绍:参赛选手基于所提供的数据构建模型准确预测客户风险,数据涵盖人口统计、借还款行为等多个维度的特征信息,以及贷款申请后的风险表现数据,期望选手开发模型,对客户风险进行识别,帮助金融机构进一步提升模型在跨经济周期样本上的风险识别和防范能力。

初赛任务

预测验证集上的客户违约概率,通过大赛网页提交预测结果。

复赛任务

模型解决报告评审

展示任务:

现场汇报交流,含挑战创意任务:尝试运用大模型,提升风险建模的效率、改进效果,形式不限;如通过agent实现自动化的数据清洗、风险建模、报告生成、端到端的智能风控策略设计等。

评分标准

提交的结果使用AUC稳定性指标进行评估。对于每个date对应的预测,都会计算一个AUC。通过每个date的AUC,拟合一条线性回归线a * x+ b,并计算下降率min(0, a),用于惩罚预测能力下降的模型。通过计算上述线性回归残差的标准差,对模型的波动性施加惩罚。

指标计算:AUC稳定性指标 = mean(AUC) + 4* min(0, a) - std(残差)

复赛评分规则

复赛评分 = 70%* MAX(100 - 初赛评分排名,0) + 30%*主观评审成绩

其中:主观评审成绩总分100,包含以下维度:报告完整性(20%) ,代码规范性(20%) ,问题分析和探索(30%),方案创新性(30%) ,每项维度打分,分为5个档次,优异-100分,优秀-90分,良好-80分,中等-70分,中等以下60分。

参赛与组队规则

全国在校大学生(本科、硕士/博士生)均可报名参赛,每支队伍由不超过3名参赛选手及1名指导老师组成,指导老师必须是参赛选手所属院校在职教师,1名学生至多加入一支队伍,鼓励同学们跨学校、跨年级、跨专业组队参赛。

数据说明

特征:数据包括客户基本信息类(x0-x20),征信数据-历史金融借贷类(x20-x256)、征信数据-其他行为类(x256-x3805)

风险标签:客户在授信后是否发生逾期,其中y=1代表逾期,y=0代表未逾期。

时间变量:变量date记录了客户的授信所属的阶段。

样本量:总计8万,其中训练集数据量6.2万,测试集数据量1.8万。训练集正样本(y=1)约占比18%。测试集正样本占比11%。

说明:相关数据经过脱敏,分层抽样、模拟转换等处理,不涉及客户隐私,不反映金融机构真实业务数据指标。

排行榜

Toby老师观察目前有71支团队参赛,估计后续会增加。

图片

图片

目前比赛第一名最优成绩为0.70628,最差成绩0.44,差异挺大。

图片

Toby老师初步快速测试了一下,线下AUC可达到0.68397,和目前第一名相差0.022。这只是快速测试,后期加上变量特征工程处理,融合模型,调参,模型还有提升空间。现在大学生团队还是挺厉害,比2年前强多了。这次模型竞赛AUC要上0.7,需要在诸多环节下功夫,没有大量建模经验学生要做到这点很难,Toby老师隐隐嗅到背后职业战队的味道。诸多参数选手可谓人才!新网银行可以特招入职。

图片

该数据集质量不太好,建模AUC很一般。即使通过衍生大量变量或做融合模型来提升模型性能,上千变量的模型实际上很难部署上线,出现问题,也很难找bug。

图片

图片

由于篇幅有限,今天就讲到这里,过几天会写文章开箱测评《2024年四川省大学生数据科学与统计建模竞赛(算法赛)》大赛,欢迎大家及时关注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2224315.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LLM生命周期

LLM生命周期 1.Using LLMs 第一种方式: Public API or Private API. 第二种方式: 感谢开源模型,Deploy or Using them via private API. 2.Stage1:BUILDING 1.准备数据(Data preparation & Sampling&#xff…

Vue - Element 选择器 el-select 既可以选择下拉又可以手动输入文本功能(手动输入的值只能是数字 并且支持4位小数)

Vue - Element 选择器 el-select 既可以选择下拉又可以手动输入文本功能(手动输入的值只能是数字 并且支持4位小数) 备注 filterable 下拉框开启快速搜索功能 no-match-text 当输入的内容在下拉框中找不到时;下拉框提示的文字 handFocus 触发…

C++:模版初阶

目录 1. 泛型编程 2.函数模版 2.1. 函数模版的用法 2.2. 函数模版的原理 2.3 函数模板的实例化 2.4 模版参数的匹配原则 3. 类模版 3.1 类模版的格式 3.2. 类模版的实例化 1. 泛型编程 如何实现整形、字符串,或者其他自定义类型的交换函数&#x…

Unity AnimationClip详解(2)——动画数据的优化

【内存优化】 首先要意识到运行时和编辑时的区别,当运行时和编辑时所需的数据相差不大时,我们用同一套数据结构即可,当两者差异较多或者数据量很大时,需要有各自的数据结构,这意味着在打包或构建时需要将编辑时数据转…

Android Framework关闭触摸振动

文章目录 手势上滑时振动代码performHapticFeedback作用和意义 触摸振动开关设置Framework关闭触摸时振动 手势上滑时振动代码 安卓手机由底部往上滑时,会有震动,然后进入Recents多任务,其触发震动调用的代码 packages/apps/Launcher3/quick…

LCD手机屏幕高精度贴合

LCD手机屏幕贴合,作为智能手机生产线上至关重要的一环,其质量直接关乎用户体验与产品竞争力。这一工艺不仅要求屏幕组件间的无缝对接,达到极致的视觉与触觉效果,还需确保在整个生产过程中,从材料准备到最终成品&#x…

robots协议ctf

robots协议 Robots协议,全称为“网络爬虫排除标准”(Robots Exclusion Protocol),是互联网上用于指导搜索引擎蜘蛛如何抓取和访问网站的一种协议。网站可以通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,从而保护…

神经架构搜索:自动化设计神经网络的方法

在人工智能(AI)和深度学习(Deep Learning)快速发展的背景下,神经网络架构的设计已成为一个日益复杂而关键的任务。传统上,研究人员和工程师需要通过经验和反复试验来手动设计神经网络,耗费大量时…

怿星科技薛春宇丨智能汽车软件研发工具链国产化的挑战和探索

2024年7月25日,由上海良益企业管理咨询有限公司主办的“2024域控制器技术论坛“在上海成功举办,十位嘉宾做了精彩分享。“整零有道”将陆续刊出部分演讲的文字实录,以飨读者。 本期刊出怿星科技副总经理薛春宇的演讲实录:智能汽车…

react-signature-canvas 实现画笔与橡皮擦功能

react-signature-canvas git 地址 代码示例 import React, { Component } from react import { createRoot } from react-dom/clientimport SignaturePad from ../../src/index.tsximport * as styles from ./styles.module.cssclass App extends Component {state { trimmed…

sheng的学习笔记-AI基础-正确率/召回率/F1指标/ROC曲线

AI目录:sheng的学习笔记-AI目录-CSDN博客 分类准确度问题 假设有一个癌症预测系统,输入体检信息,可以判断是否有癌症。如果癌症产生的概率只有0.1%,那么系统预测所有人都是健康,即可达到99.9%的准确率。 但显然这样的…

多款云存储平台存在安全漏洞,影响超2200万用户

据苏黎世联邦理工学院研究人员Jonas Hofmann和Kien Tuong Turong的发现,端到端加密(E2EE)云存储平台存在一系列安全问题,可能会使用户数据暴露给恶意行为者。在通过密码学分析后,研究人员揭示了Sync、pCloud、Icedrive…

方形件排样优化与订单组批问题探析

方形件排样优化与订单组批问题是计算复杂度很高的组合优化问题,在工业工程中有很广泛的应用背景。为实现个性化定制生产模式,企业会选择订单组批的方式,继而通过排样优化实现批量切割,加工完成后再按照不同客户需求进行分拣&#…

洛谷 P1226:【模板】快速幂

【题目来源】https://www.luogu.com.cn/problem/P1226【题目描述】 给你三个整数 a,b,p,求 a^b mod p。【输入格式】 输入只有一行三个整数,分别代表 a,b,p。【输出格式】 输出一行一个字符串 a^b mod ps&a…

多线程——线程池

目录 前言 一、什么是线程池 1.引入线程池的原因 2.线程池的介绍 二、标准库中的线程池 1.构造方法 2.方法参数 (1)corePoolSize 与 maximumPoolSize (2)keepAliveTime 与 unit (3)workQueue&am…

GPT-4o 和 GPT-4 Turbo 模型之间的对比

GPT-4o 和 GPT-4 Turbo 之间的对比 备注 要弄 AI ,不同模型之间的对比就比较重要。 GPT-4o 是 GPT-4 Turbo 的升级版本,能够提供比 GPT-4 Turbo 更多的内容和信息,但成功相对来说更高一些。 第三方引用 在 2024 年 5 月 13 日&#xff0…

HTB:Blocky[WriteUP]

目录 连接至HTB服务器并启动靶机 使用nmap对靶机进行端口扫描 再次使用nmap对靶机开放端口进行脚本、服务信息扫描 对FTP服务版本:ProFTPD_1.3.5进行漏洞扫描 对SSH服务版本:OpenSSH 7.2p2进行漏洞扫描 使用浏览器访问靶机80端口 使用浏览器访问U…

信息搜集-域名信息收集

1.1 域名信息收集 WHOIS查询: 通过WHOIS查询可以快速得到域名的IP段、DNS解析、注册时间、地址等信息,或许运用合理可以巧妙的绕过CDN。备案信息收集: 网站备案信息收集更加方便定位资产到具体的企业名称、ICP备案号、备案人名称、公司、所处…

图片写入GPS经纬高信息

近期项目中需要往java平台传输图片,直接使用QNetworkAccessManager和QHttpMultipart类即可,其他博文中有分享。 主要是平台接口对所传输图片有要求:需要包含GPS信息(经度、纬度、高度)。 Qt无法直接实现,…

2003年秋季我给哈工大数学研究生写的讲义

我写的没出版讲义共有278页,书末参考文献 我写的讲义书末索引,冯克勤的书《代数数论》书末没有索引,陆洪文、李云峰的书《模形式讲义》书末也有索引 我写的讲义自制的封面 (对数学的研究我的经验是,跟其他科学类似&am…