金融信用评分卡建模项目:AI辅助

news2024/10/21 16:45:11

        最近我一直忙着开发一个信用评分卡建模工具,所以没有时间更新示例或动态。今天,我很高兴地跟大家分享,这个工具的基本框架已经完成了,并且探索性的将大语言模型(AI)整合了进去。目前ai在工具中扮演智能助手,完成用户解答功能,帮助用户更好地理解和使用信用评分卡建模信息。整个过程中遇到了不少挑战。

        下面向大家介绍下工具的主要板块和功能,希望得到大家的宝贵指导意见。

        1、数据探索

        主要实现加载源数据和可视化的功能,开发采用的样本数据是开源的德国信用数据集:GermanCredit。

cc1799b1e813462ea434cc860696f92b.png

        项目采用嵌入pygwalker的方式对源数据进行可视化,用户可以自行组合分析数据内容。pygwalker示例如下:

 引用:https://zhuanlan.zhihu.com/p/682465515

d635d496a9fd4788827df0ab9203cd75.gif

        2、特征分析

        对源数据的特征进行分析,主要采用以下算法来实现

  •    箱线图:分析异常样本
  •   卡方检验(Chi-Squared Test):适用于分类任务和离散特征
  •   t-检验(t-test):适用于分类任务和连续特征
  •   方差分析(ANOVA):适用于多类别分类任务和连续特征
  •   Pearson 相关系数:适用于连续特征和标签
  • ......

aca25865aec14a388179a2346d37be6e.png

 

        3、抽样

        对源数据进行抽样,目前采用的是分层抽样方式,根据目标变量,进行分层抽样。

0df88da2757840b2aab46de5e30138e8.png

        4、WOE转换

        金融信用评分卡要求比较稳健及可解释性强,所以woe转换是必不可少步骤。

        ‌‌WOE(Weight of Evidence)转换是一种将分类变量的每个类别映射到一个连续的数值的方法,这个数值反映了该类别相对于参考类别(通常是目标事件发生率最低的类别)对目标事件发生概率的影响强度‌。WOE转换的公式通常是对数变换,其值可以为正、负或零,代表了该特征值对“好客户”和“坏客户”的影响程度。

WOE转换在数据分析和建模中有多种用途和好处:

  • ‌处理异常值‌:WOE转换可以处理数据中的异常值,通过将极端值分组到单独的类别中,避免对模型产生负面影响。
  • ‌处理缺失值‌:缺失值可以单独分组,从而不影响模型的训练。
  • ‌处理分类变量‌:WOE转换帮助处理分类变量,无需虚拟变量,可以直接用于逻辑回归等模型中。
  • ‌提升模型效果‌:通过标准化特征值,WOE转换可以提高模型的预测效果和可解释性。

71b686e175084d01a489dbfddfefb10f.png

        5、模型评估

        模型评估板块前面是模型训练,目前该板块没有提前输出信息,所以没有展示。模型评估主要是常用的一些模型评估指标,目前想到的是:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、ROC-AUC/Gini、F1 Score、KS、以及Lift图、AUC-ROC等。

0cd4b16bc15346f399b3da947a8837ad.png

 

17f13c8c54f546ea82a97281eb79a5cc.png

        6、评分卡生成

        这是评分卡建模最后一步,生成评分卡,及评分的PSI值评估,目前看模型生成的评分卡PSI是接近正太分布,而且PSI=0.0097,这个数值非常好的。

454e86134d834601a529516681356e32.png

 

          7、大语言模型ai助手

        这是此项目唯一的亮点和创新性,将llm融入评分卡建模的过程,目前市场上是不多见的。虽然作用和价值不知能能有多少,但是这是一个让我学习,不断进步的过程。

        急着分享,很多功能还未实现。以下的与与助手聊天的过程。

f990b9d3d0704272b3c52a7123b6d60d.png

907d8942f6ff47f5bf54bd0c8bd0bbcc.jpeg

115d2428f1214f4e84c62a719d2b228f.png

0b77cfc126894fb08bbbcf0c3ded178c.png

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2213727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

探索人工智能:深度解析未来科技的核心驱动力

目录 🍔 人工智能的应用方向 🍔 人工智能的发展历史 🍔 人工智能、机器学习、深度学习关系 🍔 为什么学习机器学习? 🍔 小节 学习目标 🍀 了解人工智能的应用方向 🍀 了解人工智…

CICD持续集成交付与持续交付

一 CICD是什么 CI/CD 是指持续集成(Continuous Integration)和持续部署(Continuous Deployment)或持续交付(Continuous Delivery) 1.1 持续集成(Continuous Integration) 持续集成…

javascript object

用const去define一个constant 用let (如果要reassign的话) 一个变量。

每天3分钟,彻底弄懂神经网络的优化器(十一)AdamW

1. AdamW算法的提出 AdamW算法是由Ilya Loshchilov和Frank Hutter提出的。这一算法的详细描述和原理可以在论文《Decoupled Weight Decay Regularization》1中找到,该论文发表于2017年。在论文中,作者指出了传统Adam算法在权重衰减(weight d…

初等数学几百年重大错误:将根本不是无穷集的真子集误为其真子集

黄小宁 【摘要】长为1的直线段形橡皮筋A拉长为长为2的橡皮筋B(可二等分),去掉拉力使B缩短成原来的A,A不是B的一半。同样可证直线段L均匀压缩变短为直线段D~L不能成为L的一部分。数学一直误以为D是L的一部分使康脱推出…

C/C++栈和队列

一.队列 结构定义 FIFO:队列是一个先进先出的数据结构; 只允许从队首出元素,从队尾入元素; head和tail所包含的区间是左闭开的; 入队操作 没用真实将一号元素删除,而是将head指针向后移动一位,进行逻辑上的删除; 出队操作 将新元素储存在队尾指针所在的位置,并将队尾指针…

二校区图书馆一楼《中华再造善本》很多

上两幅为同一本书的,有“太平之时嫌官小,离乱之时怕出征”这句 上两幅为同一本书的,为《水浒传》节选 二校区图书馆一楼满眼都是线装的古书《中华再造善本》 图书馆五楼 图书馆四楼,一个人躺在长沙发上 图书馆一楼的透明电梯

Intel Xeon(至强) 服务器 CPU

Purley平台:Sky Lake(第一代)、Cascade Lake(第二代) Whitley平台:Cooper Lake、Ice Lake(第三代) Eagle Stream平台:Sapphire Rapids、Emerald Rapids(第四…

Vite打包碎片化,如何化解?

背景 我们在使用Vite进行打包时,经常会遇到这个问题:随着业务的展开,版本迭代,页面越来越多,第三方依赖也越来越多,打出来的包也越来越大。如果把页面都进行动态导入,那么凡是几个页面共用的文…

RHCSA的学习(5)

一、文本内容处理命令 1、数据流和重定向 1、数据流 标准输入(standard input,简称stdin):默认情况下,标准输入指从键盘获取的输入标准输出(standard output,简称stdout)&#xff…

2020前端面试 - JavaScript2.0篇

前言: 个人觉得面试其实是一个自我学习的过程,如果说短时间内找不到工作,那一定是你面的还不够多,不要气馁,不要放弃,在心底告诉自己,下一次面试,再下一次面试,一定能够拿…

为什么inet_ntoa会返回错误的IP地址?

目录 1、调用inet_addr和inet_ntoa实现整型IP与点式字符串之间的转换 1.1、调用inet_addr将点式字符串IP转换成整型IP 1.2、调用inet_ntoa将整型IP转换成点式字符串IP 2、调用inet_ntoa返回错误点式字符串IP的原因分析 3、解决多线程调用inet_ntoa返回错误点式字符串IP的办…

在 Docker容器中安装 ROS-Melodic 并使用 rviz 进行图形化显示

文章目录 写在前面1. 背景描述2. 安装步骤2.1 允许本地机器上的用户或进程连接到 X server2.2 拉取 docker 镜像2.3 使用镜像osrf/ros:melodic-desktop-full创建并运行容器2.4 运行 roscore2.5 运行 rviz 参考链接 写在前面 自己的测试环境: Ubuntu20.04&#xff0…

基于SSM的微信小程序博客管理系统(博客1)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 基于SSM的微信小程序博客管理系统实现与设计,实现了管理员与用户,管理员实现了用户管理、博文信息管理、博文类型管理、我的博文管理、个人名片分享管理、签到管理…

SAP S/4 HANA 销售返利

目录 1 简介 2 后台配置 3 主数据 4 业务操作 4.1 场景 1 - 返利应计 4.2 场景 2 - 最终结算 1 简介 在过去 SAP ECC 把“返利”功能集成在了 SD 模块当中,而 SAP S/4 HANA 把“返利”集成在了结算管理功能模块当中。究其原因,主要是 ECC “返利”…

深度解析LMS(Least Mean Squares)算法

目录 一、引言二、LMS算法简介三、LMS算法的工作原理四、LMS算法的特点五、LMS算法的应用场景六、LMS算法的局限性七、总结八、进一步探讨 一、引言 自适应滤波器是一种动态调整其参数以适应变化环境的信号处理工具,广泛应用于噪声消除、信道均衡和系统识别等领域。…

算法工程师重生之第二十五天(加油站 分发糖果 柠檬水找零 根据身高重建队列 )

参考文献 代码随想录 一、加油站 在一条环路上有 n 个加油站,其中第 i 个加油站有汽油 gas[i] 升。 你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发,开始时油箱为空。…

Mysql的Innodb的RR隔离级别到底有没有解决幻读问题?

InnoDB中的repeatable read这种隔离级别通过间隙锁MVCC解决了大部分的幻读问题,但是并不是所有的幻读都能解读,想要彻底解决幻读,需要使用Serializable的隔离级别。 MVCC解决幻读 在RC中,每次读取都会重新生成一个快照&#xff…

EDM平台排行榜与工具推荐

本文总结了EDM平台排行榜,包括ZohoCampaigns、Mailchimp等。各平台在集成性、自动化、模板库等方面各具优势,适合不同规模和需求的企业。选择适合的EDM平台对营销活动成功至关重要。 1. Zoho Campaigns 简介 Zoho Campaigns是Zoho的edm平台&#xff0c…

[LeetCode] 515. 在每个树行中找最大值

题目描述: 给定一棵二叉树的根节点 root ,请找出该二叉树中每一层的最大值。 示例1: 输入: root [1,3,2,5,3,null,9] 输出: [1,3,9]示例2: 输入: root [1,2,3] 输出: [1,3]提示: 二叉树的节点个数的范围是 [0,10…