欢迎关注主页个人介绍及相关链接,获取更多算法源码材料
2023数据资源入表白皮书,推荐系统源码下载-CSDN博客
用友BIP数据资产入表解决方案白皮书,推荐系统源码下载-CSDN博客
背景
信用是一切社会金融体系的根本,有了每个人的信用我们才可以进行放贷、共享充电宝、共享单车等业务。如果可以准确的给每个社会成员的信用做一个打分,将对金融业务的推进有很大作用,很多相关业务的企业也在探索如何实现信用分。
目前业内最通用的方案是评分卡算法,这个算法底层其实就是简单地二分类模型,将逻辑回归或者xgboost进行封装。但是为什么不能直接使用xgboost甚至深度学习算法做信用评估呢?因为金融业务有自己的特殊性,要求模型需要有强解释性,所以评分卡解决方案经常包含分箱和评分两个模块。就是为了做到每个分数的强解释性。
评分卡模型解释性
通过一个例子介绍什么叫强解释性。以下图为例:
这是一个评分卡算法的部分特征数据展示,有年龄、性别、婚姻状况、学历、月收入。评判每个人的分数也很容易:
客户分=基准分+年龄分+性别分+婚姻状况分+学历分+月收入分
所以在评分卡体系中,每个人的分数都会拆分成很多子模块,这些子模块的分数的和,跟基准分加到一起就是信用评分。接下来介绍下评分卡的执行流程。
评分卡流程
1.数据准备
通常评分卡模型的数据需要包含四个方面,分别是客户统计信息、账户属性、消费行为和还款行为。
根据数据目标的不同,可以分为ABC三种评分卡:
- 贷前:申请评分卡(Application score card),又称为A卡
- 贷中:行为评分卡(Behavior score card),又称为B卡
- 贷后:催收评分卡(Collection score card),又称为C卡
2.分箱
分箱算法是将每个字段按照不同的模式进行离散化处理。分箱有很多模式,分为有监督模式和无监督模式。
- 有监督分箱:通过训练二叉树模型,将IV大的切分点找出来实现分箱
- 无监督分箱:利用等频、等距等模式进行分箱
分箱出来的分箱结果需要进行评估,并且不断调整分箱。评估方式是要计算WOE和IV指标。
WOE指的是该组好的客户和所有好的客户的比例,WOE的值最终会影响IV的值,IV的公式:
IV的值越大,说明这个分箱模式对结果的预测越重要,所以分箱的目的是尽可能的提升每组分箱结果的IV值。
通常分箱算法会提供一个WOE和IV的展示图:
3.评分算法
评分算法相对就比较简单,其实就是训练一个逻辑回归或者XGboost模型,将模型系数跟对应的分箱的WOE值做加权。
其中A是个基准分,B为常量,模型系数和WOE值组合成了剩下的变量和。最终通过评分算法将每个人的分数映射到一个合理的区间,所以评分区间的设定主要是调整A的取值,比如我们希望每个人的信用分都是500左右,就可以把A调整为500。最终的评分卡方案就是分箱+打分模型。