定义
信贷:一切以实现承诺为条件的价值运动方式,如贷款、担保、承诺、赊欠等
信贷业务:本外币贷款、贴现、透支、押汇(表内信贷);票据承兑、信用证、保函、贷款承诺、信贷证明等(表外信贷)
信贷风险管理:
通过风险识别、计量、检测和控制等程序,对风险进行评级、分类、报告和管理的过程,减少金融机构的信贷风险
贷前:管理授信获取
贷中:授信批准后的用信阶段
贷后:贷款发放或其他信贷业务发生后,直到本息收回或信用结束的全过程,包含风险管理和业务管理
- 风险管理:贷后检查、风险预警、催收
- 业务管理:合同管理、资本管理和客户管理等
信贷风控的三种模型策略:
1、规则为主、模型为辅:样本少(黑白名单、年龄地域、公安司法信息),简单通用、基于经验
2、模型为主、策略为辅:样本数较多、特征分类:逾期模型、多头模型、交易模型等保持AUC和KS高位
3、策略为主、模型为辅:样本量丰富;策略的精髓在于分群:年龄分群、收入分群、多头分群、模型分群、风险分群,决策体系中有很多重要的分群,代表决策分支
信贷业务风控
模型设计、样本&数据采集:
- 贷前(授信)
- 贷中(行为)
- 贷后(预警和催收)
- 反欺诈拦截
- 客户画像(有效标签)
数据处理&特征工程:
- 统计维度:金额、次数、天数、类别
- 时间维度:近1天、近3天、近7天、30、60、90、180
- 行为维度:登录、注册、借款、还款
- 数据处理:去除冗余信息、防止过拟合、便于生产验证、节约数据成本
模型算法选择、参数调优
- 100个以下小样本:逻辑回归:WOE分箱调整
- 大样本:机器学习:XGBoost,lightGBM,减少树棵树、降低深度、增加正则项
模型效果评估:区分效果和稳定性
- 技术指标:AUC、KS、头部抓黑能力、bump point等评估指标,分为20个分箱,观察每个分箱坏账率的单调性,当坏样本较少时,建议用AUC作为统计检验量,方差更低,更接近真实值,KS容易波动;对风险定价或定额时,更关注整体的排序能力,要求AUC、KS都足够高,且单调性好。
- 业务指标:根据业务效果的反应,制定个性化的适用于业务的指标,eg,对风险评分头部较坏的人群,予以拒绝,对尾部较好的人群予以回捞
部署上线及监控
- 监控模型效果、分数稳定性
- 迭代优化
数据分析:
- 数据获取:公共数据库(知网等)、私有数据库(公司资源,更新快,粒度细,访问权限)、网络爬虫、问卷调查、设备采集、日志记录
- 数据清洗:剔除脏数据、补全确实数据、按主键唯一去重,或合并,权威高的渠道获取数据优先级高,单位统一,指标维度统一,特殊字符等处理、日期格式统一等
- 统计分析:
- 可视化:发觉数据能力,eg:交通数据(航旅纵横)、占比,变化趋势等、不同地理位置占比、方便产生结论。正态信息:QQ-plot,相关性验证,时间序列:ACF;专业工具:tableau,DataV,excel,r,python
- 形成结论
- 验证结论
- 应用结论
数据分析常用模型:
1、描述性统计量
a. 单变量统计
均值:数据平均的值
方差、标准差:样本距离均值的差值的平均
分位点,中位数:数据从小到大排序后,第I个点为I分位点
b.多变量统计
协方差:X的观测值X1,X2,X3...Y的观测值Y1,Y2...
多变量之间的影响关系,协方差正的:两个一起变大,负的,相反方向变化
2、有监督模型:
有监督模型:存在一个或多个目标变量,我们研究的是其他变量是怎么影响这个目标值的
回归和分类:回归,这个学生成绩是80还是90还是50?分类,这个学生是好学生,不是坏学生
- 回归:线性回归,部分广义线性回归,神经网络、深度学习
- 分类:SVM,分类树,朴素贝叶斯、逻辑回归,KNN
- 排序:page rank,对手机品牌的偏爱度
- 集成模型:bagging的随机森林,给予boosting的AdaBoost,GBDT,xgBoost等都可以用来分类和回归
有监督模型的损失函数:
f = 预测误差损失+模型复杂度的损失(为了处理过拟合)
3、无监督模型
对特征:主成分分析(PCA:原来的分子进行线性表达)、因子分析(是否用主要的因子区代表)
对样本:关联细分,聚类分析,复杂网络,生成模型等(自动编码机,GAN)
4、半监督模型
5、增强学习模型:反欺诈模型