数据分享|SAS数据挖掘EM贷款违约预测分析:逐步Logistic逻辑回归、决策树、随机森林...

news2024/10/9 6:31:14

全文链接:http://tecdat.cn/?p=31745

近几年来,各家商业银行陆续推出多种贷款业务,如何识别贷款违约因素已经成为各家商业银行健康有序发展贷款业务的关键点击文末“阅读原文”获取完整数据)。

相关视频

在贷款违约预测的数据查看文末了解数据免费获取方式的基础上,探索是否能通过借贷者的数据判断其违约风险,从而帮助商业银行提前做好应对。

解决方案

任务/目标

根据借款者的个人信息和贷款的属性,运用SAS EM软件,使用多种模型进行分析。

数据源准备

因获取数据的能力有限,并为了保证数据量足够巨大且数据质量较高,我们选择了贷款违约预测的数据。整个数据集为有800,000条数据,每条数据除了ID、是否违约isDefault该目标值,还包括loanAmnt、term等 29个变量,变量的具体情况在数据探索中进行描述。

特征转换

为了进一步探究issueDate和earliesCreditLine这两个时间ID的时间久远性是否会对我们的预测产生影响,另外增加了两个变量,分别是interval_issueDate和Interval_earliesCreditLine,都是用2020减去issueDate和earliesCreditLine的年份得到的。对缺失数据进行补缺,修改年份变量为区间型变量并对其进行分箱处理,对偏正态分布的变量进行对数处理,拒绝单值型变量。

划分训练集和测试集

划分数据集的50%为训练集,50%为验证集。

建模

使用逐步Logistic回归

回归结果显示,贷款违约风险与年收入负相关,与债务收入比正相关,与利率正相关,与贷款金额正相关;对于分类变量,贷款年限3年的贷款违约风险显著小于贷款5年,2013-2015年的贷款违约风险显著大于2015-2017年等等。

决策树

使用二分支和三分支决策树进行分析,结果显示影响贷款违约的重要因素有homeOwnership、ficoRangeHigh、dti、grade、term、issueDate等。

随机森林

调参后设置最大树个数为100,最大深度为50,显著性水平为0.05,结果显示训练误分类率为0.1964,验证误分类率为0.1974,根据Gini缩减,对分类准确度影响较大的变量为grade、interestRate、term、dti、ficoRangeHigh等。

模型比较

通过比较发现,Logistic回归具有最小的验证误分类率,为0.1965,其次是三分支决策树和随机森林,最差的为二分支决策树。

dff02d04a5cd874622af616c69c81f9c.png


点击标题查阅往期内容

f26863b425a5e64da9e0461c39d67a46.jpeg

R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集

outside_default.png

左右滑动查看更多

outside_default.png

01

033b3d773c0e0c35fe5aba33f500ccac.png

02

c82107a061b05819d0bae005154d33a6.png

03

031795412f49fc10c12dd5fecb864f9e.png

04

c44f5c6cadcce0f695be6367bd67b330.png

在累积提升度和ROC曲线上,Logistic回归和随机森林表现相近,二分支决策树和三分支决策树表现相近,但是Logistic回归和随机森林模型表现明显优于两个决策树模型。

9840a5be2b798ff3e7e94cafa33d4c64.png

a77091023f913b8cfa810d3f5eb4146a.png

逐步回归模型的验证误分类率低于决策树1、决策树2和随机森林模型,这表明在这四个模型中,逐步回归模型相比其他模型对于新样本具有更强的泛化能力,在对新样本违约概率的预测上更加准确。

根据结果,就数值型变量而言,违约风险与借款人的债务收入比dti、循环额度利用率revolUtil、贷款利率interestRate、贷款金额loanAmnt、借款人信用档案中未结信用额度的数量openAcc显著正相关;与就业职称employmentTitle、年收入annualIncome、借款人在贷款发放时的FICO所属的下限范围ficoRangeLow、分期付款金额installment、信贷周转余额合计revolBal、借款人信用档案中当前的信用额度总数totalAcc显著负相关。

对于贷款发放年份issueDate,相较于2017年6月之后发放的贷款,2013年6月之前发放的贷款违约风险显著更大,贷款发放年份在2013.6-2015.6年的违约风险稍低,在2015.6-2017.6年的贷款则显著更小。

申请类型applicationType为0时,其违约风险显著小于其值为1时。

相对于贷款等级G,贷款等级为A、B、C时,其违约风险显著更大,贷款等级为D、E、F时,违约风险则显著更小。

相对于房屋所有权状况homeOwnership为5时,homeOwnership为1时,违约风险显著更小,homeOwnership为0,2,3时,违约风险减小,但其结果在统计学上不显著;homeOwnership为4时,违约风险升高,但在统计学上仍然不显著。

贷款用途purpose为0,4,5,8,12时,违约风险显著大于用途为13,用途为1,7,9时,违约风险显著更小,用途为2,3,6,10,11时,其违约风险相对于13没有统计学意义。

贷款期限term为3年时,其违约风险显著小于贷款期限为5年。

验证状态verificationStatus为0时,相对于其值为2时违约风险显著更大。其值为1时则相对于2违约风险显著更小。

因此,建议贷款发放机构在评估借款人的违约风险时,重点关注借款人的负债收入比、就业职称、年收入、房屋所有权状况等个人信息,并分析借款人的借款行为,包括其申请贷款的金额、利率、分期付款金额、用途、申请类型、贷款等级、贷款期限、验证状态,调查借款人的历史借款记录,包括循环额度利用率、借款人信用档案中未结信用额度的数量、贷款发放时的FICO所属的下限范围、信贷周转余额合计、信用档案中当前的信用额度总数。

对于已经发放的贷款,如果贷款行为发生于2013年6月之前,贷款发放机构应该尽快追回并做好坏账准备。

关于分析师

在此对Jiasong Xue对本文所作的贡献表示诚挚感谢,他在中山大学完成了管理科学专业的学位,专注商业数据分析领域。擅长SPSS、R语言、Python。

数据获取

在公众号后台回复“贷款违约”,可免费获取完整数据。

b4372972040033d3b8ff05b41c9e86c0.jpeg

本文中分析的数据分享到会员群,扫描下面二维码即可加群!

01f16f22bea139a28891e3239dae4878.png

12632729a992e1e36023498c8db004aa.jpeg

点击文末“阅读原文”

获取全文完整数据资料。

本文选自《SAS数据挖掘EM贷款违约预测分析:逐步Logistic逻辑回归、决策树、随机森林》。

98bd90fe57125ec68e62e4cc36584f0d.jpeg

260beae8a9b669f02fb8e92562ef222c.png

点击标题查阅往期内容

PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

spss modeler用决策树神经网络预测ST的股票

R语言中使用线性模型、回归决策树自动组合特征因子水平

R语言中自编基尼系数的CART回归决策树的实现

R语言用rle,svm和rpart决策树进行时间序列预测

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证

R语言里的非线性模型:多项式回归、局部样条、平滑样条、 广义相加模型GAM分析

R语言用标准最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类

R语言ISLR工资数据进行多项式回归和样条回归分析

R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量

R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

如何用R语言在机器学习中建立集成模型?

R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测

在python 深度学习Keras中计算神经网络集成模型

R语言ARIMA集成模型预测时间序列分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言基于Bootstrap的线性回归预测置信区间估计方法

R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

Matlab建立SVM,KNN和朴素贝叶斯模型分类绘制ROC曲线

matlab使用分位数随机森林(QRF)回归树检测异常值

cccbfa3e1285b0e57bf0ccd04df23b72.png

da0cb5d985c303da33c6169f224e4b4f.jpeg

a231bc085f28082c612670d5e87354b2.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/994336.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python开源项目周排行 2023年第33周

#2023年第33周2023年9月9日1feapder款上手简单,功能强大的 Python 爬虫框架,内置 AirSpider、Spider、TaskSpider、BatchSpider 四种爬虫解决不同场景的需求。命名源于 fast-easy-air-pro-spider 缩写。 支持断点续爬、监控报警、浏览器渲染、海量数据去…

【洛谷 P1105】平台 题解(结构体+暴力枚举)

平台 题目描述 空间中有一些平台。给出每个平台的位置,请你计算从每一个平台的边缘落下之后会落到哪一个平台上。注意,如果某两个平台的某个两边缘横坐标相同,物体从上面那个平台落下之后将不会落在下面那个平台上。平台可能会重叠。 如果…

使用GPU虚拟化技术搭建支持3D设计的职校学生机房(云教室)

背景 学校为职业学校,计算机教室需要进行Maya、Adobe Illustrator、Adobe Dreamweaver、Adobe PhotoShop等软件的教学。每个教室为35用户。资源需求为4核、8G内存、80G硬盘。 基于桌面虚拟化VDI技术的机房在成本、可管理性方面,相对于传统胖终端的机房…

004微信小程序云开发API数据库-插入记录-删除记录-更新记录

文章目录 1.微信小程序云开发API数据库-插入记录案例代码 2.微信小程序云开发API数据库-删除记录案例代码 3.微信小程序云开发API数据库-更新记录案例代码 1.微信小程序云开发API数据库-插入记录 微信小程序云开发API数据库是一个方便快捷的数据库解决方案,可以让开…

lv4 嵌入式开发-1 Linux文件IO

目录 1 文件的概念和类型 2 如何理解标准IO 3 流(FILE)的含义 3.1 流 3.2 文本流和二进制流 3.3 流的缓冲类型 4 小结 5 缓存区实验 1 文件的概念和类型 概念:一组相关数据的有序集合 文件类型: 常规文件 r 目录文件 d 字符设备文件 …

电力社区电力故障,潜在风险如何避免?

在现代社会中,电力已经成为我们日常生活不可或缺的一部分。它驱动着我们的家庭设备、照明系统、电子设备和许多其他关键基础设施。然而,电力的可靠性和安全性对于确保我们的住宅社区运行顺畅至关重要。 在这个背景下,配电柜监控成为了一个至关…

Python项目打包与部署(三):打包与部署的实际操作流程

其它章节 Python项目打包与部署(一):模块与包的概念与关系Python项目打包与部署(二): init.py的作用及内容各类Python项目的项目结构及代码组织最佳实践 在实际项目开发过程中,标准化的项目打包与部署流程,对于开源项目,可以帮助你…

[移动通讯]【Carrier Aggregation-4】【LTE-2】

前言: 参考: 4G/LTE - LTE Advanced 参考: 《Carrier Aggregation Explained In 101 Seconds》 Qualcomm 《Carrier aggregation (CA) in LTE-Advanced by TELCOMA Global》 《Carrier Aggregation _CA_Part1》 《Carrier Aggregation _CA_Pa…

手动开发-简单的Spring基于XML配置的程序--源码解析

手动开发-简单的Spring基于XML配置的程序 文章目录 手动开发-简单的Spring基于XML配置的程序思路分析完整代码&: 本文带着大家写一个简单的Spring容器,通过读取beans.xml配置文件,获取第一个JavaBean:Monster的对象&#xff0…

光源控制器光源亮度调节操作说明

光源控制器光源亮度调节操作说明 光源亮度的调节在许多应用中都扮演着至关重要的角色,不仅影响图像质量,还能改善工作环境。下面是关于光源控制器光源亮度调节的详细操作步骤,帮助您轻松实现亮度的合适调整。 步骤一:登录系统 …

MySQL——常见问题

NULL和空值的区别 1、空值不占空间,NULL值占空间。当字段不为NULL时,也可以插入空值。 2、当使用 IS NOT NULL 或者 IS NULL 时,只能查出字段中没有不为NULL的或者为 NULL 的,不能查出空值。 3、判断NULL 用IS NULL 或者 is no…

Bootstrap与响应式图片设计相关的类

01-图像随父元素的同步缩放 可以利用类 .img-fluid 实现图像随父元素同步缩放。 示例代码如下&#xff1a; <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>图像的同步缩放</title><meta name"viewport&…

C/C++标准输入输出函数最全解析(含C/C++的输出控制符)

C/C标准输入输出函数最全解析&#xff08;含C/C的输出控制符&#xff09; 一、标准输入流1、C 标准输入1.1 标准输入流及对缓冲区的理解1.2 scanf()1.2.1 scanf()简介1.2.2 ANSI C中scanf()的转换说明1.2. 3 scanf()转换说明中的修饰符 1.3 gets() - 不建议1.4 fgets()1.5 fget…

【笔记】大模型时代下做科研的四个思路 - 论文精读·52

视频地址&#xff1a;大模型时代下做科研的四个思路 相关大模型 CV: ViT(22B) , ViT-G(2B) from google 多模态&#xff1a;ViT-E(4B) from google NLP&#xff1a;LLaMA(70B,130B,330B,651B) from Meta 提问&#xff1a;在模型越来越大的时代背景下&#xff0c;如何利用有限…

【接口测试】微信小程序接口自动化的实现方案

背景 前几天看到有人问微信小程序怎么进行接口自动化&#xff0c;所以想把自己如何进行微信小程序接口自动化的方法分享下。 https://developers.weixin.qq.com/miniprogram/dev/framework/open-ability/login.html这是微信小程序的登陆流程&#xff0c;小程序登陆需要在小程序…

un-app-手机号授权登录-授权框弹不出情况

前言 手机号授权是获取用户信息api停用之后&#xff0c;经常使用的api。但是此api也是有很多坑 手机号授权会出现调用不起来的情况&#xff0c;这是因为小程序后台没有进行微信认证导致的 手机号授权调用不起来-没有微信认证 来到小程序后台-设置-基本设置-下拉找到微信认证…

【ModelSim】查看波形图(Wave)和数据流图(DataFlow),以4-bit计数器为例

▚ 00 预备条件 &#x1f4e2; 本项目包括两个Verilog文件&#xff1a;测试文件counter.v和激励文件testbench.v&#xff1b;可从此处点击HERE获取。 &#x1f3ae; Windows10系统 &#x1f52e; ModelSim SE-64 2020.4 ▚ 01 启动ModelSim 有两种方式可以打开ModelSim&a…

vue下载与部分指令详解

目录 vue 下载地址 前端框架 MVC与MVVM框架 Vue使用 Vue.js指令 ​编辑 v-if v-else v-show v-on v-model&#xff08;表单绑定&#xff09; v-bind v-for v-text v-model 指令扩展 vue 下载地址 官方入门&#xff1a;https://cn.vuejs.org/ API 文档&#…

如何给网站或者后端服务免费且快速的进行配置HTTPS,配置ssl证书

前言 现在部署的网站用的大多都是https协议的,还有的平台你要是想发布自己的网站就必须得是https的协议,如果不使用ssl的话,那就不让你使用.就比如微信,支付宝等的产品,不用的话就不让你使用他们的平台.不过还好很多服务厂商都提供了免费ssl证书可以进行配置 今天的情况比较特殊…

常用电子元器件基础知识

目录 一、电阻 二、电容 三、电感 四、保险丝 五、二极管 一、电阻 概念&#xff1a;顾名思义&#xff0c;就是增加电流通过的阻力的。 就像是在水渠中放入东西&#xff0c;能阻止水的顺利通过也是一个道理。 基于电阻的电气特性&#xff0c;电阻在电路中主要有以下四个…