论文复现和点评《基于随机森林模型的个人信用风险评估研究》

news2024/9/17 8:55:10

作者Toby,来源公众号:Python风控模型,论文复现和点评《基于随机森林模型的个人信用风险评估研究》

最近Toby老师看到一篇论文热度比较高,下载量有665次,论文标题是《基于随机森林模型的 个人信用风险评估研究》

图片

图片

图片

图片

图片

图片

图片

图片

论文篇幅较长,Toby老师概述一下作者的摘要,并通过自己语音简单复述了这个项目。

摘要:

LendingClub作为美国最大的P2P借贷平台之一(目前lendingclub已转型互联网银行),其风控模型的建立对于平台的稳健运营至关重要。本文基于随机森林算法,结合LendingClub平台的实际数据,建立了一种风控模型,并对其性能进行了评估。实证结果表明,基于随机森林的风控模型比逻辑回归具有较高的预测准确性和稳健性,能够有效降低平台的信用风险,为投资人和借款人提供更加安全可靠的借贷环境。

  1. 引言 互联网借贷平台的风险管理是保障平台稳健运营的关键环节。LendingClub作为典型的P2P借贷平台,其风险管理模型的构建对于降低信用风险、提高投资人和借款人的信任度至关重要。随机森林作为一种强大的机器学习算法,在金融风控领域得到了广泛应用。本文旨在利用随机森林算法构建LendingClub的风控模型,并评估其性能表现。

  2. 相关研究 在互联网借贷领域,许多研究已经探讨了不同的风险管理模型和算法。其中,基于机器学习的方法在近年来备受关注。例如,支持向量机、逻辑回归、随机森林等算法被广泛用于信用评分和违约预测。

  3. 数据和方法 本文采用LendingClub平台的历史借贷数据作为样本,包括借款人的个人信息、信用评分、收入情况等。首先,对数据进行预处理,包括缺失值处理、特征工程等。然后,利用随机森林算法构建风控模型,并采用交叉验证等方法对模型进行优化和评估。

  4. 结果与分析 实证结果显示,基于随机森林的风控模型在LendingClub平台的信用评分和违约预测方面表现良好。与传统的线性模型相比,随机森林模型具有更高的预测准确性和鲁棒性,能够更好地捕捉数据中的非线性关系和复杂模式。

  5. 结论与展望 本文基于随机森林算法构建了LendingClub的风控模型,并证明了其在信用风险管理方面的有效性和可行性。未来的研究可以进一步探讨其他机器学习算法在互联网借贷平台风险管理中的应用,并结合大数据和人工智能等技术,进一步提升模型的预测能力和实时监控能力,为平台的健康发展提供更加可靠的保障。


Toby老师对论文点评

这篇论文本身质量比较高,Toby老师认为研究生能写出这样论文也是花了不少时间做研究,值得鼓励和肯定。

《基于随机森林模型的人信用风险评估研究》论文采用的是lendingclub数据集,该数据集最明显特征是数据非平衡。故作者花了很多时间在SMOTE过采样技术上,提升模型性能。

图片

接下来我谈谈论文可以优化内容。

1.非平衡数据集中准确率的误导性

论文对模型验证只用了准确率,过于单一。模型验证指标很多,不同指标反应模型不同方面。

图片

如果数据集是非平衡的,准确率accuracy指标意义不大,且容易误导决策者。大家不要太信任模型,模型也是会玩小聪明的。如果数据集里999个样本都是好客户,1个样本是坏客户。模型偷偷懒,自动判断所有预测结果为好客户,准确率也可以达到999/1000,即0.999。决策者一看模型准确率0.999这么高,兴高采烈,实际上模型什么都没干,就是把所有预测对象统一判断为好客户而已。

2.模型验证指标多样化

模型验证指标很多,不同指标反应模型不同方面。论文如果加上AUC,KS,Gini系数,混淆矩阵指标,模型验证结果会更好。

3.多算法比较不足

该论文只比较了逻辑回归和随机森林两种算法,得到了随机森林性能较好结论。我们可以对比更多算法。


Toby老师通过其它集成树算法得到模型测试集结果如下,性能高于论文中随机森林性能。

'''
python金融风控评分卡模型和数据分析(加强版),商务咨询QQ:231469242
https://study.163.com/series/1202915601.htm?share=2&shareId=400000000398149
'''
accuracy on the training subset:0.992
accuracy on the test subset:0.990
test data:
model accuracy is: 0.9899023985048282
model precision is: 0.9325153374233128
model sensitivity is: 0.28679245283018867
f1_score: 0.4386724386724387
AUC: 0.8726141962832263
good classifier
gini 0.7452283925664527
ks value:0.5835

4.可视化内容不足


论文中有变量统计和模型可视化图片,如下图。

图片

但作为研究生论文,描述性统计可视化较少,且模型可视化内容还可以强化。大家不要小看描述性统计,古人云知己知彼百战百胜。描述性统计类似情报收集环节。描述性统计做得越好,对模型理解越透彻。

Toby老师分享部分lendingclub数据集的描述性统计图片。

贷款额度的描述性统计和可视化

图片

部分变量直方图

图片

贷款金额

lendingclub平台给个人贷款金额大多在1万-2万美金,较高金额的贷款数量较少,此平台主要是小额贷为主。

图片

贷款人收入水平

图片

贷款人年收入,贷款等级,收入验证多因子分析

图片

Toby老师模型的AUC动态可视化。

图片

Toby老师模型的logloss动态可视化。

图片

总结

《基于随机森林模型的个人信用风险评估研究》研究生论文写的非常不错,值得大家去学习。如果在模型验证加入更多指标,添加更多描述性统计内容,增加数据可视化,论文整体效果会更好。

相关课程

《基于随机森林模型的个人信用风险评估研究》论文复现和点评就为大家介绍到这里。我们公司自研课程《Python风控建模实战lendingclub》可以复现大部分上述论文内容,且有更加丰富内容讲解。

如果您们对人工智能预测模型项目感兴趣,欢迎各大科研机构,研究生博士生论文定制服务联系。

项目联系人:重庆未来之智信息技术咨询服务有限公司,Toby老师,文章末尾有联系方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1648690.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++ | Date 日期类详解

目录 简介 日期类总代码 | Date 类的定义 & 构造 & Print 类的定义 构造函数 & Print 比较类&#xff0c;如<、>、<...... 值加减类&#xff0c;如、-、、-...... 加减类具体分类 判断某个月有多少天 GetMonthDay 日期类 / &#xff08;- / -&…

运行一个jar包

目录 传送门前言一、Window环境二、Linux环境1、第一步&#xff1a;环境配置好&#xff0c;安装好jdk2、第二步&#xff1a;打包jar包并上传到Linux服务器3、第三步&#xff1a;运行jar包 三、docker环境1、Linux下安装docker和docker compose2、Dockerfile方式一运行jar包2.1、…

光伏SRM供应商管理解决方案

供应商管理是光伏企业中重要的一环&#xff0c;通过SRM管理供应商&#xff0c;可以提高产品质量&#xff0c;降低采购成本&#xff0c;并集成供应链&#xff0c;提高核心竞争力。 一、搭建管理系统 分为供应商和商户&#xff0c;供应商需要完善基本信息、类别、等级、产品概要…

二叉树详细介绍与代码生成遍历

目录 树的概念及其结构树的构造——代码表示 二叉树概念及介绍二叉树的存储结构二叉树的顺序结构二叉树的链式结构链表的代码展示堆的基本概念和结构堆的代码体现二叉树生成二叉树遍历 四种不同遍历方式——代码展示 树的概念及其结构 要了解二叉树&#xff0c;那么首要的就是…

Linux系统编程 —— 进程概念,环境变量,虚拟地址空间总结(收藏向)

目录 一&#xff0c;什么是进程&#xff0c;有什么用&#xff1f; 1.1 关于进程 1.2 进程的重要特性 二&#xff0c;进程的描述&#xff1a;PCB结构体 2.1 关于PCB 2.2 task_struct 三&#xff0c;进程pid与ppid 3.1 pid是什么&#xff1f;怎么查看&#xff1f; 3.2 系…

51单片机入门:蜂鸣器

蜂鸣器介绍 蜂鸣器是一种将电信号转换为声音信号的器件&#xff0c;常用来产生设备的按键音、报警音等提示信号。 蜂鸣器的种类 1、从结构上&#xff1a;压电式蜂鸣器和电磁式蜂鸣器。 压电式蜂鸣器&#xff1a;通过压电陶瓷的压电效应原理工作的。当加有交变电压时&#xf…

AMEYA360详解:蔡司利用纳米探针技术探索半导体微观电学性能

半导体器件尺寸不断缩小和复杂度增加&#xff0c;纳米探针(Nanoprobing)技术成为解决微观电学问题和优化器件性能的重要工具&#xff0c;成为半导体失效分析流程中越来越重要的一环。 随着功率半导体的快速发展&#xff0c;其厂商也开始密切关注纳米探针技术在PN结特性分析和掺…

什么是光伏发电?什么是分布式光伏系统?

一、光伏发电 光伏发电&#xff0c;作为一种可再生能源利用技术&#xff0c;其核心原理基于半导体的光生伏特效应。简而言之&#xff0c;光伏发电就是将太阳能直接转换为电能的过程。它由三个主要部分组成&#xff1a;太阳电池板&#xff08;组件&#xff09;、控制器和逆变器…

LMdeploy推理实践

在inter-studio平台上&#xff0c;下载模型&#xff0c;体验lmdeploy 下载模型 这里是因为平台上已经有了internlm2模型&#xff0c;所以建立一个符号链接指向它&#xff0c;没有重新下载 ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b /root/如…

TC8002D 是一颗带关断模式的音频功放IC

一、一般概述 TC8002D是一颗带关断模式的音频功放IC。在5V输入电压下工作时&#xff0c;负载(3Ω)上的平均功率 为3 W&#xff0c;且失真度不超过10%。而对于手提设备而言&#xff0c;当VDD作用于关断端时&#xff0c;TC8002D将会进入关断模式&#xff0c;此时的功耗极…

【UE】利用物理学放置模型(以堆积石块为例)

目录 效果 步骤 一、准备工作 二、设置石块碰撞 三、绘制石块 效果 步骤 一、准备工作 1. 在虚幻商城中安装“Physical Layout Tool”插件 2. 在虚幻编辑器中勾选插件“Physical Layout”插件 3. 在Quixel Bridge中将我们所需要的石块资产添加到项目中 这里我们导入…

如何与精益生产咨询公司合作,确保项目的成功?

随着竞争的白热化&#xff0c;企业为了提升生产效率和降低成本&#xff0c;纷纷寻求精益生产咨询公司的帮助。然而&#xff0c;与咨询公司合作并不是一蹴而就的事情&#xff0c;需要双方共同努力&#xff0c;才能确保项目的成功。那么&#xff0c;如何与精益生产咨询公司合作&a…

个股期权是什么期权?个股期权什么时候推出?

今天期权懂带你了解个股期权是什么期权&#xff1f;个股期权什么时候推出&#xff1f;期权也称选择权&#xff0c;是指期权的买方有权在约定的期限内&#xff0c;按照事先确定的价格&#xff0c;买入或卖出一定数量某种特定商品或金融指标的权利。 个股期权是什么期权&#xff…

uni-app安卓本地打包个推图标配置

如果什么都不配置&#xff0c;默认的就是个推小鲸鱼图标 默认效果 配置成功效果 个推图标配置 新建目录 drawable-hdpi、drawable-ldpi、drawable-mdpi、drawable-xhdpi、drawable-xxhdpi、drawable-xxxhdpi 目录中存放图标 每个目录中存放对应大小的图标&#xff0c;大图…

Lora训练笔记1——快速上手

准备工具 AKI大佬的整合包&#xff0c;一键解压即可。 度盘链接 提取码&#xff1a;p8uy 图片预处理 图片预处理&#xff1a;以一定规则裁剪原始的训练素材图片&#xff0c;并进行打标处理。 新建两个文件夹 input&#xff1a;存放原始图片的文件夹 preprocess-output:…

一文带你了解 Oracle 23ai 新特性 Vector 的基础用法

Oracle Database 23ai 来了&#xff0c;虽然目前只是云上可商用&#xff0c;但是 OP 有 FREE 版本可以进行开发。 本文将介绍 Oracle 23ai 的新特性之一&#xff1a; AI 向量搜索&#xff0c;的部分内容。 向量数据类型 23ai 新增向量数据类型&#xff0c;可以用于表示一系列的…

​Web服务器

代码: WebServer 介绍 HTTP层 POST请求一般会包含Content-Length字段, 告诉服务器请求主体的长度GET请求一般不会包含Content-Length字段, 它一般不含请求正文POST响应: Content-Type字段, 根据请求资源的后缀填写 编写 1.读取请求与分析请求 2.根据不同请求方法构建不同的响…

前后端功能实现——查询所有

目录 1、需求 2、步骤 1&#xff09;创建模块 引入坐标 2&#xff09;创建结构 实现三层架构 3&#xff09;创建表 brand 4&#xff09;创建实体类 Brand 5&#xff09;创建MyBatis配置文件 6&#xff09;创建映射文件 7&#xff09;创建工具类 SqlSessionFactoryUti…

5月11日,MongoDB技术沙龙·杭州站来了,本周六不见不散!

在数字化转型的新时代&#xff0c;MongoDB凭借灵活的文档模型、高效的数据处理能力和出色的扩展性&#xff0c;成为广受企业和开发者喜爱的数据库。本次活动将聚焦如何利用MongoDB简化开发工作&#xff0c;并分享阿里云和NineData的解决方案&#xff0c;更有重磅嘉宾分享实践经…

接入大量设备后,视频汇聚系统EasyCVR安防监控视频融合平台是如何实现负载均衡的?

一、负载均衡 随着技术的不断进步和监控需求的日益增长&#xff0c;企业视频监控系统的规模也在不断扩大&#xff0c;接入大量监控设备已成为一项常态化的挑战。为确保企业能够有效应对这一挑战&#xff0c;视频汇聚系统EasyCVR视频融合平台凭借其卓越的高并发处理能力&#x…