作者Toby,来源公众号:python风控模型《python风控建模实战lendingClub_新增2020年数据(14万条)》
公告通知,我方重庆未来之智信息技术咨询服务有限公司自研课程《python风控建模实战lendingClub》2024年升级,新增lendingclub最新2020年数据,专用与论文科研,企业调研。
Lending Club2020年已经从P2P转型数字银行业务,因此Lending Club最新数据为2020年。
历经13年累计292万美国人网络贷款数据有巨大海量价值。作者大力呼吁关注Lending Club数据集。Lending Club数据集收集了292万美国人(1/10人口)的网络贷款数据,跨时13年,包含年龄,收入,职位,地理位置,贷款目的,信用评级等海量信息。Lending Club数据集可用于我们对美国人的经济,人口,社会,工作,政治的数据分析和用户画像。深度挖掘信息还可用于军事决策和我国对美国外交政策制定的辅助依据。
感兴趣同学可以了解课程目录和收藏此课程。此课程160集+,非市面上几十集快餐课。课程提供视频讲解,数据集,脚本下载,售后答疑群。
Lending Club2020年数据一览,数据量14万+,变量120+。此数据集样本量大,变量丰富,是论文科研,企业调研,政府对美国宏观经济分析好题材。
贷款额度的描述性统计和可视化
部分变量直方图
贷款金额
lendingclub平台给个人贷款金额大多在1万-2万美金,较高金额的贷款数量较少,此平台主要是小额贷为主。
lendingclub平台贷款周期占比分析
通过绘制饼状图,我们得到lendingclub平台贷款周期分为36个月与60个月,主要以36个月为主,60个月的比重31%左右。在p2p平台上以短期贷款为主,长期贷款也有,利率较高,但周期较长。借出人收获利息,承担风险,而借入人到期要偿还本金。贷款周期越长,对借出人来说风险越高。
lendingclub平台贷款人工龄分布图
从图中可以看出,贷款人中工龄为10年以上频率最多。
贷款人收入水平
通过上图发现,美国贷款人收入水平中年收入在0-5万美元的占比最高,30.53%左右。其次是5万-10万区间,11万-30万年收入区间占比逐步变小。
贷款人年收入,贷款等级,收入验证多因子分析
lending club会对客户收入进行验证,这非常值得国内平台学习。贷款人的收入水平信息分为三种情况:已经过LC验证,收入来源已验证,未验证。这三种情况目前从图中看出LC验证,收入来源已验证,未验证的收入数据还是有显著区别。另外贷款等级与收入水平在整体上呈正相关的趋势。
借款人住房状况分布图
一半用户房屋状态是抵押贷款,只有10%用户拥有完全的产权。看来美国房奴大军不小呀!接着用pandas的stack和unstack函数对grade和home_ownship两个等级变量做数据深度清洗,然后绘制下图。通过观察贷款等级越高用户按揭占比越高,租房占比越低,反之亦然。自有住房占比每个等级略有不同。
Lending Club由于数据量太大,部分数据挖掘就为大家展示到这里。作者剧透一下,从Lending Club数据集里可以挖掘出美国经济不稳定因素和金融危机爆发因素。有兴趣朋友可以去深度挖掘。
随着收购Radius Bancorp全面获批,也宣告着Lending Club已从P2P平台彻底转型成功,已经成为第一家收购银行的金融科技公司。去年10月,Lending Club宣布于2020年底关闭其P2P平台,个人投资者将不再能够投资于Lending Club发放的任何贷款。因此2020年后Lending club数据集已经无法获取,我方拥有Lending club2007-2020年,共13年数据集。
有Lending club数据集需求和定制服务的用户,可与我方商务留言QQ:231469242。
,时长01:57
如果大家对更多风控建模知识感兴趣,欢迎大家收藏和报名《python金融风控评分卡模型和数据分析系列课》课程,课程详细介绍了逻辑回归的每个知识细节,包括woe编码,多种策略分箱,iv统计,并有实战数据集和Python代码实现。该课程有助于新老学员闭坑,避免被互联网上错误知识误导。具体目录大家可微信扫码查阅了解。
我们公司提供一对一机器学习模型定制服务,提供公司正规发票。
作者Toby,来源公众号:python风控模型《python风控建模实战lendingClub_新增2020年数据(14万条)》