海外风控中这类征信数据与模型实践,实操落地效果最有效

news2024/9/24 18:21:01

今天的文章我们跟大家详细介绍,海外现金贷征信数据的特征介绍与建模实践。
希望今天的内容可以帮助各位童鞋了解海外现金贷的数据维度及其特征体系,并重点熟悉特征衍生的加工方法,在实际任务场景中加以实践应用。
首先,我们需要明确征信数据与短信、APP等其他维度数据相比,在数据获取与数据应用上的主要差异:
(1)海外的征信数据类似于我们国内的人行征信,业务方要具备相关但也不难拿到的资质,且数据的调用流转需支付一定的费用,这和短信、APP等维度数据通过爬虫方式免费获取有些渠道本质上的不同。
(2)征信数据的信息价值度明显更高,本身征信数据直接体现着用户的借贷历史与信用状况,这对于信用现金贷业务来讲,从信息对称上是较完美匹配的,聚焦在具体的特征字段上,征信变量的区分度有绝对优势。
(3)征信特征的可扩展性相对有限,远没有短信、APP维度的特征工程那么丰富,在时间序列、统计描述、业务理解等维度上可大量衍生的新字段较少,但这并不影响征信特征信息的绝对价值。

1、征信特征维度
我们先来了解下海外征信数据的主要类型,这里将整个特征信息体系划为7个模块,分别为身份信息、账户信息、借款情况、还款情况、逾期情况、整体情况、查询信息,除了身份信息相关特征的价值表现一般外(产品申请渠道同样可以获取),借贷交易信息与账户查询信息的相关特征均有着非常高的应用价值。下面围绕征信数据各个维度的信息,我们来依次介绍下具体的特征字段样例。
(1)身份信息
用户的身份信息主要包括年龄、性别、婚姻、工作等基本要素,具体字段样例如图1所示,这些特征在实际风控的数据挖掘中很少采用,多数情况下是用于用户群体的特征画像。
在这里插入图片描述
图1 身份信息特征

(2)账户信息
账户信息主要包括信用卡数量、贷款数量、信用卡有效数量、信用卡关闭数量、有效账户结清占比、结清账户占比等维度特征,是账户基本信息的全貌概览,相关字段如图2所示。
在这里插入图片描述
图2 账户信息特征

(3)借款情况
借款情况可以直接量化用户的借贷历史信息,反映出用户的授信规模、授信频次、授信时间等,这对分析用户的授信资产分布及其风险状况,具有很好的风控参考意义。其中,不同时间窗口下的序列类特征(近30/60/90天等),为特征的进一步衍生加工也创造了条件,相关特征如图3所示。
在这里插入图片描述
图3 借款情况特征

(4)还款情况
还款行为是相对借款情况的后续表现,征信体现的还款金额、还款次数等信息,可以很直观描述出用户在一定时期内的还款详情。此维度下的特征同样包含时间序列类的字段,具体特征样例如图4所示。
在这里插入图片描述
图4 还款情况特征

(5)逾期情况
金融借贷的逾期信息是最能直接体现用户信用状况的数据,结合时间周期、逾期次数、逾期金额等维度,可以较大程度说明用户的信用风险,在策略挖掘、模型训练等场景中都发挥着不俗的表现,相关字段如图5所示。
在这里插入图片描述
图5 逾期情况特征

(6)整体情况
整体情况是指用户贷款不同类型的分布信息,也就是根据逾期天数定义的贷款五级分类,分别为正常、关注、次级、可疑、损失,具体特征从数量与占比进行展开,相关字段如图6所示。
在这里插入图片描述
图6 整体情况特征

(7)查询信息
征信查询信息在反映用户的风险状况方面,具有很直接的量化参考意义,征信查询的次数越多,在很大程度上可以体现用户有较大的贷款风险,查询类型也可以分为银行类、非信用卡类等情况。此外,结合常见的时间维度特征,可以更有效分析用户的风险信息,相关字段如图7所示。
在这里插入图片描述
图7 查询信息特征

2、特征加工衍生
虽然征信数据在特征衍生方面,没有APP、短信维度数据那般丰富,但结合常见的统计描述方法仍然可以构建出相当部分的新字段,同时也能够满足实际业务的所属意义。上图3、4、5、7展示的多维度时间窗口特征,都可以进一步衍生出符合实际业务理解的新特征。下面我们选取图4对应的还款信息字段,来介绍下特征衍生的实现过程,其他模块信息的特征构建都可以围绕同样的逻辑。
在具体特征构建的方向上,主要从同类占比、异类占比、连续比较共3个维度进行列举,具体样例依次如图8、9、10所示。
在这里插入图片描述
图8 同类占比类特征
在这里插入图片描述
图9异类占比类特征

在这里插入图片描述
图10连续比较类特征

3、实例数据分析
通过上文内容介绍,我们针对征信数据大体构建出一个特征变量池,包括基本字段与衍生字段。当然,针对特征衍生环节,以上描述过程仅以“还款情况”为例加工出部分常用统计类字段,在实际场景中可以从“借款情况”、“逾期情况”、“查询信息”等多个维度同步实现,从而扩展生成更大体量的有效特征池。
为了对这些特征的加工逻辑与分布性能有进一步的熟悉,接下来我们围绕具体的实例样本数据,通过python代码来详细分析。由于征信数据的底层字段较多,我们选取的实例数据包含部分信息维度,涉及账户信息、借款情况、还款情况、查询信息等,共有4000条样本与14个字段,部分数据样例如图11所示,对应的特征字典如图12所示。
在这里插入图片描述
图11 实例样本数据

在这里插入图片描述
图12 样本特征字典

根据以上特征字段,我们来衍生加工一部分占比类新特征,具体字段名称与实现过程分别如图13、图14所示。
在这里插入图片描述
图13 衍生特征样例

在这里插入图片描述
图14 特征加工过程

为了便于分析最终特征变量池的性能分布效果,我们采用信息值IV来评估各字段的区分度价值,具体字段名称与实现过程分别如图13、图14所示。

在这里插入图片描述
图13衍生特征样例

在这里插入图片描述
图14 特征加工过程

通过以上字段分析,能够得到各字段的IV指标分布,汇总结果具体如下图16所示。由图中信息可知,新衍生特征的IV值均明显高于业务常用判断阈值0.02,且个别字段性能表现较好,例如action_cnt_d30(0.538)、query_rate_d30_d90(0.209)等,说明新特征的有效性,在特征应用中都可以作为待选对象。
在这里插入图片描述
图16 特征信息值分布

此外,特征衍生过程是一种同类信息的转换,得到的新字段除了要分析信息区分度,还需要特别考虑特征之间的相关性。因此,我们可以采取常用的corr函数来进行度量,最终对比结果如图17所示。由于样本字段较多构成的二维交叉表较大,此处重点展示衍生特征的相关性系数分布。从图中信息可以看出,新衍生特征与原始特征,或者新特征与新特征,变量之间的相关性系数接绝大多数都保持在可用的范围内(系数<0.7以上),因此通过特征的相关性分析进一步验证了特征衍生的有效性。
在这里插入图片描述
图17 特征相关性分布

4、风控模型搭建
通过以上特征衍生加工、特征区分度分析、特征相关性分析等系列过程,我们得到了一个可应用的特征变量池(原始12个+衍生8个),接下来我们通过以上特征字段,来建立一个风控贷前风险评估模型。当然,模型变量的选择对象,可以根据特征的IV值或pearson系数来进行筛选,例如IV>0.05、pearson<0.6等条件,这里我们将所有变量纳入模型拟合范围。
由于样本数据的目标变量flag为二分类型(0好用户/1坏用户),因此需采用分类模型算法来实现,此处选择应用较广的决策树模型XGBoost来完成,模型训练与模型评估的具体过程如详见知识星球中代码详情。
通过以上模型训练过程,模型输出的性能评价指标KS=0.6131、AUC=0.8066,反映了模型的综合表现较好,也就是对好坏用户的区分能力较强,这样我们便实现了通过征信数据来建立风控模型的完整过程。
综合本文内容,我们围绕征信数据介绍特征体系的信息维度与字段样例,并重点描述特征衍生的分析逻辑与开发思路。同时,根据具体的实例样本数据来建立风控模型,将原始特征与衍生特征进行融合,共同完成模型的整个训练过程,得到一个效果较佳的风险评估模型。在实际业务场景中,我们可以按照本文特征衍生的思路,扩大模型可选的特征变量池,为提升模型效果提供更多的选择空间。
关于以上所提到征信数据的特征体系介绍与风控模型,教研组的童鞋已经同步相关的内容至知识星球后台,查看完整版本,欢迎星球同学移步到知识星球查收完整内容:
在这里插入图片描述

更多风控及相关知识可关注:
在这里插入图片描述

~原创文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/985914.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从驾考科目二到自动驾驶,聊聊 GPU 为什么对自动驾驶很重要

“下一个项目&#xff0c;坡道起步。” …… “考试不合格&#xff0c;请将车子开到起点&#xff0c;重新验证考试。你的扣分项是&#xff1a;起步时间超30秒&#xff1a;扣100分。行驶过程中车轮轧到边线&#xff1a;扣100分。” 想必经历过驾驶证考试的同学&#xff0c;对…

Unity 之Material 类型和 MeshRenderer 组件中的 Materials 之间有一些重要的区别

文章目录 区别代码例子 区别 在Unity中&#xff0c;Material 类型和 MeshRenderer 组件中的 Materials 之间有一些重要的区别。 Material 类型&#xff1a; Material 是 Unity 中用来定义渲染属性的资源。它包含了一系列定义了如何绘制一个对象的属性&#xff0c;比如颜色、纹…

windows苹果商店上架ipa(基于appuploader)

参考文章&#xff1a; 上传ipa到appstore详细步骤 1、苹果商店地址&#xff1a;https://appstoreconnect.apple.com/apps 2、创建我的app 使用hbuilderx或apicloud云打包后&#xff0c;会生成一个ipa文件&#xff0c;而iphone是无法直接安装这个ipa文件的&#xff0c;需要将这…

【专栏必读】数字图像处理(MATLAB+Python)专栏目录导航及学习说明

文章目录 第一章&#xff1a;绪论第二章&#xff1a;数字图像处理基础第三章&#xff1a;图像基本运算第四章&#xff1a;图像的正交变换第五章&#xff1a;图像增强第六章&#xff1a;图像平滑第七章&#xff1a;图像锐化第八章&#xff1a;图像复原第九章&#xff1a;图像形态…

多维时序 | MATLAB实现GWO-GRU灰狼算法优化门控循环单元的多变量时间序列预测

多维时序 | MATLAB实现GWO-GRU灰狼算法优化门控循环单元的多变量时间序列预测 目录 多维时序 | MATLAB实现GWO-GRU灰狼算法优化门控循环单元的多变量时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 MATLAB实现基于GWO-GRU灰狼算法优化门控循环单元的多变量时…

第15章_锁: (表级锁、页级锁、行锁、悲观锁、乐观锁)

3.2 从数据操作的粒度划分&#xff1a;表级锁、页级锁、行锁 为了提高数据库并发度&#xff0c;每次锁定的数据范围越小越好&#xff0c;理论上每次只锁定当前操作的数据的方案会得到最大的并发度&#xff0c;但管理锁是很耗资源&#xff08;涉及获取、检查、释放锁等动作)。因…

服务器数据恢复-Xen server虚拟机数据恢复案例

服务器数据恢复环境&#xff1a; 一台某品牌服务器通过一张同品牌某型号RAID卡将4块STAT硬盘组建为一组RAID10阵列。上层部署Xen Server虚拟化平台&#xff0c;虚拟机上安装的是Windows Server操作系统&#xff0c;包括系统盘 数据盘两个虚拟机磁盘&#xff0c;作为Web服务器使…

JavaScript个人笔记

1.常用数据布尔值判断 const data [,0,-1,null,undefined,[],{},()>{}]data.forEach(item>{if(item){console.log(item,结果)} 打印结果&#xff1a;、0、null、undefined这四个值的布尔值都是false&#xff0c;其余都是true

没钱,没人,没经验?传统制造型企业如何用无代码实现转型

2023年&#xff0c;国家市场监督管理总局发布了三项重要标准&#xff0c;包括《工业互联网平台选型要求》、《工业互联网平台微服务参考框架》和《工业互联网平台开放应用编程接口功能要求》。这些标准的发布对于完善工业互联网平台标准体系&#xff0c;提升多样化工业互联网平…

如何查找遥感卫星相关参数

背景介绍 做遥感卫星筛选和数据处理时&#xff0c;我们经常需要查询遥感卫星的参数&#xff0c;比如说传感器类型、分辨率、轨道参数和幅宽等。 但如果只用百度&#xff0c;搜索的结果要不没有卫星参数&#xff0c;要不就是卫星相关的新闻&#xff0c;有用的一部分是技术博客&…

JS中call方法是什么,call()的原理是什么?如何手写一个call()?Symbol是什么,怎么用Symbol调优?含详细解析

&#x1f389;call() &#x1f495;call()的参数 thisArg&#xff1a;在调用 func 时要使用的 this 值 arg1, …, argN &#xff08;可选&#xff09; 函数的参数 ✨call()的描述&#xff1a; 首先声明 func是一个函数&#xff0c;person是一个对象 针对这段代码&#xff1a;f…

SSL证书系列--DV、OV、EV三种证书类型的区别

原文网址&#xff1a;SSL证书系列--DV、OV、EV三种证书类型的区别_IT利刃出鞘的博客-CSDN博客 简介 本文介绍DV、OV、EV这三种SSL证书的区别。 DV、OV、EV的区别 项 DV OV EV 英文全称 Domain Validation &#xff08;域名验证型证书&#xff09; Organization Valida…

前端的规范

假如团队中的小伙伴在提交代码时没有遵循规范要求&#xff0c;只写了一个"fix"或"update&#xff0c;这会给其他小伙伴造成困扰&#xff0c;不得不花时间查看代码和推测逻辑。 不仅会浪费了时间和精力&#xff0c;可能会导致项目以下问题&#xff1a; 可读性差…

知网被网信办罚款5000万

我是卢松松&#xff0c;点点上面的头像&#xff0c;欢迎关注我哦&#xff01; 9月6日&#xff0c;知网被网信办罚款5000万&#xff0c;对此&#xff0c;知网称&#xff0c;诚恳接受&#xff0c;坚决服从。 去年(2022年)知网被市场监管总局以垄断行为对其开出了8760万元的罚单…

zabbix监控网络设备和zabbix proxy代理

使用snmp监控linux主机 #在被监控端安装SNMP协议 [rootrocky8 conf]# yum -y install net-snmp 修改配置 vim /etc/snmp/snmpd.conf com2sec notConfigUser default 123456 ##修改此行,设置团体密码,默认为public,此处 改为123456 view systemview included .1. ##添加此行,自…

微信小程序中识别html标签的方法

rich-text组件 在微信小程序中有一个组件rich-text可以识别文本节点或是元素节点 具体入下: //需要识别的数据放在data中,然后放在nodes属性中即可 <rich-text nodes"{{data}}"></rich-text>详情可以参考官方文档:https://developers.weixin.qq.com/mi…

软件测试/测试开发丨跨平台 api 对接 学习笔记

点此获取更多相关资料 本文为霍格沃兹测试开发学社学员学习笔记分享 原文链接&#xff1a;https://ceshiren.com/t/topic/27139 跨平台 api 对接 测试平台需求 稳定 功能 调用脚本报告获取分布式支持 API 调用 开源 Jenkins 环境准备 Jenkins 满足所有调度平台的需求 需…

如何让自己的精力集中 Maven自学笔记 马云演讲观看

目录 如何让自己的精力集中 Avoid having multiple tasks and objects in your line of sight 人的脑袋是给自己思考用的 晚上床上想千条路&#xff0c;早上起床还是走原路 参与才会变得更好 共度灾难&#xff0c;是需要互相鼓励的 CFO Capital 上海各区都有哪些大学?…

晨启,MSP430开发板,51开发板,原理图,PCB图

下载&#xff1a;https://github.com/xddun/blog_code_search

纯手工总结超详细关于计算机网络的五层知识点,看看你都掌握了没

纯手工总结超详细关于计算机网络的五层知识点&#xff0c;看看你都掌握了没 文章目录 纯手工总结超详细关于计算机网络的五层知识点&#xff0c;看看你都掌握了没1.应用层1.1 HTTP协议1.1.1 URL1.1.2 HTTP方法1.1.3 HTTP请求1.1.4 HTTP状态码1.1.5 HTTP会话保持 1.2 HTTPS协议 …