【40分钟速成智能风控9】风控大数据体系

news2024/11/24 19:04:22

目录

​编辑

风控大数据体系

数据源类型

征信报告

信息概要

信贷交易信息明细

公共信息明细

查询记录

消费能力

资产状况

基本信息

多头借贷

运营商

地理位置

设备属性

操作行为


风控大数据体系

数据是一切模型的基础,智能风控模型最大的优势,就是运用海量数据来预测信贷场景中的信用风险和欺诈风险。

数据源类型

风控场景下的数据源主要可以分为两类。一类是银行和互联网金融机构通过自身业务线产生的金融数据,包括征信报告、交易流水、理财产品等,这些强金融属性数据由于直接与客户的金融行为挂钩,因而能够比较好地刻画客户的风险状况。另一类是非金融机构产生的数据,例如运营商、地理位置、设备属性等,这些弱金融属性数据虽然不能直接反映客户的风险,但是通过特征和模型方式上的加工,能够对强金融属性数据起到较好的补充和增益作用,因此也被纳人风控大数据体系内。

征信报告

介绍风控大数据,首先就要从央行征信报告说起。征信报告来自中国人民银行征信中心,是由国家设立的金融信用信息基础数据库,由国内各类放贷机构定期上报后经征信中心统一汇总而成。征信报告内记录了个人2年内的还款信息,5年内的不良信息,以及个人基本信息、担保信息、查询记录等,是建立风控模型最直接和有效的数据源。征信报告根据查询渠道的不同,又分为个人查询的简版和机构查询的详版,区别在于详版征信报告中记录了更多明细数据,方便风控人员信审和建模。目前市面上机构大规模查询的仍然是2009版的征信报告,此版本中包括个人基本信息、信息概要、信贷交易信息明细、公共信息明细和查询记录五大模块,下面选取与征信相关的后4个模块分别介绍。

信息概要

与简版中的内容类似,主要包括借款人的贷款/贷记卡/准贷记卡笔数、贷款/贷记卡/准贷记卡的首次发放月份、逾期信息汇总、未结清贷款信息汇总、未销户贷记卡/准贷记卡信息汇总、对外担保信息汇总等,是央行加工的标准化特征,可以直接在策略和模型中使用。

信贷交易信息明细

信贷交易信息明细是详版征信报告中最核心的数据,记录了借款人每笔贷款/贷记卡/准贷记卡2年内的还款记录和5年内的逾期记录,还包括截止到查询日的账户状态、五级分类、余额和剩余还款期数、本月应还实还、当前逾期期数和金额、不同逾期阶段的未还本金等,基于这些原始数据,建模人员可以衍生出上百个定制化的特征,构建征信数据模型。

除去本人的借款明细数据,为他人担保的明细数据也会在这部分被记录,包括担保贷款合同金额、担保贷款发放到期日期、担保贷款本金余额、担保贷款五级分类等,也会被纳入模型中考虑,被担保人的逾期行为会成为担保人的重大减分项,体现在担保人的信用评分和贷款金额中。

公共信息明细

主要包括了借款人5年内的欠税记录、民事判决记录、强制执行记录、行政处罚记录及电信欠费记录等,这部分数据通常缺失较为严重,但是一旦借款人出现过较为严重的判决处罚记录或者强制执行记录,通常会被金融机构直接拒绝。

查询记录

记录了借款人的信用报告在最近2年内被查询的情况,查询原因包括本人查询、信用卡审批、贷款审批、贷后管理等。需要注意的是,查询次数过多对于风控模型来说通常都是减分项:本人查询次数过多,说明借款人有可能是金融同业或者潜在的逾期人群,正常人不会经常查询自己的征信报告;机构查询次数过多,说明借款人在多家机构存在贷款申请和逾期情况,如果信贷明细中又没有出现对应机构发放的贷款,说明借款人曾经被多家机构拒绝过,存在较高的信用和欺诈风险。因此一定不要随意查询或者授权过多机构查询自己的征信报告,会影响自身的征信记录。
在2020年1月中旬,征信中心已经正式上线新版征信报告。相比于老版征信报告,新版征信报告发生如下几点改动:
□还款记录从2年延长至5年;
□新增每期还款金额;口已销户账户的还款记录得以保留;
□多类证件记录合并;
口新增共同借款信息;
□新增反欺诈警示。
随着征信报告升级以及越来越多的金融机构获准接入征信系统,相信行业内风
控模型的预测水平在未来一段时间内能够进一步提升。

消费能力

消费数据主要来自银行卡的交易流水和部分互联网巨头所掌握的特定场景下的消费流水,例如电商、出行等。消费数据主要包括客户的消费金额、消费频率、消费偏好、消费时段、消费排名、消费稳定性等,能够衡量客户的消费能力,从而计算客户的风险状况和收入情况。对于掌握了一些特定场景的互联网巨头,消费数据可以帮助筛选出一批体系内的活跃用户,用来开白或者增信,保证业务开展前期风险在可控范围内。

资产状况

资产状况可以分为固定资产和流动资产。固定资产包括房产和车产,多为挖掘类特征,通过有无特定类型贷款或者消费来判断:如果客户在银行有过房贷记录,或者在房产类商户有过消费行为,则该客户被判定为有房产;同理,如果客户在银行或者汽车金融机构有过车贷记录,或者在4S店和经销商有过购买行为,则该客户被判定为有车产。对于流动资产,则基于理财产品信息计算中购金额、申购频率、产品偏好、日均持仓等特征,描述客户的可支配资产。综合固定资产和流动资产两方面,对于高净值客群给予较优惠的额度和定价。

基本信息

基本信息也是风控场景中应用较为广泛的一类数据源,不仅可以用在准入阶段制定年龄和地区的白名单,也可以作为风控模型的入模特征。从个人经验来讲,年龄、性别、职业、教育背景、婚姻状况、出生地城市级别、常驻地城市级别等,在建模过程中重要性排名都会相对靠前。基本信息的获取一般也分为两类,事实类和挖掘类。事实类的基本信息数据源,包括征信报告个人基本信息模块,或者客户在各家金融机构办理业务时所填写的信息。这类数据源由于是客户本人填写的,除去强制性要求的四要素(姓名、身份证、手机号、银行卡号)外,其他信息都会存在准确性低和缺失率高的问题,无法直接用来分析建模。而挖掘类的基本信息,则是基于客户填写的四要素,关联机构内外部数据,通过规则和模型的方式构建完整的客户画像标签,从而指导后续的模型建立。技术能力较强的互联网金融机构都会专门设立一个团队来持续维护和迭代这部分画像类标签。

市面上的黑名单数据来源较为广泛,定义也各不相同,这里分情况来介绍。首先是公安部门的黑名单和最高法院的失信被执行人,这类数据命中率不会太高,但是被命中人群都是有过案底或重大违约记录的,应当配置策略直接拦截。其次是互联网巨头,包括阿里、腾讯、京东等,对外输出基于体系内数据和环样本的黑名单评分模型。这些巨头对于客群数据覆盖的广度和深度较高,并且都有极强的金融风控建模能力,可以在一定阈值下使用。除了互联网巨头公司,互联网金融行业内还有一些深耕多年的大数据公司,汇总了一批多头和信贷逾期黑名单并对外输出。这一类黑名单产品各家之间通常差异不大,机构可以从命中率、准确性、价格等多方面考虑,选择其中几家接入即可。最后还有一类黑名单,是金融机构在业务开展过程中自行积累的内部黑名单库,包括欺诈名单、严重逾期名单、欺诈设备ID等,这部分黑名单数据更加贴合机构自身的业务和数据特性,并且生成逻辑透明,可以通过案件调查的方式深挖背后隐藏的规律。

多头借贷

多头是指客户在多家借款机构发生注册、申请、贷款、逾期等行为,是信贷风控场景中一类具有特色并且非常重要的数据源。对于存在多头行为的借款人,通常代表该客户在近期内资金状况较差,在多个平台上寻求贷款并且身背大量共债,暗含着较高的信用风险和欺诈风险,是金融机构需要重点识别和筛选的客群。基于多头的原始数据,可以结合机构类型、频率、金额、时间周期等维度,衍生出上百维特征,区分度较高的可以直接制定策略拦截,区分度较低的可以单独建立子模型或者融入主模型,通常能够给已有模型KS带来3~5个点的提升。需要注意的是,随着近年来资金平台数量越来越多,整个行业中借款人的多头情况都在增加,因而需要随时监控线上策略和模型中多头特征的稳定性,通过调整阈值或者迭代模型的方式避免多头特征波动导致的授信通过率持续走低。

运营商

运营商数据主要通过与三大运营商直接或者间接合作获得,目前整体接入价格较高,机构会优先选择儿个验真类服务接入,通过输入手机号码,运营商返回是否真实、是否小号、是否疑似养卡等字段,帮助机构进行反欺诈验证工作。除去验真类数据,在网时长和在网状态这两个特征,:由于覆盖三网并且接入渠道较多,也经常被用于风控策略和模型中。

地理位置

由于业务需要,各类互联网金融 App都会或多或少地采集借款人的地理位置信息用于风控建模。在信用风险方面,通过借款人的出行习惯和出行规律,判断借款人是否有车有房,以及公司和家庭地址的稳定性;在欺诈风险方面,通过借款人申请地点的历史聚集性和逾期情况,来判断是否涉及中介申请或者个人恶意欺诈。对于各大头部互联网金融公司,目前地理位置数据被严格禁止运用在贷后催收场景,防止出现暴力催收等上门事件,客户也可以在手机中设置该App仅在“使用期间允许访问位置信息”,减少地理位置数据被过度采集。

设备属性

日前大多数信贷业务均发生在移动端,因而借款人在贷款申请时所使用的移动设备也能够很好地被用来进行风险识别。设备属性包括设备ID、设备型号、手机品牌、操作系统、版本型号、连接WiFi的MAC地址等。其中设备型号和手机品牌可以衡量一个人的消费能力和资产状况,使用高端手机的客群通常逾期风险较低;设备ID和连接WiFi的MAC地址这类可以唯一确定的属性,可以制作成黑名单,防止欺诈案件的产生。对于Android和低版本的iOS手机,还可以通过安全SDK埋点的方式,扫描该手机是否存在安装模拟器、修改定位、更改设备信息等高危情况,一旦出现应该立刻拒绝。

操作行为

对于隐蔽性较强的欺诈风险,操作行为数据是目前应用较多并且效果比较好的一类数据源。通过分析借款人的操作习惯、页面停留时长、人脸失败次数等特征,风控人员可以量化每笔操作涉及第一方欺诈或者第三方欺诈的可能性,进而实时提醒或者拦截,预防欺诈案件的发生。不过操作行为数据虽然效果明显,但是由于是线上实时采集和计算的,难免存在线上数据丢失、计算延迟、线上线下模型特征差异等问题,需要风控人员在离线建模阶段进行更细致的分析,并且做好线上实时监控的工作。

print('要天天开心呀')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1589839.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

js性能优化(五)

第五章开始啦~~~~~~~~~~~~~ 防抖和节流之前自己有学过一次,包括几种方式怎么实现,代码如何写花了两天有写过,这次算是更系统的一个复习加填补 十七、防抖与节流 为什么需要防抖和节流: 在一些高频率事件触发的场景下我们不希望…

PSpice软件快速入门系列--如何进行AC Sweep交流扫描

背景介绍:PSpice仿真分析类型通常有四种,分别是时域分析、直流特性扫描、交流特性扫描/噪声分析、直流工作点计算。交流扫描分析是线性分析,可对电路性能因输入信号频率不同而变化的过程进行分析,获得电路的幅频响应和相频特性以及…

探索工业AI智能摄像机的卓越性能!

​ 在当今快速发展的工业智能化领域,上海晶珩的工业AI智能摄像机系列以其卓越的性能和多功能性在国内外备受关注(文末有国外工程师的评测链接)。搭载Raspberry Pi CM4支持的ED-AIC2000和ED-AIC2100系列旨在广泛应用,涵盖从简单的条…

俄罗斯yandex广告推广如何投放?

俄罗斯作为欧亚大陆的重要经济体,拥有庞大的互联网用户基数,其中Yandex作为该地区最主要的搜索引擎,无疑是触及目标客户群的关键渠道。云衔科技凭借专业优势与实战经验,为企业提供一站式Yandex广告开户及全程代运营解决方案&#…

MySQL 04-EMOJI 表情与 UTF8MB4 的故事

拓展阅读 MySQL View MySQL truncate table 与 delete 清空表的区别和坑 MySQL Ruler mysql 日常开发规范 MySQL datetime timestamp 以及如何自动更新,如何实现范围查询 MySQL 06 mysql 如何实现类似 oracle 的 merge into MySQL 05 MySQL入门教程&#xff0…

【Android surface 】二:源码分析App的surface创建过程

文章目录 画布surfaceViewRoot的创建&setView分析setViewrequestLayoutViewRoot和WMS的关系 activity的UI绘制draw surfacejni层分析Surface无参构造SurfaceSessionSurfaceSession_init surface的有参构造Surface_copyFromSurface_writeToParcelSurface_readFromParcel 总结…

从商品图到海报生成 京东广告AIGC创意技术应用

一、前言 电商广告图片不仅能够抓住消费者的眼球,还可以传递品牌核心价值和故事,建立起与消费者之间的情感联系。然而现有的广告图片大多依赖人工制作,存在效率和成本的限制。尽管最近 AIGC 技术取得了卓越的进展,但其在广告图片…

嵌入式中常用的巧妙方法 - (汇总)

概述 做项目&#xff0c;掌握以下方法&#xff0c;可提高开发效率&#xff0c;把时间全部放在需求上。 1、快速获取结构体成员大小 #include <stdio.h> // 获取结构体成员大小 #define GET_MEMBER_SIZE(type, member) sizeof(((type*)0)->member)// 获取结构体成…

2024 大模型面试指南:兄弟们,冲啊

前言 老宋这俩月又跳槽了&#xff0c;自从去年从百度出来来到新公司&#xff0c;躺了一年&#xff0c;最近因为大模型技术发展&#xff0c;重新有了奋斗的方向和动力。 大模型的诞生必然会重塑整个 NLP 方向&#xff0c;因此&#xff0c;必须参与到这波浪潮中&#xff0c;果然…

HTTP快速面试笔记(速成版)

文章目录 1. HTTP概述1.1 HTTP简介1.2 HTTP的版本1.3 URL语法简介 2. HTTP报文2.1 HTTP报文格式2.2 HTTP的方法&#xff08;Method&#xff09;2.3 HTTP响应码2.4 HTTP请求头与响应头 3. HTTPS详解3.1 HTTPS介绍3.2 与HTTPS相关的加解密知识3.3 HTTPS交互流程 参考资料 1. HTTP…

2 万字 42 道Java经典面试题总结(2024修订版)- Java集合篇

目录 1、Java中常用的集合有哪些&#xff1f;2、Collection 和 Collections 有什么区别&#xff1f;3、为什么集合类没有实现 Cloneable 和 Serializable 接口&#xff1f;4、数组和集合有什么本质区别&#xff1f;5、数组和集合如何选择&#xff1f;6、list与Set区别7、HashMa…

基于深度学习的人脸表情识别系统(PyQT+代码+训练数据集)

基于深度学习的人脸表情识别系统&#xff08;PyQT代码训练数据集&#xff09; 前言一、数据集1.1 数据集介绍1.2 数据预处理 二、模型搭建三、训练与测试3.1 模型训练3.2 模型测试 四、PyQt界面实现 前言 本项目是基于mini_Xception深度学习网络模型的人脸表情识别系统&#x…

el-upload文件缩略图只显示一张图片

采用elementui库vue2版本&#xff0c;flask后端 el-upload组件上传一张图片之后不在出现新增加号 可以实现

基于公共转点的Alpha shapes有序边缘点提取

1、原理介绍 由Edelsbrunner H提出的alpha shapes算法是一种简单、有效的快速提取边界点算法。其克服了点云边界点形状影响的缺点,可快速准确提取边界点,其原理如下:对于任意形状的平面点云,若一个半径为a的圆,绕其进行滚动,其滚动的轨迹形成的点为轮廓点。需要注意的是,…

深入理解计算机系统 家庭作业 2.84

这题没有这个要求所以可以用 ? > : < 这种运算 以下代码用的是位级运算.因为我误解了题意 呜呜呜 想看用判断的代码请自行百度 ((((ux<<9>>9)<<((ux<<1>>24)-127)) - ((uy<<9>>9)<<((uy<<1>>24)-127)))>…

TMS320F280049 EPWM模块--TZ子模块(6)

下图是TZ子模块在epwm中的位置&#xff0c;可以看到TZ子模块接收内外部多种信号&#xff0c;经过处理后生成最终epwm波形&#xff0c;然后通过gpio向外发出。 TZ的动作有4个&#xff1a;拉高/拉低/高阻/不变。 TZ的内部框图见下图&#xff0c;可以看出&#xff1a; 1&#xf…

每日一题 — 水果成篮

思路&#xff1a; 通过阅读上面文字得出问题&#xff1a;就去只有两个种类的最大长度的连续子数组&#xff0c;这时我们可以想到用哈希表来存储数据&#xff0c;记录数据的种类和每个种类的数量。 解法一&#xff1a;暴力递归&#xff08;right每次遍历完都回退&#xff09; 解…

windows本地运行dreamtalk踩坑总结

dreamtalk是一个语音图片转视频的一个工具&#xff0c;就是给一段语音加一个头像图片&#xff0c;然后生成一段头像跟语音对口型的视频&#xff0c;其实还是很有意思的&#xff0c;最近阿里发布了一个类似的模型&#xff0c;但是还没开源&#xff0c;从展示视频看&#xff0c;阿…

Day31:贪心 LeedCode 455.分发饼干 376. 摆动序列 53. 最大子序和 蓝桥杯.填充

贪心算法一般分为如下四步&#xff1a; 将问题分解为若干个子问题找出适合的贪心策略求解每一个子问题的最优解将局部最优解堆叠成全局最优解 做题的时候&#xff0c;只要想清楚 局部最优 是什么&#xff0c;如果推导出全局最优&#xff0c;其实就够了。 假设你是一位很棒的家…

场景文本检测识别学习 day04(目标检测的基础概念)

经典的目标检测方法 one-stage 单阶段法&#xff1a;YOLO系列 one-stage方法&#xff1a;仅使用一个CNN&#xff0c;直接在特征图上预测每个物体的类别和边界框输入图像之后&#xff0c;使用CNN网络提取特征图&#xff0c;不加入任何补充&#xff08;锚点、锚框&#xff09;&…