【40分钟速成智能风控9】风控大数据体系

编辑

风控大数据体系

数据源类型

征信报告

信息概要

信贷交易信息明细

公共信息明细

查询记录

消费能力

资产状况

基本信息

多头借贷

运营商

地理位置

设备属性

操作行为

风控大数据体系

数据是一切模型的基础，智能风控模型最大的优势，就是运用海量数据来预测信贷场景中的信用风险和欺诈风险。

数据源类型

风控场景下的数据源主要可以分为两类。一类是银行和互联网金融机构通过自身业务线产生的金融数据，包括征信报告、交易流水、理财产品等，这些强金融属性数据由于直接与客户的金融行为挂钩，因而能够比较好地刻画客户的风险状况。另一类是非金融机构产生的数据，例如运营商、地理位置、设备属性等，这些弱金融属性数据虽然不能直接反映客户的风险，但是通过特征和模型方式上的加工，能够对强金融属性数据起到较好的补充和增益作用，因此也被纳人风控大数据体系内。

征信报告

介绍风控大数据，首先就要从央行征信报告说起。征信报告来自中国人民银行征信中心，是由国家设立的金融信用信息基础数据库，由国内各类放贷机构定期上报后经征信中心统一汇总而成。征信报告内记录了个人2年内的还款信息，5年内的不良信息，以及个人基本信息、担保信息、查询记录等，是建立风控模型最直接和有效的数据源。征信报告根据查询渠道的不同，又分为个人查询的简版和机构查询的详版，区别在于详版征信报告中记录了更多明细数据，方便风控人员信审和建模。目前市面上机构大规模查询的仍然是2009版的征信报告，此版本中包括个人基本信息、信息概要、信贷交易信息明细、公共信息明细和查询记录五大模块，下面选取与征信相关的后4个模块分别介绍。

信息概要

与简版中的内容类似，主要包括借款人的贷款/贷记卡/准贷记卡笔数、贷款/贷记卡/准贷记卡的首次发放月份、逾期信息汇总、未结清贷款信息汇总、未销户贷记卡/准贷记卡信息汇总、对外担保信息汇总等，是央行加工的标准化特征，可以直接在策略和模型中使用。

信贷交易信息明细

信贷交易信息明细是详版征信报告中最核心的数据，记录了借款人每笔贷款/贷记卡/准贷记卡2年内的还款记录和5年内的逾期记录，还包括截止到查询日的账户状态、五级分类、余额和剩余还款期数、本月应还实还、当前逾期期数和金额、不同逾期阶段的未还本金等，基于这些原始数据，建模人员可以衍生出上百个定制化的特征，构建征信数据模型。

除去本人的借款明细数据，为他人担保的明细数据也会在这部分被记录，包括担保贷款合同金额、担保贷款发放到期日期、担保贷款本金余额、担保贷款五级分类等，也会被纳入模型中考虑，被担保人的逾期行为会成为担保人的重大减分项，体现在担保人的信用评分和贷款金额中。

公共信息明细

主要包括了借款人5年内的欠税记录、民事判决记录、强制执行记录、行政处罚记录及电信欠费记录等，这部分数据通常缺失较为严重，但是一旦借款人出现过较为严重的判决处罚记录或者强制执行记录，通常会被金融机构直接拒绝。

查询记录

记录了借款人的信用报告在最近2年内被查询的情况，查询原因包括本人查询、信用卡审批、贷款审批、贷后管理等。需要注意的是，查询次数过多对于风控模型来说通常都是减分项：本人查询次数过多，说明借款人有可能是金融同业或者潜在的逾期人群，正常人不会经常查询自己的征信报告；机构查询次数过多，说明借款人在多家机构存在贷款申请和逾期情况，如果信贷明细中又没有出现对应机构发放的贷款，说明借款人曾经被多家机构拒绝过，存在较高的信用和欺诈风险。因此一定不要随意查询或者授权过多机构查询自己的征信报告，会影响自身的征信记录。
在2020年1月中旬，征信中心已经正式上线新版征信报告。相比于老版征信报告，新版征信报告发生如下几点改动：
□还款记录从2年延长至5年；
□新增每期还款金额；口已销户账户的还款记录得以保留；
□多类证件记录合并；
口新增共同借款信息；
□新增反欺诈警示。
随着征信报告升级以及越来越多的金融机构获准接入征信系统，相信行业内风
控模型的预测水平在未来一段时间内能够进一步提升。

消费能力

消费数据主要来自银行卡的交易流水和部分互联网巨头所掌握的特定场景下的消费流水，例如电商、出行等。消费数据主要包括客户的消费金额、消费频率、消费偏好、消费时段、消费排名、消费稳定性等，能够衡量客户的消费能力，从而计算客户的风险状况和收入情况。对于掌握了一些特定场景的互联网巨头，消费数据可以帮助筛选出一批体系内的活跃用户，用来开白或者增信，保证业务开展前期风险在可控范围内。

资产状况

资产状况可以分为固定资产和流动资产。固定资产包括房产和车产，多为挖掘类特征，通过有无特定类型贷款或者消费来判断：如果客户在银行有过房贷记录，或者在房产类商户有过消费行为，则该客户被判定为有房产；同理，如果客户在银行或者汽车金融机构有过车贷记录，或者在4S店和经销商有过购买行为，则该客户被判定为有车产。对于流动资产，则基于理财产品信息计算中购金额、申购频率、产品偏好、日均持仓等特征，描述客户的可支配资产。综合固定资产和流动资产两方面，对于高净值客群给予较优惠的额度和定价。

基本信息

基本信息也是风控场景中应用较为广泛的一类数据源，不仅可以用在准入阶段制定年龄和地区的白名单，也可以作为风控模型的入模特征。从个人经验来讲，年龄、性别、职业、教育背景、婚姻状况、出生地城市级别、常驻地城市级别等，在建模过程中重要性排名都会相对靠前。基本信息的获取一般也分为两类，事实类和挖掘类。事实类的基本信息数据源，包括征信报告个人基本信息模块，或者客户在各家金融机构办理业务时所填写的信息。这类数据源由于是客户本人填写的，除去强制性要求的四要素（姓名、身份证、手机号、银行卡号）外，其他信息都会存在准确性低和缺失率高的问题，无法直接用来分析建模。而挖掘类的基本信息，则是基于客户填写的四要素，关联机构内外部数据，通过规则和模型的方式构建完整的客户画像标签，从而指导后续的模型建立。技术能力较强的互联网金融机构都会专门设立一个团队来持续维护和迭代这部分画像类标签。

市面上的黑名单数据来源较为广泛，定义也各不相同，这里分情况来介绍。首先是公安部门的黑名单和最高法院的失信被执行人，这类数据命中率不会太高，但是被命中人群都是有过案底或重大违约记录的，应当配置策略直接拦截。其次是互联网巨头，包括阿里、腾讯、京东等，对外输出基于体系内数据和环样本的黑名单评分模型。这些巨头对于客群数据覆盖的广度和深度较高，并且都有极强的金融风控建模能力，可以在一定阈值下使用。除了互联网巨头公司，互联网金融行业内还有一些深耕多年的大数据公司，汇总了一批多头和信贷逾期黑名单并对外输出。这一类黑名单产品各家之间通常差异不大，机构可以从命中率、准确性、价格等多方面考虑，选择其中几家接入即可。最后还有一类黑名单，是金融机构在业务开展过程中自行积累的内部黑名单库，包括欺诈名单、严重逾期名单、欺诈设备ID等,这部分黑名单数据更加贴合机构自身的业务和数据特性，并且生成逻辑透明，可以通过案件调查的方式深挖背后隐藏的规律。

多头借贷

多头是指客户在多家借款机构发生注册、申请、贷款、逾期等行为，是信贷风控场景中一类具有特色并且非常重要的数据源。对于存在多头行为的借款人，通常代表该客户在近期内资金状况较差，在多个平台上寻求贷款并且身背大量共债，暗含着较高的信用风险和欺诈风险，是金融机构需要重点识别和筛选的客群。基于多头的原始数据，可以结合机构类型、频率、金额、时间周期等维度，衍生出上百维特征，区分度较高的可以直接制定策略拦截，区分度较低的可以单独建立子模型或者融入主模型，通常能够给已有模型KS带来3~5个点的提升。需要注意的是，随着近年来资金平台数量越来越多，整个行业中借款人的多头情况都在增加，因而需要随时监控线上策略和模型中多头特征的稳定性，通过调整阈值或者迭代模型的方式避免多头特征波动导致的授信通过率持续走低。

运营商

运营商数据主要通过与三大运营商直接或者间接合作获得，目前整体接入价格较高，机构会优先选择儿个验真类服务接入，通过输入手机号码，运营商返回是否真实、是否小号、是否疑似养卡等字段，帮助机构进行反欺诈验证工作。除去验真类数据，在网时长和在网状态这两个特征，：由于覆盖三网并且接入渠道较多，也经常被用于风控策略和模型中。

地理位置

由于业务需要，各类互联网金融 App都会或多或少地采集借款人的地理位置信息用于风控建模。在信用风险方面，通过借款人的出行习惯和出行规律，判断借款人是否有车有房，以及公司和家庭地址的稳定性；在欺诈风险方面，通过借款人申请地点的历史聚集性和逾期情况，来判断是否涉及中介申请或者个人恶意欺诈。对于各大头部互联网金融公司，目前地理位置数据被严格禁止运用在贷后催收场景，防止出现暴力催收等上门事件，客户也可以在手机中设置该App仅在“使用期间允许访问位置信息”，减少地理位置数据被过度采集。

设备属性

日前大多数信贷业务均发生在移动端，因而借款人在贷款申请时所使用的移动设备也能够很好地被用来进行风险识别。设备属性包括设备ID、设备型号、手机品牌、操作系统、版本型号、连接WiFi的MAC地址等。其中设备型号和手机品牌可以衡量一个人的消费能力和资产状况，使用高端手机的客群通常逾期风险较低；设备ID和连接WiFi的MAC地址这类可以唯一确定的属性，可以制作成黑名单，防止欺诈案件的产生。对于Android和低版本的iOS手机，还可以通过安全SDK埋点的方式，扫描该手机是否存在安装模拟器、修改定位、更改设备信息等高危情况，一旦出现应该立刻拒绝。

操作行为

对于隐蔽性较强的欺诈风险，操作行为数据是目前应用较多并且效果比较好的一类数据源。通过分析借款人的操作习惯、页面停留时长、人脸失败次数等特征，风控人员可以量化每笔操作涉及第一方欺诈或者第三方欺诈的可能性，进而实时提醒或者拦截，预防欺诈案件的发生。不过操作行为数据虽然效果明显，但是由于是线上实时采集和计算的，难免存在线上数据丢失、计算延迟、线上线下模型特征差异等问题，需要风控人员在离线建模阶段进行更细致的分析，并且做好线上实时监控的工作。