【算法业务】互联网风控业务中的拒绝推断场景算法应用分享(涉及半监督算法、异常检测、变分自编码、样本权重自适应调整、迁移学习等)

news2024/11/14 19:22:34

1. 业务目标和任务描述 

        该项目是很早期的一个工作,属于互联网信贷风控场景,研究并应用信贷中的拒绝推断任务,处理方式也许对于目前的一些业务还有参考意义,因此这里做下分享。拒绝推断是指在信贷业务中,利用已知的接受客户(即通过信贷审批的客户)的信息来推断被拒绝客户(未通过信贷审批的客户)的表现,以更准确地评估信贷风险和建立更有效的信用评估模型。

        因此业务的总目标是构建有效的用户评分模型,评估贷款申请者是否有能力如期偿还贷款。具体要做的事情是从已建立的审批体系中拒绝的用户中捞回好用户,更好的管理资产,打标资产。

        任务的初始想法:我们往往只能观察到部分用户的贷后行为,无法获取被拒绝的申请者的贷后表现。仅使用部分有贷后的数据,为估计总体而建立的评分模型存在参数估计的偏差,导致好的用户被拒绝,造成损失。也就是我们通常说的二八,20%用户被通过,80%的用户被拒绝,这80%中可能蕴含着数量可观的好用户。在我们当前的场景下,通过的用户比例更少,平均只有5%左右,95%都被拒绝了。因此造成了很大的资源浪费。

        基于该思路,再来分析下为什么需要拒绝推断?

首先是样本完整性

  • 在实际信贷业务中,通常只有接受客户的完整数据,包括他们的信用特征和还款表现等。而被拒绝客户只有申请时的部分信息,没有后续的还款表现数据。
  • 拒绝推断可以弥补被拒绝客户数据的缺失,使样本更具完整性,从而提高信用评估模型的准确性和可靠性。

其次是风险评估准确性

  • 仅基于接受客户的数据建立的信用评估模型可能存在偏差,因为它没有考虑到被拒绝客户的潜在风险。
  • 通过拒绝推断,可以将被拒绝客户的特征纳入分析,更全面地了解不同风险水平的客户群体,从而提高风险评估的准确性。

2. 任务执行描述

2.1 核心问题

         为了能够有效捞回被拒绝的用户,我们需要解决解决两个核心问题:

(1)如何利用被拒绝的用户样本信息,使得能够对总体数据建立较完备的模型。                  (2)如何加强模型对坏用户的识别能力。

        下图展示了当数据不够完备的情况下,对于模型估计的偏差影响:

        可以看出,当有足够更丰富的数据来描述数据分布P(x)时,我们可以获得更加可靠的模型对于真是数据的分布估计。

2.2 样本特征数据及筛选

  • 用户基础信息(年龄、学历、身份证所属身份等)
  • 信用卡/消费信息(持卡、信用卡账单、线下消费分期等)
  • 通讯录及通信行为(手机号归属城市、通讯录亲属信息、注册时长、近期呼入呼出行为及时长等)
  • Applist信息(高危app安装、母婴等各类型app安装情况、APP风险分类情况等)
  • 设备指纹(设备号相关风险信息、手机型号、设备GPS信息等)
  • 申请行为风险(总拒绝次数、同邮箱/号码等关联多idno、短期频繁申请行为、申请时段信息等)
  • 案件平台信息(基于关系网络的黑名单、设备共用、几度邻居的逾期情况等)
  • 三方分(反欺诈、多头、借款逾期信息、征信、电商等)

采用IV筛选

        其中,pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例,#yi是这个组中响应客户的数量,#ni是这个组中未响应客户的数量,#yT是样本中所有响应客户的数量,#nT是样本中所有未响应客户的数量。 从这个公式中我们可以体会到,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。

采用随机森林筛选

        看每个特征在随机森林中的每棵树上做了多大的贡献,然后取平均值,最后比较不同特征之间的贡献大小。贡献度的衡量指标包括:基尼指数(gini)、袋外数据(OOB)错误率作为评价指标来衡量。

2.3 模型处理流程

2.3.1 初筛模型

        存在大量被拒绝的用户,“拒绝(未知贷后表现)的用户”是“有贷后表现用户”的约20倍 模型特征可以全量调取,自有+包年特征 目标:在捞回更多好用户的同时,拒绝一部分逾期风险大的用户。

         初筛模型选择以及相应的算法分析讨论:

         1. 模型主体采用 半监督架构

         2. 将无监督与监督模型有机结合形成半监督框架

             模型讨论:

                (1)变分自编码(VAE)

                (2)标签传播(LP)

                (3)异常检测(OD)

          3. 监督模型             

                (1)Stacking(GBDT&LR)

                (2)自适应提升模型(AdaXgboost)

2.3.1.1 半监督学习(SSL)

        半监督学习有两个样本集,一个有标记,一个没有标记.分别记作 Lable={(xi,yi)},Unlabled={(xi)}.并且数量上,L<<U. 1.单独使用有标记样本,我们能够生成有监督分类算法。 2.单独使用无标记样本,我们能够生成无监督聚类算法。 3.两者都使用,在1中加入无标记样本,增强有监督分类的效果;同样的,在2中加入有标记样本,增强无监督聚类的效果。   在我们的实践中,半监督分类学习侧重于在有监督的分类算法中加入无标记样本/信息来实现半监督分类。也就是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签yi取有限离散值yi∈{c1,c2,···,cc},cj∈N。

        SSL的成立依赖于模型假设,当模型假设正确时,无类标签的样例能够帮助改进学习性能。SSL依赖的两种主要假设:

(1)聚类假设(Cluster Assumption) 当两个样例位于同一聚类簇时,它们在很大的概率下有相同的类标签.这个假设的等价定义为低密度分离假设(Low Sensity Separation Assumption),即分类 决策边界应该穿过稀疏数据区域,而避免将稠密数 据区域的样例分到决策边界两侧.平滑假设有点类似聚类假设,位于稠密数据区域的两个距离很近的样例的类标签相似。

(2)流形假设(Manifold Assumption) 将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。许多实验研究表明当SSL不满足这些假设或模型假设不正确时,无类标签的样例不仅不能对学习性能起到改进作用,反而会恶化学习性能,导致 SSL的性能下降。.

2.3.1.2 流形假设(变分自编码)

        变分自编码器(VAEs)是学习低维数据表示的强大模型,将高维的数据映射到低维, 使该低维的数据能够反映原高维数据的某些本质结构特征。关于VAE的算法原理可以参考我们之前的文章《生成式模型与判别式模型对比(涉及VAE、CRF的数学原理详述)》。

2.3.1.3 标签扩散模型(本场景下某种程度上的聚类假设)

        标签扩散模型基于图的结构,将已知标签信息从已标记的节点传播到未标记的节点。其核心思想是利用节点之间的相似性或连接关系,通过扩散的方式推断未标记节点的标签。在一个图中,节点代表数据对象,边表示节点之间的关系。如果两个节点之间存在较强的连接或相似性,那么它们更有可能具有相同的标签。标签扩散模型通过在图上进行迭代传播,逐渐将标签信息从已标记的节点传播到未标记的节点,直到达到一定的收敛条件。在仅有部分数据有标签的情况下,标签扩散模型可以利用已标记数据的信息来推断未标记数据的标签,从而提高学习效果。

        从某种角度看,标签扩散过程中,如果节点之间的连接紧密且具有相似的标签传播趋势,可能会在一定程度上形成类似聚类的效果。即具有相似标签的节点在传播过程中会逐渐聚集在一起。事实上,基于共同特征、向量相似度等都可以建立图结构。

2.3.1.4  异常检测(结构信息)

异常检测方法介绍【1】

KNN 异常检测

        原理:认为异常点距离正常点比较远,通过计算每个数据点的 K 近邻距离(或平均距离),与阈值比较或取距离排序前 n 个最大的作为异常点,计算距离一般使用欧式距离或角度距离。

HBOS(基于直方图的异常检测)

        过程类似朴素贝叶斯模型,假设特征相互独立,对每个特征作直方图,连乘样例特征在各个直方图中的频率得到生成概率。优点:速度快,适合大数据情形。缺点:特征相互独立条件强,现实中可能不符合,不适合异常数据过多的情形。

LOF(局部异常因子)

        首先找出每个数据点的 K 个近邻,然后计算 LOF 得分,得分越高越可能是异常点。LOF 是一个比值,分子是 K 个近邻的平均局部可达密度,分母是该数据点的局部可达密度。可达密度中,分子是 K - 近邻的个数,分母是 K - 近邻可达距离之和。A 到 B 的可达距离定义为 A 和 B 的真实距离与 B 的 k - 近邻距离的最大值。

OneClassSvm

        当训练数据只有一类 positive(或 negative)时,需要学习训练数据的边界。假设最好的边界要远离特征空间中的原点,目标转换到特征空间就是找一个离原点比较远的边界。

iForest(孤立森林)

        适用于异常点较少的情况,采用构造多个决策树的方式进行异常检测。对数据集有放回抽样,构建二叉树时随机选取一个特征和分割点,将数据分类,直至达到一定深度或叶子节点只包含一个数据点。数据点在多个二叉树上的平均深度越浅越可能是异常值。只适合检测全局异常点,不适合检测局部异常点。

2.3.1.5  监督模型结合无监督信息(半监督学习架构)
1. 第一种模型结构

Variational autoencoder + Gradient boosting machine + Logistic regression + Class weight

        模型优势互补: LR属于线性模型,易处理离散特征,容易并行化,可以轻松处理上亿条数据,但是学习能力十分有限,需要大量的特征工程来增加模型的学习能力。GBDT也是一种经常用来发现特征组合的有效思路。将训练完GBDT的叶子节点对应为LR的每一维特征,由于GBDT从根节点到叶子节点的路径,每个分割节点都是选择使得平方损失误差达到最小的节点和分割点,所以该条路径上特征的组合具有一定的区分性。

2. 第二种模型结构

基于Anomaly detection family模型结构【2】: k-NearestNeighbor , Local Outlier Factor ,Histogram-based Outlier Detection,One class svm ,Isolated forest

3. 第三种模型结构

 Adaboost思想结合xgboost、ks在场景中的应用

2.3.1.6  模型应用结论

        第三种模型结构结合VAE+OD信息,获得的KS最高,线上应用最佳。

2.3.2 审批模型

        拒绝的用户与有贷后表现的用户比例差不多1:1。 模型特征加入了部分按条收费的第三方数据。 目标:尽可能识别出逾期风险大的用户进行排除,特别强调对坏人的识别能力。

        审批模型有几种处理方式:

        第一种采用多分类:

        第二种采用多模型融合思路:

        第三种:面向top3 level bad rate & rank order优化的AdaXgboost,能够基于错分的数据进行采样权重的动态调整。

        第四种:采用TrAdaBoost(Transfer AdaBoost)【3】迁移学习思路。TrAdaBoost 的基本思想是利用已有的源域数据和少量的目标域数据进行学习,从而提升目标域任务的性能。它通过调整源域样本的权重,使得那些对目标域任务更有帮助的源域样本在后续的学习中起到更大的作用。在每一轮迭代中,TrAdaBoost 会根据当前分类器在目标域数据上的错误率来调整源域和目标域样本的权重。如果一个源域样本被错误分类,那么它的权重会降低;如果一个目标域样本被错误分类,那么它的权重会增加。

3. 参考材料

【1】Anomaly detection and three most used algorithms

【2】XGBOD: Improving Supervised Outlier Detection with Unsupervised Representation Learning

【3】Boosting for Transfer Learning

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2155656.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

植物大战僵尸【源代码分享+核心思路讲解】

植物大战僵尸已经正式完结&#xff0c;今天和大家分享一下&#xff0c;话不多说&#xff0c;直接上链接&#xff01;&#xff01;&#xff01;&#xff08;如果大家在运行这个游戏遇到了问题或者bug&#xff0c;那么请私我谢谢&#xff09; 大家写的时候可以参考一下我的代码思…

网络安全-shire写任务计划、反弹shell、写私钥、反序列化

目录 一、环境 二、 介绍 三、开始做题 四、写公钥 一、环境 网上自己找 二、 介绍 我们经过前面文章很清楚知道&#xff0c;shiro是将数据存储在内存当中&#xff0c;内存落盘实现一个数据存储&#xff0c;而当其结合python&#xff0c;python将登录的session存储到shiro里…

矩阵范数介绍

这里写目录标题 理论1 诱导范数 (induced norm)2 “元素形式”范数(“entrywise" norm)3 Schatten 范数 论文中常用范数的书写 理论 参考张贤达矩阵分析page 34 矩阵范数主要有三种类型&#xff1a;诱导范数&#xff0c;元素形式范数和Schatten范数 1 诱导范数 (induce…

AiAutoPrediction足球网与泊松分布足球预测比赛模型介绍

AiAutoPrediction足球软件上线于2020年9月&#xff0c;是国内首家将泊松分布概率公式应用于足球比赛比分预测的软件。 AiAutoPrediction足球系列软件如下&#xff1a; AIAutoPrediction SoccerPredictor |走地大小球|走地让球|走地角球|数据分析 AiScorePredictor 泊松分布…

这可能又是一款 Java 程序员的必备插件了,无需解压直接编辑修改 jar 包内文件,神器!(附源码)

作为一名 Java 程序员&#xff0c;在维护一些古老的程序时&#xff0c;可能会遇到这种情况&#xff1a;项目依赖的 jar 包过于久远&#xff0c;已经没有源码了&#xff0c;但是有不得不修改的 bug 要处理。这时候就得想办法反编译 jar 包进行修改&#xff0c;并且重新打包&…

基于51单片机的可燃性气体报警器设计

文章目录 前言资料获取设计介绍设计程序具体实现截图设计获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师&#xff0c;一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们…

《财富之眼:用经济思维看清世界》pdf电子书下载

《财富之眼&#xff1a;用经济思维看清世界》pdf电子书下载 内容简介 一切社会现象都是经济现象&#xff0c;我们只能赚到自己认知范围内的 钱。我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不 平衡不充分的发展之间的矛盾&#xff0c;其中“不平衡不充分”很大程…

无法删除选定的端口,不支持请求【笔记】

场景&#xff1a;在删除打印机端口时&#xff0c;提示&#xff1a;“无法删除选定的端口&#xff0c;不支持请求”&#xff0c;如下图所示。 以下以删除USB036端口为示例&#xff0c;操作步骤如下&#xff1a; 在注册表编辑器中&#xff0c;从以下注册表项中“计算机\HKEY_LO…

C++_22_异常

文章目录 异常概念&#xff1a;**抛出异常&#xff1a;**关键字&#xff1a; **捕获异常&#xff1a;****栈解旋&#xff1a;****异常的接口声明&#xff1a;****异常对象的生命周期&#xff1a;**1 传递异常对象【不使用】2 传递异常对象指针【不使用】3 传递异常对象引用【**…

Xilinx系FPGA学习笔记(八)FPGA与红外遥控

系列文章目录 文章目录 系列文章目录红外通信简单介绍红外协议分析 FPGA实现红外通信 红外通信 简单介绍 利用红外线来传送&#xff0c;不干扰其他电器设备工作&#xff0c;也不会影响周边环境&#xff0c;若对发射信号进行编码&#xff0c;可实现多路红外遥控功能。 红外遥控…

全面介绍 CSS 属性值计算 —— 掌握它就了解大部分 CSS

CSS 的核心之一就在此&#xff0c;直接影响我们开发中的调试和布局&#xff01;&#xff01;&#xff01; 举个 &#x1f330;&#xff1a;页面上存在一个 h1 元素&#xff0c;不设置任何样式&#xff0c;但是当我们点开 computed 查看&#xff0c;几乎 MDN 上的 CSS 属性都存…

C++高精度计时方法总结(测试函数运行时间)

文章目录 一、clock()函数——毫妙级二、GetTickCount()函数&#xff08;精度16ms左右&#xff09;——毫妙级三、高精度时控函数QueryPerformanceCounter()——微妙级四、高精度计时chrono函数——纳妙级五、几种计时比较六、linux下的计时函数gettimeofday()-未测试参考文献 …

C语言6大常用标准库 -- 4.<math.h>

目录 引言 4. C标准库--math.h 4.1 简介 4.2 库变量 4.3 库宏 4.4 库函数 4.5 常用的数学常量 &#x1f308;你好呀&#xff01;我是 程序猿 &#x1f30c; 2024感谢你的陪伴与支持 ~ &#x1f680; 欢迎一起踏上探险之旅&#xff0c;挖掘无限可能&#xff0c;共同成长&…

《他们的奇妙时光》圆满收官,葛秋谷新型霸总获好评

9月21日&#xff0c;由王枫、张开法执导&#xff0c;周洁琼、葛秋谷领衔主演的奇幻爱情题材都市喜剧《他们的奇妙时光》圆满收官。该剧讲述了意外被游戏角色刑天附体的设计师宋灵灵&#xff0c;为修复游戏漏洞&#xff0c;被迫与能压制刑天的甲方总裁萧然同居&#xff0c;两人在…

LDR6020在索尼PS5 VR2适配器中的应用技术方案探讨

随着虚拟现实&#xff08;VR&#xff09;技术的日益成熟&#xff0c;索尼PlayStation VR2&#xff08;简称PS VR2&#xff09;作为新一代VR设备&#xff0c;凭借其出色的性能和沉浸式体验&#xff0c;成为了游戏界的焦点。为了进一步扩大PS VR2的应用范围&#xff0c;索尼推出了…

深度学习02-pytorch-01-张量的创建

深度学习 pytorch 框架 是目前最热门的。 深度学习 pytorch 框架相当于 机器学习阶段的 numpy sklearn 它将数据封装成张量(Tensor)来进行处理&#xff0c;其实就是数组。也就是numpy 里面的 ndarray . pip install torch1.10.0 -i https://pypi.tuna.tsinghua.edu.cn/simp…

LLMs之LCM:《MemLong: Memory-Augmented Retrieval for Long Text Modeling》翻译与解读

LLMs之LCM&#xff1a;《MemLong: Memory-Augmented Retrieval for Long Text Modeling》翻译与解读 导读&#xff1a;MemLong 是一种新颖高效的解决 LLM 长文本处理难题的方法&#xff0c;它通过外部检索器获取历史信息&#xff0c;并将其与模型的内部检索过程相结合&#xff…

分布式网络存储技术是什么?分布式存储技术有哪些

分布式储存是指将数据分散存储在多个节点上的一种技术。但是你们知道分布式网络存储技术是什么&#xff1f;相比传统的集中式存储&#xff0c;分布式储存具有更高的可靠性和可用性。分布式网络存储是一种将数据分散存储在多个节点或服务器上的架构。 分布式网络存储技术是什么&…

开源 AI 智能名片 S2B2C 商城小程序与营销工具的快速迭代

摘要&#xff1a;本文以开源 AI 智能名片 S2B2C 商城小程序为研究对象&#xff0c;探讨在营销工具快速迭代的背景下&#xff0c;该小程序如何借鉴以拼多多为代表的“小程序拼团”、以蘑菇街为代表的“小程序直播”、以花点时间为代表的“小程序按月订花”等经典案例&#xff0c…

springboot注册和注入组件方式概览

IoC&#xff1a;Inversion of Control&#xff08;控制反转&#xff09; 控制&#xff1a;资源的控制权&#xff08;资源的创建、获取、销毁等&#xff09; 反转&#xff1a;和传统的方式不一样了 DI &#xff1a;Dependency Injection&#xff08;依赖注入&#xff09; 依赖&…