风险区分度—IV、KS和分布

news2025/1/12 3:57:18

       IV和KS是风控中常用的评估指标,用于衡量变量的预测能力和区分度。一般来说,IV和KS值越大,表示该变量的预测能力越强。本文从IV和KS以及两者之间的关系方面作一些思考。

一、IV值

       一般来说,IV计算用于筛选变量,常用来评估某变量的预测能力。其本质是从信息熵上比较好人分布和坏人分布之间的差异性(具体可参考之前的文章相对熵与IV、PSI的关系)。

1.PNG

       有一点需要注意的是IV的大小受到分箱的影响。一般在计算IV时,如果是数值变量,会选用卡方分箱(最优分箱)之后的结果;如果是类别变量,则可以用badrate编码进行降基处理后再计算IV。

3.PNG

二、KS值

       一般来说,KS指标用于评估模型,即模型对好坏客户的区分程度。其本质是模型能够将好坏客户区分开的能力。(具体可参考模型评估指标之间的一些联系)

image.png

       同样需要注意的一点,KS计算可以分箱,也可以不分箱。不分箱法可得出最大且唯一的KS值,分箱算出来的KS值会小一点,而且分箱分的越细,KS越大,分箱越粗,KS越小。这一点其实在IV计算的时候也适用,分箱越细,IV值越大,因为IV和KS本质上都是在衡量好与坏两个分布之间的距离,如果分箱越多,那好人与坏人的分布差异自然就越大。        

 

三、IV和KS的关系

      上面提到,IV和KS本质上都是在衡量好与坏两个分布之间的距离。IV是将好坏分布叠在一起从信息熵上比较相似程度;KS是从累积好坏分布之间的最大间隔来进行比较。那既然都是在比较分布的差异,那为什么筛选变量的时候用IV、评估模型性能的时候用KS?

        先来看下面这个例子。下图中有两个变量,变量2是将变量1中的bin3和bin5进行调换,单变量排序性减弱,KS从19.09%降到17.62%。由于bin3-5发生风险发生倒挂,因此坏人的分布发生上移,好人分布不变,好人与坏人分布的差异性减小(IV不变是因为只是调整了bin3和bin5的顺序)。

       在实际工作中,在比较两个变量的风险区分度的时候,如果不通过IV和KS指标进行比较的话,还有一种方法就是保持两个变量的分布一致,然后直接看各个分箱上的风险表现。在上面的例子中,变量1和2在各个bin上的分布是一致的,因此可以直接看坏样本率的差异,直观上变量1的风险区分度要好,从KS值上也反映了这一点。

       假设现在有两个变量,分布不一致,在无法手动调节其分布的情况下,只能通过比较其IV或者KS来说明变量的风险区分度。

        由于分布不一致,因此无法直接通过分箱的坏样本率来判断变量的区分度。从IV和KS指标上来看,IV上变量2更好(0.2vs0.3),KS上变量1更好(19%vs17%)。由于变量2中bin2-bin4坏样本率完全一致,因此对bin2-bin4作下合并。

        合并之后,IV上变量2更好(0.16vs0.3),KS上变量2更好(13%vs17%)。可以看到调整分箱之后,变量1上KS下降幅度很大,导致结论出现反转。造成这种现象的原因是分箱数较少,KS的波动较大。因此对于这种分箱较少的单变量,用KS去衡量预测能力是不合适的。

       总结一下,IV和KS都可以用来衡量变量的预测能力和区分度,本质都是在计算好坏之间分布的差异。IV虽受到分箱的影响,但一般计算时都会采用卡方分箱,所以影响不大;KS指标有最大且唯一的值,更适用于分数这种排序性较好的变量。

      关于KS和IV值的关系,这里照搬下求是汪在知乎上的答案。当IV等于0.5的时候,KS接近30%;IV等于1的时候,KS接近40%。

 【作者】:Labryant
【原创公众号】:风控猎人
【简介】:做一个有规划的长期主义者。
【转载说明】:转载请说明出处,谢谢合作!~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/877792.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

记一次现场找不到配置的神奇报错,(其实配置是完整的)

记一次现场找不到配置的神奇报错,(其实配置是完整的) 问题的原因为因为配置文件中符号的问题。 报错找不到url1 **Notepad**打开的文件 如图是两份看起来一模一样的配置,其中一个就会报错找不到某某配置。 实际有细小的差别 …

纷享销客稳居2022 H2 SFA SaaS 本土CRM厂商市场份额 TOP 1

近期,国际知名研究机构IDC公布了2022年下半年《中国客户关系管理(CRM)SaaS市场跟踪研究报告》,报告全面解析了中国CRM SaaS以及细分市场SFA SaaS的市场现状,并对全球各大厂商在中国SFA市场的份额占比进行了排名。连接型CRM开创者纷享销客在SF…

AAAI 最佳论文列表(1984→2023最新)附论文下载

明天AAAI全文截稿了,不知道大家的论文投的咋样啦?我不得不提一句,今年的AAAI投稿量又破新高了,快14,000!卷哭... 不过这个投稿量也在意料之中,AAAI属于中国计算机学会CCF的A类国际学术会议,在人…

Unity zSpace 开发

文章目录 1.下载 zSpace 开发环境1.1 zCore Unity Package1.2 zView Unity Package 2. 导入工程3. 发布设置4.功能实现4.1 用触控笔来实现对模型的拖拽: 5. 后续更新 1.下载 zSpace 开发环境 官网地址 1.1 zCore Unity Package zSpace 开发核心必须 1.2 zView …

Nacos使用SpringCloudAlibaba+Dubbo实现

Nacos简介 Nacos是阿里的一个开源产品,它是针对微服务架构中的服务发现、服务治理、配置管理的综合型解决方案。 官方介绍是这样的: Nacos 致力于帮助您发现、配置和管理微服务。Nacos 提供了一组简单易用的特性集,帮助您实现动态服务发现、…

【QT】 Word模板编辑、转PDF格式

很高兴在雪易的CSDN遇见你 ,给你糖糖 欢迎大家加入雪易社区-CSDN社区云 前言 本文分享基于QT进行Word模板编辑以及Word转PDF的技术,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U^)ノ~YO 目录 …

微信开发之一键退出群聊的技术实现

简要描述: 退出群聊 请求URL: http://域名地址/quitChatRoom 请求方式: POST 请求头Headers: Content-Type:application/jsonAuthorization:login接口返回 参数: 参数名必选类型说明wI…

微信小程序实现左滑删除

一、效果 二、代码 实现思路使用的是官方提供的 <movable-area> <movable-view> Page({/*** 页面的初始数据*/data: {pushedData:[{messageTitle:饼干,messageContent:饼干爱吃}],//已推送数据},/*** 生命周期函数--监听页面加载*/onLoad() {},/*** 生命周期函数-…

设计列表和超链接

在网页中&#xff0c;大部分信息都是列表结构&#xff0c;如菜单栏、图文列表、分类导航、新闻列表、栏目列表等。HTML5定义了一套列表标签&#xff0c;通过列表结构实现对网页信息的合理排版。另外&#xff0c;网页中还包含大量超链接&#xff0c;通过它实现网页、位置的跳转&…

【计算机视觉|生成对抗】带条件的对抗网络进行图像到图像的转换

本系列博文为深度学习/计算机视觉论文笔记&#xff0c;转载请注明出处 标题&#xff1a;Image-to-Image Translation with Conditional Adversarial Networks 链接&#xff1a;Image-to-Image Translation with Conditional Adversarial Networks | IEEE Conference Publicati…

四、Dubbo扩展点加载机制

四、Dubbo扩展点加载机制 4.1 加载机制概述 Dubbo良好的扩展性与框架中针对不同场景使用合适设计模式、加载机制密不可分 Dubbo几乎所有功能组件都是基于扩展机制&#xff08;SPI&#xff09;实现的 Dubbo SPI 没有直接使用 Java SPI&#xff0c;在它思想上进行改进&#xff…

六轴机械臂码垛货物堆叠仿真

六轴机械臂码垛货物堆叠仿真 1、建立模型与仿真 clear,clc,close all addpath(genpath(.)) %建立模型参数如下&#xff1a; L(1) Link( d, 0.122, a , 0 , alpha, pi/2,offset,0); L(2) Link( d, 0.019 , a ,0.408 , alpha, 0,offset,pi/2); L(3) Link( d, …

C++的stack和queue+优先队列

文章目录 什么是容器适配器底层逻辑为什么选择deque作为stack和queue的底层默认容器优先队列优先队列的模拟实现stack和queue的模拟实现 什么是容器适配器 适配器是一种设计模式(设计模式是一套被反复使用的、多数人知晓的、经过分类编目的、代码设计经验的总 结)&#xff0c;…

【内联函数】

这里写目录标题 内联函数一、指定内联函数的方法很简单&#xff0c;只需要在函数定义处增加 inline 关键字一般是将非常短小的函数声明为内联函数内联函数与宏定义例题 内联函数 内联函数也称内嵌函数&#xff0c;它主要是解决程序的运行效率。 函数调用需要建立栈内存环境&am…

小白带你学习linux的MongoDB(三十四)

目录 一、概述 1、相关概念 2、特性 二、应用场景 三、安装 四、目录结构 五、默认数据库 1、admin&#xff1a; 2、local: 3、config: 六、数据库操作 1、库操作 2、文档操作 七、MongoDB数据库备份 1、备份命令 2、回数据库删除…

数据库内日期类型数据大于小于条件查找注意事项

只传date格式的日期取查datetime的字段的话默认是 00:00:00 日期类型字符串需要使用 ’ ’ 单引号括住 使用大于小于条件查询某一天的日期数据 前后判断条件不能是同一天 一个例子 数据库内数据&#xff1a; 查询2023-08-14之后的数据&#xff1a; select * from tetst…

Linux 内核第一版 (v0.01) 开源代码解读

探索Linux v0.01的内部结构&#xff0c;Linux内核经常被认为是一个庞大的开源软件。在撰写本文时&#xff0c;最新版本是v6.5-rc5&#xff0c;包含36M行代码。不用说&#xff0c;Linux是几十年来许多贡献者辛勤工作的成果。 Linux 内核首个开源版本 (v0.01) 的体积非常小&…

HBuilderX

HX 简介下载安装 简介 HBuilderX 是一款由 DCloud 开发的集成开发环境 (IDE)&#xff0c;主要用于前端开发和移动应用开发。它基于 Visual Studio Code 平台&#xff0c;针对 Web 开发、小程序开发、移动端开发等提供了丰富的功能和插件。 DCloud官网: https://www.dcloud.io …

剑指offer57-II.和为s的连续正数序列

看完题脑子里闪过了暴力法&#xff0c;就是从1开始往后累加&#xff0c;直到累加和等于或大于target&#xff0c;如果等于就放进数组&#xff0c;如果大于就从2开始加&#xff0c;但是这种想法只是闪过一下&#xff0c;因为我觉得加上填充数组需要3层循环肯定会超时&#xff0c…

java毕业设计-智慧食堂管理系统-内容快览

首页 智慧食堂管理系统是一种可以提高食堂运营效率的管理系统。它将前端代码使用Vue实现&#xff0c;后端使用Spring Boot实现。这个系统的目的是简化食堂管理&#xff0c;提高食堂服务质量。在现代快节奏的生活中&#xff0c;人们对餐饮服务提出了更高的要求&#xff0c;食堂管…