常用特征分箱算法

news2024/11/25 10:34:02

特征分箱是构建信用评分过程中最重要的一个环节。特征分箱是对连续变量离散化的一种简称,对于连续型变量,需要对其连续值进行拆分,并进行后续的分箱调整工作;

对于离散型变量,通常要根据每个离散值计算其坏样本占比或者好坏比,通过坏样本占比或好坏比对离散信息进行编码,将离散值转换为连续型变量,再进行后续的分箱操作。

特征分箱算法即是在特征分箱过程中采用的方法,对于同一特征而言,不同的分箱算法所得到的分箱结果差异较大,这也直接影响最终的特征预测能力以及模型效果。

常用的特征分箱算法

特征分箱算法有很多种,不同的建模师在不同的业务场景下,根据现有的数据基础,所选择的特征分箱算法均可能不同。

1) 经验分箱法

传统上,建模工程师在进行分箱操作时通常会结合自身的业务经验,根据业务上积累的数据经验对分箱进行主观划分。

比如年龄这一字段,业务上的数据感觉可能会告诉建模工程师,当客户年龄在18岁以上30岁以下时,风险水平较为相似,应当划分到同一个分箱中去;而当客户年龄在30岁以上45岁以下时,客户收入水平在整个生命周期中处于较高的水平,风险水平相对较低;而当客户年龄在45岁以上时,收入水平下降,风险水平相对有所提高。

建模工程师根据经验可能会将年龄字段划分为3个分箱,分别是[18,30]、[30,45]、[45,65]三个区间,再分别计算这三个分箱对应的好坏比及WOE值。

这种根据业务经验对特征进行分箱的方法,当建模人员业务经验较为丰富时,通常分箱及建模会有较好的效果。但在建模人员经验较为不足时,分箱结果的主观性较强。

这种方法会受到很多主观因素的干扰,分箱结果也不能很好的反映特征变量在数据意义上的真实表现。

2) 统计分箱法

除了根据业务经验分箱外,业界还有一种使用无监督统计方法进行分箱的做法,常见有的等频分箱法、等距分箱法和聚类分箱法。

等频分箱法是指在将需要分箱的特征按从小到大或从大到小进行排序后,按照等频的统计原则对变量进行分箱。

比如同样假设年龄这个字段,取值区间在18-65岁,样本总量10000人,假设取每2500人一个分箱,可能得到[18,28]、[29,40]、[41,53]、[54,65]共计4个分箱,每个分箱2500个样本。这样得到的分箱即根据等频分箱法取得。

等频分箱法中的分箱个数通常也是根据业务经验得到,或者根据某些特征条件限制取得。

等频分箱法的优点在于样本分布均匀,每个分箱中样本量较为充足,所体现的样本好坏规律较为稳定。但等频分箱法可能出现不同分箱中坏样本占比或好坏比趋势非单调或者不完全符合业务经验的情形,这是等频分箱法的不足之处。

等距分箱法是指在将需要分箱的特征按从小到大或从大到小进行排序后,按照等距的统计原则对变量进行分箱。

比如假设年龄这一字段,取值区间同样在18-65岁,样本总量还是10000人,假设每12岁间隔为一个分箱,可以得到[18,30]、[31,43]、[44,56]、[57,65]共计4个分箱。除最后一箱外,其余每箱间距均为12岁,这样得到的分箱即根据等距分箱法取得。

与等频分箱法一样,等距分箱法的分箱个数,也是根据业务经验或主观选取。等距分箱法的最大优点是直观易理解,每箱距离一致,从数学上看形式较为美观。

但由于借款真实客户的分布可能各种各样,因此等距分箱法不同分箱中的样本个数可能差异较大,有可能导致部分分箱中样本量较少,以至于分箱坏样本占比或好坏比出现极端值的情形,导致分箱不具有代表性。

聚类分箱法是一种新型的统计分箱法,这种方法的特异之处在于它利用了相对较为高深的聚类分析方法,通过聚类分析,将特征的取值聚到不同的类中,并将聚得的每个类作为一个分箱。这样得到的每一个分箱的样本取值较为相似,不同分箱的样本取值差异较大。

聚类分箱法的优点是使得分箱之间的区分度能够显著提高,同一分箱较为相似,不同分箱又能保持一定差异,符合特征分箱对分箱差异性的要求。

然而,聚类分析中的类个数依然取决于建模人员的主观判断,并没有一个明确可量化的衡量标准。另外,由于是对单一特征进行聚类,计算欧氏距离指标所依据的信息量有限,经常可能会导致分箱结果与业务经济含义不符,难以理解的情况出现。

如果你喜欢、想要看更多的干货类型的文章,可以把公众号设为星标🌟,顺便转发分享~

FAL长期对外征稿,邀请各大风控人士加入我们,在风控圈分享你的经验与知识👉征稿,快到碗里来,有稿费那种!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1588080.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【unity】【C#】游戏音乐播放和发布

今天我们来认识一下有关 unity 音乐的一些知识 我们先创建 AudioClips 文件夹,这个文件夹通常就是 unity 中存放音乐的文件夹,然后拖进音乐文件进去 这里为大家提供了两个音乐,有需要可以自取 百度网盘:https://pan.baidu.com/s…

从库延迟案例分析

背景介绍 近来一套业务系统,从库一直处于延迟状态,无法追上主库,导致业务风险较大。从资源上看,从库的CPU、IO、网络使用率较低,不存在服务器压力过高导致回放慢的情况;从库开启了并行回放;在从…

一键提升Edge浏览器生产力

Edge作为微软的产品,其具体使用和特性在此不再赘述,其中对我个人而言较有吸引力的部分是其扩展部分。正是有了其丰富的扩展插件,其生产力才能一键跃升,今天让我们一起来探索几款有用(有趣)的扩展插件。 1.…

NASA数据集—— 亚洲夏季季风化学和气候影响项目(ACCLIP)Roscoe 激光雷达收集的云和气溶胶ADO遥感数据

ACCLIP WB-57 Aerosol and Cloud Remotely Sensed Data 简介 ACCLIP_AerosolCloud_AircraftRemoteSensing_WB57_Data 是亚洲夏季季风化学和气候影响项目(ACCLIP)期间从 Roscoe 激光雷达收集的云和气溶胶遥感数据。该产品的数据收集工作已经完成。 亚洲…

【汇编】_Visual Studio2019写32位汇编

目录 第一步:创建新项目 1. 空项目—下一步 2. 选择位置—填写项目名—创建 第二步:项目生成依赖项 1. 右击项目名—生成依赖项—生成自定义 2. 选中masm—确定 第三步:创建源文件 1. 源文件—添加—新建项 2. 选择C文件—创建新文件…

ActiveMQ + MQTT 集群搭建(虚机版本) + Springboot使用配置

文章目录 前言一、ActiveMQ、 MQTT是什么?1.ActiveMQ介绍2.MQTT介绍 二、集群搭建步骤1.下载apache-activemq-5.15.12-bin.tar.gz2.上传apache-activemq-5.15.12-bin.tar.gz到服务器并解压文件到文件夹clusters、master、slave三个文件夹下面形成三个节点&#xff0…

配置QtCreator能加载自定义插件的环境

配置对应环境 引言查看当前版本配置能够加载插件的环境 引言 生成的自定义插件能在QtCreator的设计器中加载,需要满足当前使用的QtCreator的编译时所需的Qt库和编译器。 查看当前版本 这里需要先查看自己使用的QtCreator的版本,即生成QtCreator时使用…

17(18)-1-HTML5 新增语义标签及属性

个人主页:学习前端的小z 个人专栏:HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结,欢迎大家在评论区交流讨论! 文章目录 ✍HTML5 新增语义标签及属性💎1 HTML5 新增的块级语义化标签&…

C语言——指针的高级引用

目录 1.概述 2.虚拟内存空间 2.1存储期限 2.2栈区管理 2.3堆区域的使用 3.动态内存分配和释放(重点) 3.1通用指针类型void 3.2内存分配malloc函数 3.2.1 malloc函数(memory allocation)(注意len*size&#xff…

SAP SD学习笔记04 - 出荷Plant(交货工厂),出荷Point(装运点),输送计划,品目的可用性检查,一括纳入/分割纳入,仓库管理

上一章讲了SD的主数据。 SAP SD学习笔记03 - SD模块中的主数据-CSDN博客 本章讲出荷Plant(交货工厂),出荷Point(装运点)和出和路线。 还是偏理论多一些,后面的文章尽量多加些练习巩固一下。 1&#xff0…

Element-UI plus 自定义-下拉框选择年份【vue3】

1.实现效果 2.实现代码展示 <template><el-select v-model"selectedYear" placeholder"请选择"><el-optionv-for"year in yearOptions":key"year":label"year":value"year"></el-option>…

实验四:基于内容的推荐

代码 import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity from sklearn.metrics.pairwise import pairwise_distances import numpy as np news_dfpd.read_csv(C:/Users/Administrat…

【Linux】开始了解重定向

送给大家一句话&#xff1a; 人真正的名字是&#xff1a;欲望。所以你得知道&#xff0c;消灭恐惧最有效的办法&#xff0c;就是消灭欲望。 – 史铁生 《我与地坛》 开始了解重定向 1 前言2 重定向与缓冲区2.1 文件描述符分配规则2.2 重定向的现象2.3 重定向的理解2.4 缓冲区…

阿里云微调chatglm3-6b---只有一个python解释器但gradio要求版本不兼容怎么办

安装LLAMA参考博文http://t.csdnimg.cn/6yYwG 在用LLAMA微调大模型的时候总是出现connected error out并且出现这样的界面 这是由于LLMA所要求的gradio版本>4.0.0,<4.2.0&#xff0c;然而chatglm3-6b要求的gradio版本需要gradio3.39.0才能显示出web_demo_gradio.py渲染…

10.1K star !牛逼了!开源技术速查表,推荐人手一份!

1、前言 在当今信息爆炸的时代&#xff0c;知识的获取、整理和应用显得尤为重要。随着个人职业发展和学习需求的不断提升&#xff0c;搭建一个个人知识库已成为提升竞争力的关键一环。个人知识库不仅是一个信息的存储库&#xff0c;更是一个思维的工具箱&#xff0c;它能够帮助…

【前缀积】Leetcode 除自身以外数组的乘积

题目解析 238. 除自身以外数组的乘积 算法讲解 我们可以使用两个空间保存当前位置的左边积和右边积&#xff0c;需要注意的地方初始的dp表需要初始化为1&#xff0c;如果是0则无法得到结果&#xff0c;因为此处是乘法 class Solution { public:vector<int> productEx…

Python用于比较数据结构并生成差异报告的工具库之data-diff使用详解

概要 Python的data-diff库是一个用于比较数据结构并生成差异报告的工具。它可以处理各种数据类型,如字典、列表、集合等,使得开发者能够快速识别数据之间的差异。 安装 通过pip可以轻松安装data-diff: pip install data-diff特性 支持多种数据类型:能够比较字典、列表、…

鸿蒙+全国产化工业平板电脑在MES系统采集终端应用

在工业4.0的大浪潮推动下,原有制造行业面临原材料及人工成本上涨、生产现场管理混乱、定单杂、生产效率难以提升、生产异常难以实时监控等诸多因素,根本无法满足数字化工厂的基本需求,更难以与工业4.0接轨。 MES系统是一套面向制造企业车间执行层的生产信息化管理 系统。MES可以…

Mac下用adb命令安装apk到android设备笔记

查询了些资料记录备用。以下是在Mac上使用命令行安装APK文件的步骤&#xff1a; 1. 下载并安装ADB&#xff1a; 如果您的Mac上没有安装ADB&#xff0c;请从官方的Android开发者网站下载Android SDK Platform Tools&#xff1a;Android SDK Platform Tools。将下载的ZIP文件解…

Centos安装MySQL提示公钥尚未安装

一、问题 在Centos7.9使用yum安装MySQL时出现错误&#xff0c;提示&#xff1a;mysql-community-server-5.7.44-1.el7.x86_64.rpm 的公钥尚未安装&#xff0c;如下图所示&#xff1a; 执行命令&#xff1a;systemctl start mysqld也提示错误&#xff1a;Failed to start mysq…