【博学谷学习记录】超强总结，用心分享丨人工智能特征工程特征变换分箱学习总结

news2026/2/11 4:51:12

概念

特征构造的过程中，对特征做分箱处理时必不可少的过程
分箱就是将连续变量离散化，合并成较少的状态

分箱的作用

离散特征的增加和减少都很容易，易于模型的快速迭代；
稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；
分箱（离散化）后的特征对异常数据有很强的鲁棒性
单变量分箱（离散化）为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力
分箱（离散化）后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；
分箱（离散化）后，模型会更稳定，如对年龄离散化，20-30为一个区间，不会因为年龄+1就变成一个新的特征。
特征离散化以后，可以将缺失作为独立的一类带入模型

等频分箱

请添加图片描述

红色：目标样本

等距分箱

红色：目标样本
请添加图片描述

红色：目标样本

*卡方分箱

将卡方值较小的两个相邻箱体合并

使得不同箱体的好坏样本比例区别放大，容易获得高IV

公式

$\rm{\overline{p}_{bad} = \frac{\sum_{k}n^k_{bad}}{\sum_{k}(n^k_{good}+n^k_{bad})}} \\$
$\rm{\chi_{k}^{2}=\frac{(n^k_{bad}-\overline{p}_{bad}(n^k_{good}+n^k_{bad}))^2}{\overline{p}_{bad}(n^k_{good}+n^k_{bad})}}$

k表示第几个箱子

例子

步骤：
初始化：根据连续变量值大小进行排序，构建最初的离散化
合并：遍历相邻两项合并的卡方值，将卡方值最小的两组合并，不断重复直到满足分箱数目要求

请添加图片描述

	[22-35]	(35-45]	(45-55]	(55-65]	总计
good	3	2	2	1	8
bad	1	2	2	3	8
p					50%
p(good+bad)	2	2	2	2	-
chi2	(1-2)^2/2=1/2	(2-2)^2/2=0	(2-2)^2/2=0	(3-2)^2/2=1/2	-

PBad= 8/16
xk2 = (1-2)^2/2=1/2

卡方值不同代表箱体差异化
使用toad库可以进行卡方分箱代码编写

心得：分箱作为必不可少的一个过程，知道其中原理方可更好的处理数据

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/378358.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！