【博学谷学习记录】超强总结,用心分享丨人工智能 特征工程 特征变换 分箱学习总结

news2024/11/23 2:11:08

目录

    • 概念
    • 分箱的作用
    • 等频分箱
    • 等距分箱
    • *卡方分箱
      • 公式
      • 例子

概念

  • 特征构造的过程中,对特征做分箱处理时必不可少的过程
  • 分箱就是将连续变量离散化,合并成较少的状态

分箱的作用

  • 离散特征的增加和减少都很容易,易于模型的快速迭代;
  • 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;
  • 分箱(离散化)后的特征对异常数据有很强的鲁棒性
  • 单变量分箱(离散化)为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力
  • 分箱(离散化)后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;
  • 分箱(离散化)后,模型会更稳定,如对年龄离散化,20-30为一个区间,不会因为年龄+1就变成一个新的特征。
  • 特征离散化以后,可以将缺失作为独立的一类带入模型

等频分箱

请添加图片描述

红色:目标样本

等距分箱

红色:目标样本
请添加图片描述

红色:目标样本

*卡方分箱

将卡方值较小的两个相邻箱体合并

使得不同箱体的好坏样本比例区别放大,容易获得高IV

公式

p ‾ b a d = ∑ k n b a d k ∑ k ( n g o o d k + n b a d k ) \rm{\overline{p}_{bad} = \frac{\sum_{k}n^k_{bad}}{\sum_{k}(n^k_{good}+n^k_{bad})}} \\ pbad=k(ngoodk+nbadk)knbadk
χ k 2 = ( n b a d k − p ‾ b a d ( n g o o d k + n b a d k ) ) 2 p ‾ b a d ( n g o o d k + n b a d k ) \rm{\chi_{k}^{2}=\frac{(n^k_{bad}-\overline{p}_{bad}(n^k_{good}+n^k_{bad}))^2}{\overline{p}_{bad}(n^k_{good}+n^k_{bad})}} χk2=pbad(ngoodk+nbadk)(nbadkpbad(ngoodk+nbadk))2

k表示第几个箱子

例子

步骤:
初始化:根据连续变量值大小进行排序,构建最初的离散化
合并:遍历相邻两项合并的卡方值,将卡方值最小的两组合并,不断重复直到满足分箱数目要求

请添加图片描述

[22-35](35-45](45-55](55-65]总计
good32218
bad12238
p50%
p(good+bad)2222-
chi2(1-2)^2/2=1/2(2-2)^2/2=0(2-2)^2/2=0(3-2)^2/2=1/2-

PBad= 8/16
xk2 = (1-2)^2/2=1/2

卡方值不同代表箱体差异化
使用toad库可以进行卡方分箱代码编写

心得:分箱作为必不可少的一个过程,知道其中原理方可更好的处理数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/378358.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IB选课避坑指南,选课不踩雷

众所周知,IBDP课程颇具挑战性,对于学习者的英语写作、意志力、自律性要求都比较严格。 如果你高中阶段想学习IBDP课程,那么在学习之前一定要搞清楚怎么选课再做决定!年轻的IB人,你们准备好了吗? 很多同学在…

Java程序设计-JSP程序设计-SSM校园二手交易系统

摘 要 网络的广泛应用给生活带来了十分的便利。所以把二手物品交易管理与现在网络相结合,利用java技术建设二手物品交易系统,实现二手物品交易的信息化。则对于进一步提高二手物品交易管理发展,丰富二手物品交易管理经验能起到不少的促进作用…

明星的孩子也在做的感统训练,真的有用吗?

林志颖曾经在社交网站晒过带他儿子“模拟过山车”的视频。孩子大脑前庭受到适当的刺激,可以有效地锻炼前庭平衡感。 除此之外,还能看见地上的感统教具:过河石、平衡桥,看来明星老爸在陪孩子做感统游戏的日常一点也不含糊。 其实在…

Flutter Scrollable 中ViewPort滚动原理

关于Flutter Sliver组件内容可以参考下面这位博主博客,写的已经非常好了,这里就不再赘述。 38、Flutter之 可滚动组件简介_flutter 可滑动_风雨「83」的博客-CSDN博客 通过阅读上面的博客,我们已经知道了Scrollable和Viewport基础概念&#…

【手把手一起学习】(七) Altium Designer 20常用PCB设计规则

1 常用PCB设计规则 PCB规则设计是PCB设计中至关重要的环节,它约束了电气要求、布线方式、器件摆放位置等,为后续的手动布局、布线提供依据。完善的PCB规则设计,可以减少设计中的错误,提高PCB设计效率。 1.1 PCB设计规则管理器 …

Aspect-Based Sentiment Analysis Model with Bi-Guide Attention Network 论文阅读笔记

一、作者 Xie Jun, Wang Yuzhu, Chen Bo, Zhang Zehua, and Liu Qin College of Information and Computer, Taiyuan University of Technology, Jinzhong, Shanxi 二、背景 在应用于方面情感分析的深度神经网络中,序列型神经网络能捕获句子的上下文语义信息&am…

血脂高的全身表现,这几种吃法改善

血脂变化总是不知不觉的,很多人没有明显的不适,但是血脂已经慢慢升高,随之而来的就是各种心血管疾病。好在血脂高还有一些外在表现,出现这些变化,多加注意。经常头晕头痛、睡不好、健忘、手脚发麻、午后犯困、夜晚清醒…

TencentOS 3.1安装MySQL 8.0.32

到官网下载安装包:https://dev.mysql.com/downloads/mysql/ 使用如下命令解包。 tar xf mysql-8.0.32-1.el8.x86_64.rpm-bundle.tar 使用rpm -qa |grep mysql 和rpm -qa |grep mariadb检查是否安装过mysql 如果有,使用下命令移除: rpm -e …

6 集成学习及Python实现

1 主要思想 集成学习: 三个臭裨将, 顶个诸葛亮 Bagging: 数据随机重抽样, 并行构建分类器, 投票;Boosting: 关注被错分的样本, 串行构建分类器, 加权投票。 2 理论 AdaBoost (Adaptive Boosting)示意图1 错误率: εEN\varepsilon \frac{E}{N}εNE​ 其中NNN为…

【halcon】dev_set_part / set_part

前言: dev_set_part / set_part 其实功能是一样的。下面就set_part 进行讲解。 背景 我在写程序的时候需要一个诉求,我找了很多瑕疵,每个瑕疵都有一个位置,这些位置在一个数据的列表,我希望在列表点到瑕疵位置的时…

mysql数据库常用字符串函数

文章目录一、字符串函数详解二、文档下载地址一、字符串函数详解 1、ascii(str) 返回值为字符串str 的最左字符的数值,即取得最左字符的ascii码。假如str为空字符串,则返回值为 0 。假如str 为null,则返回值为 null。 2、bin(n) 返回值为n的二进制值的…

了解Maven的作用

专门用于管理和构建Java的工具,主要功能有如下: 1.提供一套标准化的项目结构 在不同的Java ide上面创建项目结构,比如说IDEA和eclipse这些ide上创建Java项目都有所不同 但是使用Maven创建项目可以使得项目结构标准化,如下图所示就是使用IDE…

LeetCode 700. 二叉搜索树中的搜索

LeetCode 700. 二叉搜索树中的搜索 难度:easy\color{Green}{easy}easy 难度:middle\color{orange}{middle}middle 难度:hard\color{red}{hard}hard 题目描述 给定二叉搜索树(BST)的根节点 rootrootroot 和一个整数值…

Go defer用法

defer概览 defer是go语言里的一个关键字,在 函数内部使用;defer关键字后面跟一个 函数或匿名函数; defer用法 执行一些资源的收尾工作,如 关闭数据库连接,关闭文件描述符,释放资源等等;结合recover()函数使用,防止函数内部的异常导致整个程序停止;defer在遇到panic后,仍然会…

Javascript的API基本内容(六)

一、正则表达式 1.定义规则 const reg /表达式/ 其中/ /是正则表达式字面量正则表达式也是对象 2.使用正则 test()方法 用来查看正则表达式与指定的字符串是否匹配如果正则表达式与指定的字符串匹配 ,返回true,否则false 3.元字符 比如&#xff0…

论文阅读:Self-Supervised Monocular Depth Estimation with Internal Feature Fusion

中文标题:基于内部特征融合的自监督单目深度估计 创新点 参照HR-Net在网络上下采样的过程中充分利用语义信息。设计了一个注意力模块处理跳接。提出了一个扩展的评估策略,其中方法可以使用基准数据中的困难的情况进行进一步测试,以一种自我…

【 PMU】信号生成、采样、分割、估计器应用和误差计算(Matlab代码实现)

👨‍🎓个人主页:研学社的博客💥💥💞💞欢迎来到本博客❤️❤️💥💥🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密…

Active Directory管理帮助台

随着组织规模扩大,需要大幅增加Active Directory帮助台指派。随着组织开始在新地点开设办事处,管理员管理所有地点的用户变得极为繁琐。在这样的情况下,帮助台指派需要横跨不同的域以方便多域管理。尝试使用本机AD工具或PowerShell执行帮助台…

HyperLPR3-五分钟搞定: 中文车牌识别光速部署与使用

简介HyperLPR在2023年初已经更新到了v3的版本,该版本与先前的版本一样都是用于识别中文车牌的开源图像算法项目,最新的版本的源码可从github中提取:https://github.com/szad670401/HyperLPR快速安装使用Python平台可以直接使用pip进行安装&am…

(五十二)大白话不断在表中插入数据时,物理存储是如何进行页分裂的?.md

上回我们讲到了数据页的物理存储结构,数据页之间是组成双向链表的,数据页内部的数据行是组成单向链表的,每个数据页内根据主键做了一个页目录 然后一般来说,你没有索引的情况下,所有的数据查询,其实在物理…