5 特征筛选

news2024/9/24 23:27:53

5 特征筛选

学习目标

  • 掌握单特征分析的衡量指标
  • 知道 IV,PSI等指标含义
  • 知道多特征筛选的常用方法
  • 掌握Boruta,VIF,RFE,L1等特征筛选的使用方法

1 单特征分析

什么是好特征?从几个角度衡量:覆盖度,区分度,相关性,稳定性

覆盖度

  • 采集类,授权类,第三方数据在使用前都会分析覆盖度
  • 采集类 :如APP list (Android 手机 90%)
  • 授权类:如爬虫数据(20% 30%覆盖度)GPS (有些产品要求必须授权)
  • 一般会在两个层面上计算覆盖度(覆盖度 = 有数据的用户数/全体用户数)
  • 全体存量客户
  • 全体有信贷标签客户
  • 覆盖度可以衍生两个指标:缺失率,零值率
  • 缺失率:一般就是指在全体有标签用户上的覆盖度
  • 零值率:很多信贷类数据在数据缺失时会补零,所以需要统计零值率
  • 业务越来越成熟,覆盖度可能会越来愈好,可以通过运营策略提升覆盖度

区分度:是评估一个特征对好坏用户的区分性能的指标

  • 可以把单特征当做模型,使用AUC, KS来评估特征区分度
  • 在信贷领域,常用Information Value (IV)来评估单特征的区分度
  • Information Value刻画了一个特征对好坏用户分布的区分程度
  • IV值越大
  • IV值越小
    在这里插入图片描述
  • IV值最后ln的部分跟WOE是一样的
    在这里插入图片描述
  • IV计算举例(数据为了方便计算填充,不代表实际业务)
婚配 good bad p_good p_bad p_good-p_bad ln(p_g/p_bad) IV
未婚 40 30 50% 37.5% 0.125 0.287 0.0358
已婚 30 40 37.5% 50% -0.125 -0.287 0.0358
其他 10 10 12.5% 12.5% 0 0 0
总计 80 80 100% 100% - - 0.0716
  • IV<0.02 区分度小 建模时不用 (xgboost,lightGMB 对IV值要求不高) IV [0.02,0.5] 区分度大 可以放到模型里 (IV > 0.1 考虑是否有未来信息) IV > 0.5 单独取出作为一条规则使用,不参与模型训练

模型中尽可能使用区分度相对较弱的特征,将多个弱特征组合,得到评分卡模型

  • 连续变量的IV值计算,先离散化再求IV,跟分箱结果关联很大(一般分3-5箱)
  • 相关性:对线性回归模型,有一条基本假设是自变量x1,x2,…,xp之间不存在严格的线性关系
  • 需要对相关系数较大的特征进行筛选,只保留其中对标签区分贡献度最大的特征,即保留IV较大的
  • 皮尔逊相关系数,斯皮尔曼相关系数,肯德尔相关系数
  • 如何选择:
    • 考察两个变量的相关关系,首先得清楚两个变量都是什么类型的
    • 连续型数值变量,无序分类变量、有序分类变量
    • 连续型数值变量,如果数据具有正态性,此时首选Pearson相关系数,如果数据不服从正态分布,此时可选择Spearman和Kendall系数
    • 两个有序分类变量相关关系,可以使用Spearman相关系数
    • 一个分类变量和一个连续数值变量,可以使用kendall相关系数
    • 总结:就适用性来说,kendall > spearman > pearson
  • 如何计算
import pandas as pd
df = pd.DataFrame({'A':[5,91,3],'B':[90,15,66],'C':[93,27,3]})
df.corr() # 皮尔逊
df.corr('spearman')#斯皮尔曼
df.corr('kendall')#肯德尔
  • 可以使用toad库来过滤大量的特征,高缺失率、低iv和高度相关的特征一次性过滤掉
import pandas as pd
import toad

data = pd.read_csv('data/germancredit.csv')
data.replace({'good':0,'bad':1},inplace=True)
data.shape

显示结果:

(1000, 21)
#缺失率大于0.5,IV值小于0.05,相关性大于0.7来进行特征筛选
selected_data, drop_list= toad.selection.select(data,target = 'creditability', empty = 0.5, iv = 0.05, corr = 0.7, return_drop=True)
print('保留特征:',selected_data.shape[1],'缺失删除:',len(drop_list['empty']),'低iv删除:',len(drop_list['iv']),'高相关删除:',len(drop_list['corr']))

显示结果:

保留特征: 12 缺失删除: 0 低iv删除: 9 高相关删除: 0
  • 稳定性:特征稳定性主要通过计算不同时间段内同一类用户特征的分布的差异来评估
  • 常用的特征稳定性的度量有Population Stability Index (PSI)
  • 当两个时间段的特征分布差异大,则PSI大
  • 当两个时间段的特征分布差异小,则PSI小

在这里插入图片描述

  • IV是评估好坏用户分布差异的度量
  • PSI是评估两个时间段特征分布差异的度量
  • 都是评估分布差异的度量,并且公式其实一模一样,只是符号换了而已

2 多特征筛选

  • 当我们构建了大量特征时,接下来的调整就是筛选出合适的特征进行模型训练
  • 过多的特征会导致模型训练变慢,学习所需样本增多,计算特征和存储特征成本变高
  • 常用的特征筛选方法:
  • 星座特征
  • Boruta
  • 方差膨胀系数
  • 后向筛选
  • L1惩罚项
  • 业务逻辑

星座特征

  • 星座是大家公认没用的特征&#x

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1677765.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java AOP环绕通知记录操作日志

一.创建数据库日志表 CREATE TABLE uc_system_log (id bigint(20) NOT NULL AUTO_INCREMENT COMMENT 主键ID,user_code varchar(64) DEFAULT NULL COMMENT 用户编码,user_name varchar(128) DEFAULT NULL COMMENT 用户名称,is_login tinyint(4) NOT NULL DEFAULT 0 COMMENT 是…

吴恩达深度学习笔记:优化算法 (Optimization algorithms)2.3-2.5

目录 第二门课: 改善深层神经网络&#xff1a;超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)第二周&#xff1a;优化算法 (Optimization algorithms)2.3 指数加权平均数&#xff08;Exponential…

Java-数据库连接(JDBC小白教学)

&#xff01;文章最后附有完整代码&#xff01; 目录 &#x1f516;JDBC概述 &#x1f516;JDBC连接数据库 &#x1f516;添加数据&#xff08;insert&#xff09; &#x1f516;修改数据&#xff08;Update&#xff09; &#x1f516;删除数据&#xff08;delete&#x…

边缘计算教学实训解决方案

一、引言 随着物联网、5G通信技术的快速发展&#xff0c;边缘计算作为云计算的延伸和补充&#xff0c;正逐渐成为支撑智能物联网、实时数据分析等领域的重要技术。唯众旨在为职业院校设计一套全面的边缘计算教学实训体系&#xff0c;通过理论与实践相结合的方式&#xff0c;培…

深度剖析MyBatis的二级缓存

二级缓存的原理 MyBatis 二级缓存的原理是什么&#xff1f; 二级缓存的原理和一级缓存一样&#xff0c;第一次查询会将数据放到 缓存 中&#xff0c;然后第二次查询直接去缓存读取。但是一级缓存是基于 SqlSession 的&#xff0c;二级缓存是基于 mapper 的 namespace 的。也就是…

webhook 和 API:你了解吗

Webhooks 是许多 API 的补充。通过设置 webhook 系统&#xff0c;系统 B 可以注册接收有关系统 A 某些更改的通知。当更改发生时&#xff0c;系统 A 推送 更改到系统 B&#xff0c;通常是以发出 HTTP POST 请求的形式。 Webhooks 旨在消除或减少不断轮询数据的需要。但根据我的…

如何购买RAKsmart的国外高防服务器?

随着互联网的快速发展&#xff0c;网络安全问题日益凸显&#xff0c;特别是对于拥有在线业务的企业或个人来说&#xff0c;选择一款高防服务器显得尤为关键。美国RAKsmart作为知名的服务器提供商&#xff0c;其高防服务器因其卓越的性能和安全性&#xff0c;受到了广大用户的青…

一步一步带你做网络工程

网络工程怎么做 一、网络设备交换机的应用&#xff1a; 要求&#xff1a;在此接入交换机S3700&#xff0c;上划分两个vlan&#xff0c;vlan10和vlan20分别有两个PC&#xff0c;按拓扑图完成要求&#xff1a; 划分vlan添加端口 sys [Huawei]sys S1 [S1]undo in e [S1]undo t…

【全开源】JAVA同城圈子达人交友系统源码支持微信小程序+微信公众号+H5+APP

同城达人 精准匹配&#xff1a;系统通过用户填写的个人信息和兴趣爱好&#xff0c;运用智能算法进行精准匹配&#xff0c;推荐合适的同城朋友。多种互动方式&#xff1a;提供在线聊天、语音通话、视频交流等多种互动方式&#xff0c;让用户能够随时随地与朋友保持联系。本地生…

人工智能AI聊天chatgpt系统openai对话创作文言一心源码APP小程序功能介绍

你提到的是一个集成了多种智能AI创作能力的系统&#xff0c;它结合了OpenAI的ChatGPT、百度的文言一心&#xff08;ERNIE Bot&#xff09;以及可能的微信WeLM&#xff08;或其他类似接口&#xff09;等。这样的系统确实能够极大地提高创作效率&#xff0c;并且在各种场景下为用…

SpringBoot接收参数的19种方式

https://juejin.cn/post/7343243744479625267?share_token6D3AD82C-0404-47A7-949C-CA71F9BC9583

秋招算法——AcWing101——拦截导弹

文章目录 题目描述思路分析实现源码分析总结 题目描述 思路分析 目前是有一个笨办法&#xff0c;就是创建链表记录每一个最长下降子序列所对应的节点的链接&#xff0c;然后逐个记录所有结点的访问情况&#xff0c;直接所有节点都被访问过。这个方法不是很好&#xff0c;因为需…

【Qt】Qt组件设置背景图片

1. 方法1&#xff08;paintEvent方式&#xff09; 使用paintEvent()实现 1. .h文件中添加虚函数 protected:void paintEvent(QPaintEvent *event) override;添加虚函数方法&#xff1a; 选中父类&#xff0c;点击鼠标右键点击重构点击 Insert Virtual Funtion of Base Class…

小朋友台灯什么品牌好,分享最好的台灯品牌排行榜

小朋友台灯什么品牌好&#xff1f;台灯作为我们日常生活中重要的桌面照明工具&#xff0c;对于办公族的工作和学生的学习都扮演着关键角色。长期使用质量不佳的台灯可能会对我们的视力健康造成不利影响&#xff0c;尤其是对于眼睛尚在发育阶段的青少年来说&#xff0c;这种影响…

5G技术相关部分图解

1、面向5G商用网络的全系列解决方案 面向5G商用网络的全系列解决方案涵盖了从核心网到接入网的各个方面&#xff0c;确保网络的高性能、高可靠性和高安全性 2、2\3\4\5G带宽图解 G带宽的提升将推动许多新型应用的发展&#xff0c;并提供更快速、更可靠的移动通信体验。然而…

一个panic问题引起对percpu变量的思考

1 问题引入 最近在分析一个panic问题时&#xff0c;发现panic现场无法与log对应起来。 先贴log: <1>[ 180.089084] Unable to handle kernel NULL pointer dereference at virtual address 00000001 <1>[ 180.099551] pgd 8bbde651 <1>[ 180.107775] …

AXI UART 16550 IP核简介

AXI UART 16550 IP核实现了PC16550D UART的硬件和软件功能&#xff0c;该UART可以在16450和16550 UART模式下工作。 一、 功能 AXI UART 16550 IP核执行从AXI主设备接收的字符的并行到串行转换&#xff0c;以及从调制解调器或串行外设接收的字符的串行到并行转换。它支持发送…

GPT3.5、GPT4、GPT4o的性能对比

理论总结 随着版本的升级,模型在参数数量、语言理解能力、生成文本质量、多模态能力、推理能力等方面均有显著提升。GPT-4.0作为最新改进版,提供了最先进的功能和性能。 实际对比 1.1.GPT3.5 1.2.GPT4 1.3.GPT4o 在语义理解上,无差别。 下面测试下代码能力。 测试问题 我…

uni-app:音频播放 uni.createInnerAudioContext()

uni.createInnerAudioContext() 创建并返回内部 audio 上下文 innerAudioContext 对象 简单实现音频播放&#xff1a; let innerAudioContext uni.createInnerAudioContext(); innerAudioContext.src ../../../../static/ok.MP3;//音频地址 innerAudioContext.play(); inn…