【机器学习】特征独立性检验-特征太多删特征-删who呢

news2025/1/16 18:51:54

总结

  • MvTest独立性分析方法——检验数值型特征label是否有关系,删除与label无关(独立)的特征;
  • corr协方差函数 相关性分析——找到数值型特征数值型特征之间相关性高的数值型特征,然后删除(相关性高的数值型特征仅保留1个);
  • 卡方检验——检验类别型特征label是否有关系,删除与label无关的特征(删除卡方值大的类别型特征);

目录

多重共线性

MvTest独立性分析方法

corr协方差函数 相关性分析

卡方检验 

关于多重共线性

多重共线性有什么影响

多重共线性诊断

多重共线性处理

共线性检验


多重共线性

多重共线性是特征工程中一个必须解决的问题。

浅谈特征筛选中的多重共线性问题 - FAL金科应用研究院的文章 - 知乎

多重共线性定义

在线性回归模型中:Y = \beta_0+\beta_1x_1+\beta_2x_2+...+\beta_nx_n+\varepsilon,这里有一个前提假设是各因变量X之间相互独立,不能存在线性相关。所谓线性相关,就是指 x_ix_j之间存在 a_ix_i-a_jx_j=0 这种情况。而一旦有因变量之间存在完全的或者高度近似的线性相关关系,便会导致模型的参数估计发生偏差,难以得到Y和X之间真正的关系,这便是我们所说的多重共线性(multicollinearity)。

看定义如果难以理解我们可以举一个简单的例子,比如说存在:y = 2x_1+x_2 且 x1=x_2,那么就会存在比如:

y=4x_1-x_2

y=3x_2

y=-2x_1+5x_2

等等式子同时成立的情况,即模型的表达式存在无数种形式,以至于我们无法估算出因变量X真正的参数,甚至连Y与X之间是正相关和负相关也无法确定,模型估计的结果就无效了。

特征之间的多重共线性是普遍存在的,这就要求我们在筛选入模特征的时候能够及时识别,通常我们使用的方法有相关系数检验和VIF检验。

 


MvTest独立性分析方法

基于Mean Variance Index构建统计量做假设检验,检验一个连续型变量和一个离散型变量是否相互独立,该检验对变量的分布没有假定,且计算简单。经检验,以上提取的特征与标签均不独立,即与标签有一定的关联。

独立=没有关系,所以特征和label要 不独立=有关系 比较好。

corr协方差函数 相关性分析

使用corr协方差函数进行相关性分析,通过“特征间”的相关性分析,删除相似性高的特征。

  1. 数据探索,找特征相关性,那肯定是要找不怎么相关的,发现他们的相关性;
  2. 特征间的相关性corr协方差函数;
  3. 删除相关性较高的特征;

删除数值特征与数值特征之间,相关性高的数值特征(保留1个);

一般而言,若两个特征的相关系数绝对值在0.7以上,可以认为二者之间具有强相关,此时需要根据实际需求进一步考虑是否删去其中IV值较低的特征了(VIF较高)。 

实操|特征变量多重共线性的分析与检验(含代码) - 番茄风控大数据的文章 - 知乎

数值型特征——corr协方差——检验特征与特征之间 我们可以使用corr协方差函数进行相关性分析【仅能处理数值型特征】,通过相关性分析,结果在此不再展示,得出 CIG…特征是高度相关的,所以我们可以选取部分,这里仅保留CIG_1_TRI,删除其他cig特征。 重量也是高度相关的,我们这里只保留MOTHER_PRE_WEIGHT,删除其他weight特征。

卡方检验 

删除类别特征与label之间,相关性低的类别特征(与label不相干的特征全删)。

类别型特征——卡方检验——检验特征与label之间 对于一般的分类变量而言,我们无法计算它们之间的相关系数, 但是我们可以通过对它们进行 卡方校验来检测它们的分布之间是否存在较大的差异。 卡方检验:检验分类特征之间的分布是否存在较大的差异。

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,

卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。

卡方值越小越好。

关于多重共线性

多重共线性有什么影响

共线性会导致回归参数不稳定,即增加或删除一个样本点或特征,回归系数的估计值会发生很大变化。 这是因为某些解释变量之间存在高度相关的线性关系,XTX会接近于奇异矩阵,即使可以计算出其逆矩阵,逆矩阵对角线上的元素也会很大,这就意味着参数估计的标准误差较大,参数估计值的精度较低,这样,数据中的一个微小的变动都会导致回归系数的估计值发生很大变化。

多重共线性诊断

  1. 发现系数估计值的符号不对;
  2. 某些重要的解释变量t值低,而R方不低
  3. 当一不太重要的解释变量被删除后,回归结果显著变化

多重共线性处理

主要方法有:增加样本量、变量聚类、方差膨胀因子、相关系数、逐步回归、PCA、L1 L2正则化

  1. 共线性问题并不是模型的设定错误,它是一种数据缺陷,可以通过增加样本量来解决;
  2. 在特征比较多的时候,先变量聚类,每类中选择单特征比较强的,也可以根据1-r^2小的选择有代表性的特征(r^2表示的是其他变量能否线性解释的部分,1-r^2表示的是容忍度,也就是其他变量不能解释的部分;变量聚类是多选一,因此需要选择一个具有代表性的变量,选择容忍度小的变量;另vif就是容忍度的倒数)
  3. 在变量聚类的步骤中也可以结合 方差膨胀因子、相关系数以及业务理解来筛选特征;
  4. VIF选择多少核实(一般样本集在10w以上VIF大于10就有严重的共线性问题了,样本集在10w以下,VIF>5也是严重的共线性问题。在小样本时,一般保证在2以下。当然,这也不能保证一定排除了,最后在检验下模型参数,判断是否仍然存在共线性)

共线性检验

  1. 看模型系数,和实际业务是否相符合。(注:在进行完证据权重WOE转化后,系数正负,不在具有实际的业务意义。当woe是好客户占比/坏客户占比时,系数都为负,反之系数都为正。(相关原因可以公式推导))
  2. 模型R^2较高,通过F检验,系数不能通过t检验

参考

面试题解答5:特征存在多重共线性,有哪些解决方法?

关于多重共线性 - my breath的文章 - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/93807.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Xcode 导入共享代码文件却提示找不到其中方法或类型的原因与解决

文章目录 问题现象问题分析1. 原景重现2. 为什么找不到共享代码文件中的方法?3. 解决之道总结结束语问题现象 正所谓“一个好汉三个帮,一块篱笆三个桩”,开发一款优秀的 App 也绝对少不了第三方高质量代码的加持。 但有时候,我们明明已在 Xcode 中导入了第三方共享代码文…

微服务框架 SpringCloud微服务架构 多级缓存 46 JVM 进程缓存 46.3 初识Caffeine

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 多级缓存 文章目录微服务框架多级缓存46 JVM 进程缓存46.3 初识Caffeine46.3.1 本地进程缓存46.3.2 Caffeine 示例46 JVM 进程缓存 46.3 初…

openGemini v0.2.0版本正式发布:5大特性全面增强

摘要:openGemini是华为云面向物联网和运维监控场景开源的一款云原生分布式时序数据库,兼容InfluxDB API,具有高性能、高并发、高扩展等特点。openGemini是华为云面向物联网和运维监控场景开源的一款云原生分布式时序数据库,兼容In…

Docker redis Connection refused 问题排查

问题描述: 用 docker分别运行2个容器,一个spring boot应用,一个是redis 然后发现Spring boot项目无法访问redis。在本地启动Spring boot项目可以访问Redis,然后打成JAR直接启动也能访问。但是做成容器访问Redis却总是报错。 2022-12-16 06:…

RK3588 调试 phy

参考:Rockchip_Developer_Guide_Linux_GMAC_CN Rockchip_Developer_Guide_Linux_GMAC_Mode_Configuration_CN GMAC 接口电路 RK3588 芯片拥有 2 个 GMAC 控制器,提供 RMII 或 RGMII 接口连接外置的 Ethernet PHY GMAC 控制器支持以下功能: …

LSTM前向传播代码实现——LSTM从零实现系列(3)

一、前言 这个LSTM系列是在学习时间序列预测过程中的一些学习笔记,包含理论分析和源码实现两部分。本质属于进阶内容,因此神经网络的基础内容不做过多讲解,想学习基础,可看之前的神经网络入门系列文章: https://blog.…

全自动化数据洞察!数据分布对比可视化!

💡 作者:韩信子ShowMeAI 📘 数据分析实战系列:https://www.showmeai.tech/tutorials/40 📘 本文地址:https://www.showmeai.tech/article-detail/411 📢 声明:版权所有,转…

几种数据库jar包获取方式

摘要:以下提供的都是各个数据库较为官方的jar包获取方式。本文分享自华为云社区《JDBC连接相关jar包获取及上传管理中心白名单处理》,作者:HuaWei XYe。 jar包获取 以下提供的都是各个数据库较为官方的jar包获取方式 1、Mysql https://de…

C#启程—游戏开发笔记

文章目录ideRider下载和安装创建C#基础工程(包含form)Rider去除语法警告C#笔记namespace找不到某个class(命名空间)c#相对路径(比较特别)双缓存技术窗体事件绑定窗体初始属性方法生成调式绑定事件成功窗体中…

再探Vue3响应式系统

欲看懂这一篇还是建议先看上一篇,这一篇我们继续往下走 一、嵌套问题 🖖先看背景 在这段代码里面,question1里面嵌套了question2,所以question1的执行会导致question2的执行 let temp1 ,temp2; function question1() {console.…

基于java+springmvc+mybatis+vue+mysql的电子资源管理系统

项目介绍 随着互联网技术的高速发展,人们生活的各方面都受到互联网技术的影响。现在人们可以通过互联网技术就能实现不出家门就可以通过网络进行系统管理,交易等,而且过程简单、快捷。同样的,在人们的工作生活中,也就…

AI加速自动驾驶进程,景联文科技提供数据采集标注服务

“当前,路面上搭载各级别自动驾驶系统的车辆数量逐渐增多。对自动驾驶领域头部企业来说,为了保持自身的竞争优势并加速自动驾驶应用安全落地进程,需要依靠大量的高质量标注数据来训练优化自动驾驶相关算法模型。数据作为AI技术的底层基础&…

备战2023蓝桥国赛-饼干

题目描述: 解析: 这道题我想了很多种解决方法,但无一例外都失败了,实在是按照常规线性DP的思路真的想不出来。 看了题解之后才知道它是分为三步解决这个问题的: 第一步:缩小最优解的范围 先用贪心将最优解…

如何准备好2023年的USACO?

目录 1. 注册 2. 刷题 3. 备考 4. 考试流程/介绍 5. 铜组例题 1. 注册 先进入usaco的官网,主页的右边会有注册的选项,点击Register for New Account。会让你填你自己的用户名,邮箱,实名,毕业的年份,还…

世界杯数据分析

国际足联世界杯(FIFA World Cup) 文章目录前言一、历届世界杯数据分析(一)建表(二)导入数据(三)数据分析1. 全勤巴西2. 夺冠排名3. 扩军历史4. 进球之最二、本届世界杯数据分析&…

【Java寒假打卡】Java基础-数据类型以及转换

【Java寒假打卡】Java基础-数据类型以及转换一、关键字二、强制转换三、常量四、隐式转换的问题五、变量六、程序输入七、标识符八、类型转换一、关键字 含义:java 中被赋予特定含义和特点的单词 二、强制转换 数据范围大变量赋给一个数据范围小的变量int 到byte…

android绘制弧形背景

先看一下效果&#xff1a; 在drawable中写shape.xml文件 <?xml version"1.0" encoding"utf-8"?> <layer-list xmlns:android"http://schemas.android.com/apk/res/android"><item><shape><solid android:color&quo…

Hadoop学习----Hadoop介绍

Hadoop介绍 Hadoop是Apache软件基金会的一款开源软件。底层是由java语言实现。 功能&#xff1a;允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。 Hadoop核心组件&#xff1a; Hadoop HDFS&#xff08;分布式文件存储系统&#xff09;&#xff1a;解…

大道至简——工具类产品的几个思考方向

因为之前没有接触过摹客的产品&#xff0c;对于一个经常使用Axure的产品经理&#xff0c;仅仅通过两周摹客的使用体验写出的体验文档确实不够严谨&#xff0c;所以以下除了表层的几点用户体验&#xff0c;重点还是谈一下对工具类产品发展方向的思考。 体验篇 一款产品的诞生肯…

4.2 YOLOv3算法

文章目录一、林业病虫害数据集和数据预处理方法介绍1.1 读取AI识虫数据集标注信息1.2 数据读取和预处理1.2.1 数据读取1.2.2 数据预处理**随机改变亮暗、对比度和颜色等****随机填充****随机裁剪****随机缩放****随机翻转****随机打乱真实框排列顺序****图像增广方法汇总**1.2.…