【机器学习】特征独立性检验-特征太多删特征-删who呢

news2025/1/16 18:51:54

总结

MvTest独立性分析方法——检验数值型特征与label是否有关系，删除与label无关（独立）的特征；
corr协方差函数相关性分析——找到数值型特征与数值型特征之间相关性高的数值型特征，然后删除（相关性高的数值型特征仅保留1个）；
卡方检验——检验类别型特征与label是否有关系，删除与label无关的特征（删除卡方值大的类别型特征）；

多重共线性

MvTest独立性分析方法

corr协方差函数相关性分析

卡方检验

关于多重共线性

多重共线性有什么影响

多重共线性诊断

多重共线性处理

共线性检验

多重共线性

多重共线性是特征工程中一个必须解决的问题。

浅谈特征筛选中的多重共线性问题 - FAL金科应用研究院的文章 - 知乎

多重共线性定义

在线性回归模型中： $Y = \beta_0+\beta_1x_1+\beta_2x_2+...+\beta_nx_n+\varepsilon$ ，这里有一个前提假设是各因变量X之间相互独立，不能存在线性相关。所谓线性相关，就是指 $x_i$ 与 $x_j$ 之间存在 $a_ix_i-a_jx_j=0$ 这种情况。而一旦有因变量之间存在完全的或者高度近似的线性相关关系，便会导致模型的参数估计发生偏差，难以得到Y和X之间真正的关系，这便是我们所说的多重共线性（multicollinearity）。

看定义如果难以理解我们可以举一个简单的例子，比如说存在： $y = 2x_1+x_2$ 且 $x1=x_2$ ，那么就会存在比如：

$y=4x_1-x_2$

$y=3x_2$

$y=-2x_1+5x_2$

等等式子同时成立的情况，即模型的表达式存在无数种形式，以至于我们无法估算出因变量X真正的参数，甚至连Y与X之间是正相关和负相关也无法确定，模型估计的结果就无效了。

特征之间的多重共线性是普遍存在的，这就要求我们在筛选入模特征的时候能够及时识别，通常我们使用的方法有相关系数检验和VIF检验。

MvTest独立性分析方法

基于Mean Variance Index构建统计量做假设检验，检验一个连续型变量和一个离散型变量是否相互独立，该检验对变量的分布没有假定，且计算简单。经检验，以上提取的特征与标签均不独立，即与标签有一定的关联。

独立=没有关系，所以特征和label要 不独立=有关系 比较好。

corr协方差函数相关性分析

使用corr协方差函数进行相关性分析，通过“特征间”的相关性分析，删除相似性高的特征。

数据探索，找特征相关性，那肯定是要找不怎么相关的，发现他们的相关性;
特征间的相关性corr协方差函数;
删除相关性较高的特征；

删除数值特征与数值特征之间，相关性高的数值特征（保留1个）；

一般而言，若两个特征的相关系数绝对值在0.7以上，可以认为二者之间具有强相关，此时需要根据实际需求进一步考虑是否删去其中IV值较低的特征了（VIF较高）。

实操|特征变量多重共线性的分析与检验(含代码) - 番茄风控大数据的文章 - 知乎

数值型特征——corr协方差——检验特征与特征之间 我们可以使用corr协方差函数进行相关性分析【仅能处理数值型特征】，通过相关性分析，结果在此不再展示，得出 CIG…特征是高度相关的，所以我们可以选取部分，这里仅保留CIG_1_TRI，删除其他cig特征。重量也是高度相关的，我们这里只保留MOTHER_PRE_WEIGHT，删除其他weight特征。

卡方检验

删除类别特征与label之间，相关性低的类别特征（与label不相干的特征全删）。

类别型特征——卡方检验——检验特征与label之间 对于一般的分类变量而言，我们无法计算它们之间的相关系数，但是我们可以通过对它们进行卡方校验来检测它们的分布之间是否存在较大的差异。 卡方检验：检验分类特征之间的分布是否存在较大的差异。

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，

卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。

卡方值越小越好。

关于多重共线性