在日常的策略分析中,经常会碰到分析的变量出现缺失值的情况,如果对这些缺失值视而不见,则会对策略分析的结果造成一定的影响。那么我们如何处理缺失值呢?关注“金科应用研院”,回复“CSDN”领取“风控资料合集”
首先,我们需要了解缺失值产生的原因。一般来讲,产生缺失值的原因有很多,比如说:
某个变量不适用于所有样本
由于信息披漏、隐私保护政策导致缺失
数据表连接时的操作带来大量缺失值
由于业务发展变化存留下的无意义的字段数据,等同于缺失值
在使用某些分析技术进行策略分析时,有的分析可以处理缺失值,比如说决策树,所以缺失值影响比较小。但是有些分析需要我们人工处理缺失值。下面介绍一些常用的缺失值处理方法。
1、替代法
替代法是指用一个已知的经验值代替缺失值。连续性的变量我们可以用变量的平均值或中位数来填充缺失值;离散型的变量可以用众数来填充缺失值;
也可以根据样本其他的已知信息利用回归技术逐个计算出缺失值处的值,但是这种方法在现实应用中的效果还有待商榷。
2、删除法
删除法是最简单的做法,可以选择直接删除包含缺失值的样本,当然这种做法的前提是需要样本量足够大,而且缺失值是随机的且少量的;
另外也可以选择删除缺失值过多的变量,不纳入到分析的样本中,这种做法本质上是认为所删除的变量从业务层面上来讲没有解释意义,或与目标变量的相关性较弱。
3、保留法
这种方法其实就是认为缺失值本身就是有业务意义的,当然这种方法的使用前提是缺失值和目标变量是有相关关系的。
在现实工作中,可以先使用一些数理统计的方法,比如说卡方检验来检验缺失值较多的变量与目标变量的相关关系。如果该变量与目标变量存在一定的相关性,就可以采用保留法,作为某个特殊类别的样本组处理。
如果该变量与目标变量的相关性较弱或者无关,可根据样本量大小选择不同的缺失值处理方法。样本量较大的可选择删除法;样本量小的可采用替代法来处理。