目录
一、3σ原则
二、箱线图发现异常值
三、boxcox数据变换
一、3σ原则
该准则仅局限于对正态或近似正态分布的样本数据处理,此外,当测量次数少的情形用准则剔除粗大误差是不够可靠的。
异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析。
在进行机器学习过程中,需要对数据集进行异常值剔除或者修正,以便后续更好地进行信息挖掘。
对于异常值的处理,3σ原则是最常使用的一种处理数据异常值的方法。那么,什么叫3σ原则呢?
3σ原则,又叫拉依达原则,它是指假设一组检测数据中只含有随机误差,需要对其进行计算得到标准偏差,按一定概率确定一个区间,对于超过这个区间的误差,就不属于随机误差而是粗大误差,需要将含有该误差的数据进行剔除。
其局限性:仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提(样本>10),当测量次数少的情形用准则剔除粗大误差是不够可靠的。在测量次数较少的情况下,最好不要选用该准则。
3σ原则:
- 数值分布在(μ-σ,μ+σ)中的概率为0.6827
- 数值分布在(μ-2σ,μ+2σ)中的概率为0.9545
- 数值分布在(μ-3σ,μ+3σ)中的概率为0.9973
- 其中,μ为平均值,σ为标准差。
一般可以认为,数据Y的取值几乎全部集中在