【数据挖掘】四分位数识别数据中的异常值（附代码）

写在前面：
首先感谢兄弟们的订阅，让我有创作的动力，在创作过程我会尽最大能力，保证作品的质量，如果有问题，可以私信我，让我们携手共进，共创辉煌。

路虽远，行则将至；事虽难，做则必成。只要有愚公移山的志气、滴水穿石的毅力，脚踏实地，埋头苦干，积跬步以至千里，就一定能够把宏伟目标变为美好现实。

今天在项目中遇到需要对数据中的异常数据进行处理，现将相关知识总结成文，首先感谢其他优秀作者在网上分享的资料，为撰写本文提供了大量的素材。文章有的部分存在冗余，还请各位看官见谅。

1、概览

四分位数（Quartile）是统计学中分位数的一种形式，它将一组数据由小到大排列后分成四个等份，其中每个等份包含25%的数据。具体来说，四分位数包括三个关键点：

第一四分位数（Q1），也称为较小四分位数，是数据集中第25%的数值。
第二四分位数（Q2），即中位数，是数据集中第50%的数值，也就是数据的中间值。
第三四分位数（Q3），也称为较大四分位数，是数据集中第75%的数值。

第三四分位数与第一四分位数的差距又称四分位距（InterQuartile Range,IQR）。

四分位数的计算方法涉及将数据从小到大排序后，根据数据的数量（n）来确定四分位数所在的位置。如果（n+1）能被4整除，则四分位数位于的位置是整数；如果不能整除，则根据具体情况可能需要进行插值或取最接近的整数。

四分位数的应用非常广泛，特别是在统计学中用于描述数据分布的形状和离散程度。例如，在绘制箱线图时，四分位数是非常重要的元素之一，用于展示数据的分布情况。此外，四分位数的计算也有助于识别数据中的异常值和潜在的不一致点。

四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是由一组数据5 个特征绘制的一个箱子和两条线段的图形，这种直观的箱线图不仅能反映出一组数据的分布特征，而且还可以进行多组数据的分析比较。这五个特征值，即数据的最大值、最小值、中位数和两个四分位数。

在这里插入图片描述

2、进一步介绍

2.1、四分位距 (IQR)

四分位距 (IQR) 是统计离散度的度量，即数据的中间 50% 的分布。它计算为第三四分位数 (Q3) 和第一四分位数 (Q1) 之间的差值。计算公式：IQR = Q3 - Q1

2.2、四分位数

四分位数将按等级排序的数据集分成四个相等的部分。第一四分位数 (Q1) 是下半部分的中位数，第三四分位数 (Q3) 是上半部分的中位数。第二四分位数 (Q2) 是数据集的中位数。

2.3、异常值检测

可以使用 IQR 识别异常值。低于Q1 - 1.5×IQR或者高于Q3 + 1.5×IQR的数据点被视为异常值。

下限 = Q1 − 1.5 × IQR
上限 = Q3 + 1.5 × IQR

2.4、计算过程

给定数据集 X={x1,x2,…,xn}，请执行以下步骤：

对数据进行排序：按升序排列数据。
计算Q1和Q3：Q1是前半部分的中位数，Q3是后半部分的中位数。
计算 IQR：IQR = Q3−Q1
确定异常值边界：
下限：Q1 − 1.5 × IQR
上限：Q3 + 1.5 × IQR
识别异常值：边界之外的任何数据点都是异常值。

假设有一组数据：4、5、6、7、8、9、10、11、12、13。

首先，将数据从小到大排列：4、5、6、7、8、9、10、11、12、13。
计算四分位数位置：
Q1的位置 = (10+1) × 0.25 = 2.75，因此Q1是6（第2个和第3个数的平均值）。
Q2的位置 = (10+1) × 0.5 = 5.5，因此Q2是8（第5个和第6个数的平均值）。
Q3的位置 = (10+1) × 0.75 = 8.25，因此Q3是11（第8个和第9个数的平均值）。
IQR = 8.25-2.75= 5.5

3、代码

下面分享使用四分位数实现2中异常值的处理代码

异常值使用均值代替
直接将有异常值的删除


import numpy as np


"""
寻找异常值的方法很多，但是找到异常值后，处理方式只有2种：
1、使用其他数据（均值、中值、众数）填充
2、直接删除
"""
# Function to handle outliers, 异常值使用NaN填充
def handle_outliers_1(df, columns_name):
    for column in columns_name:                # df.column
        print("column name:", column)
        Q1 = df[column].quantile(q=0.25)       # 下四分位
        Q3 = df[column].quantile(q=0.75)       # 上四分位
        IQR = Q3 - Q1                          # IQR
        lower_bound = Q1 - 1.5 * IQR           # 下边缘
        upper_bound = Q3 + 1.5 * IQR           # 上边缘
        # 异常值使用nan填充
        df[column] = np.where((df[column] < lower_bound) | (df[column] > upper_bound), np.nan, df[column])
    return df


# Function to handle outliers, 异常值索引找到，直接删除该数据
def handle_outliers_2(df, columns_name):
    out_index = []
    for column in columns_name:                # df.column
        print("column name:", column)
        Q1 = df[column].quantile(q=0.25)       # 下四分位
        Q3 = df[column].quantile(q=0.75)       # 上四分位
        IQR = Q3 - Q1                          # IQR
        lower_bound = Q1 - 1.5 * IQR           # 下边缘
        upper_bound = Q3 + 1.5 * IQR           # 上边缘
        # 寻找异常点, 获得异常点索引值, 删除索引值所在行数据
        rule = (df[column] < lower_bound) | (df[column] > upper_bound)  
        out = df[column].index[rule]
        print("异常索引:", out)
        out_index += out.tolist()  
    df.drop(out_index, inplace=True)
    return df

4、优缺点

四分位数处理异常值的优点和缺点可以归纳如下：

优点：
鲁棒性强：四分位数对数据中的异常值具有较强的鲁棒性。即使数据集中存在一部分的极大或极小异常值，也不会对四分位数的计算产生显著影响，因此不会影响对异常值的识别。
计算量小：相比其他统计方法，如计算样本方差或多次校验等，四分位数的计算量更小，异常识别的效率更高，特别适用于处理大量数据时的异常值识别。
直观易懂：四分位数作为一种统计指标，其原理简单直观，容易被大众理解和接受。通过四分位数，可以快速地了解数据的分布情况，包括中位数、数据的离散程度等。
敏感性高：四分位数对于数据的变化比较敏感，即使数据只有微小的变化，也可能会引起四分位数的较大变化。这使得四分位数能够更准确地反映数据的变化情况。
描述性强：四分位数可以简洁地描述一组数据的分布情况，尤其是对于偏态分布的数据，可以更好地反映数据的集中趋势和离散程度。
缺点：
对异常值敏感：虽然四分位数在处理异常值时具有一定的鲁棒性，但在某些情况下，它仍然可能受到异常值的影响。如果数据集中存在一些非常大的或非常小的异常值，可能会导致四分位数的值发生较大的变化。
不具备原始数据的精确信息：四分位数只能提供关于数据分布的粗略信息，而无法提供原始数据的具体数值和离散程度。因此，在某些需要精确分析数据的情况下，四分位数可能无法满足需求。
对数据分布的要求严格：四分位数需要数据满足一定的分布条件，如正态分布等。如果数据不满足这些条件，四分位数可能无法准确地反映数据的分布情况。
无法衡量波动大小：四分位数虽然可以描述数据的分布情况，但无法直接衡量数据的波动大小。如果需要了解数据的波动情况，可能需要结合其他统计指标进行分析。