什么是数据探索？
在前面我们说到，所谓机器学习，就是用已知的数据通过算法去预测未来未知的数据。但是这个过程进行的前提就是要保证已知数据的完成性。所以数据探索，就是检查数据是否完整，是否有缺失值。

什么是可视化？
可视化就是将数据以图像的形式呈现出来，例如散点图、直方图、正态图等等，这些都是将单纯的数据以图像的形式呈现，从而可以起到更清晰有效地传达、沟通并辅助数据分析的作用。

🌕 缺失值处理

⭐️数据缺失：指在数据采集、传输和处理等过程中，由于某些原因导致数据不完整的情况。

下面学习一下缺失值的处理方法。

🌗 简单的缺失值处理方法

在处理缺失值之前，我们肯定要有缺失值才能处理，所以我们第一步是去检查数据中有没有缺失值。

🌑 发现数据中的缺失值

在这里我们要用到一个数据集，通过这个数据集来介绍发现缺失值的方法。

首先我们读取并查看这个数据集

import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
print(a)

在这里插入图片描述

然后我们再用pd.isna()判断a的每个元素是否为缺失值

import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
print(pd.isna(a))

在这里插入图片描述

然后再用sum()方法对每列求和，计算出每列缺失值的数量

import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
print(pd.isna(a).sum())

在这里插入图片描述
从结果中我们可以看到，SeaSurFaceTemp有3个缺失值，AirTemp有81个缺失值，Humidity有93个缺失值。

虽然我们已经知道了数据集中每列缺失值的数量，但是我们还不知道它们具体的分布情况（缺失值在哪一行）。

于是，我们可以使用mano.matrix()可视化出缺失值在数据中的分布情况。

import pandas as pd
from matplotlib import pyplot as plt
import missingno as msno
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
msno.matrix(a,figsize = (10,6))
plt.show()

在这里插入图片描述
该图左边的1和736表示行数，中间这一大块表示缺失值在数据中的分布，空白的部位表示该处存在缺失值。

右侧的折线表示每个样本缺失值的情况，8表示数据中一共有8个变量（8列），5表示对应的数据集只有5个变量是完整的，存在3个缺失值。

现在，我们已经发现数据中有缺失值，接下来就是根据缺失值的情况进行预处理。

🌑 剔除带有缺失值的行或列

通常情况下，如果数据中只有较少的样本带有缺失值，则可以剔除带有缺失值的行。如果某列的数据带有大量的缺失值，进行缺失值填充可能会带来更多的负面影响，则可以直接剔除缺失值所在的列。

其中，dropna()方法就是用来剔除带有缺失值的行或列。可以指定参数axis=0剔除行、axis=1剔除列。

# 剔除带有缺失值的行
import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
b = a.dropna(axis = 0)
print(b.info())

在这里插入图片描述

# 剔除带有缺失值的列
import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
b = a.dropna(axis = 1)
print(b.info())

在这里插入图片描述

🌑 对缺失值进行插补

因为AirTemp和Humidity列的缺失值最多，这里就针对这两个列来进行插补。

首先我们要使用散点图可视化出剔除带有缺失值行后，AirTemp和Humidity变量的数据分布。

import pandas as pd
from matplotlib import pyplot as plt
# 中文显示问题
import matplotlib
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns			 
sns.set(font="Kaiti",style="ticks",font_scale=1.4)


a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
b = a.dropna(axis = 0)

plt.figure(figsize = (10,6))
plt.scatter(b.AirTemp,b.Humidity,c = "blue")
plt.grid()
plt.xlabel("AirTemp")
plt.ylabel("Humidity")
plt.title("剔除带有缺失值的行")
plt.show()

这里直接对原始数据可视化也可以，这是因为plt.scatter()函数会自动地不显示带有缺失值的点。

在这里插入图片描述
对缺失值填充，pandas库提供了数据表的fillna()方法，该方法可通过参数method设置缺失值的填充方式。method=“ffill”，使用缺失值前面的值进行填充；method=“bfill”，使用缺失值后面的值进行填充。

使用缺失值前面的值进行填充

import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)


a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
# 找到缺失值所在位置
index = pd.isna(a.AirTemp) | pd.isna(a.Humidity)	# “|”这个符号在这里是并集的意思
b = a.fillna(axis = 0,method = "ffill")

# 画图
plt.figure(figsize = (10,6))
plt.scatter(b.AirTemp[~index],b.Humidity[~index],c = "blue",marker = "o",label = "非缺失值")	# “~”这个符号在这里是取反的意思
plt.scatter(b.AirTemp[index],b.Humidity[index],c = "red",marker = "s",label = "缺失值")
plt.grid()
plt.legend(loc = "upper right",fontsize = 12)
plt.xlabel("AirTemp")
plt.ylabel("Humidity")
plt.title("使用缺失值前面的值填充")
plt.show()

关于~index，我们知道index是缺失值所在的位置，那么~index就是非缺失值所在的位置。
在这里插入图片描述

使用缺失值后面的值进行填充

我们只需将上面代码中参数“method”的值改成bfill就行了。
在这里插入图片描述
3. 使用均值进行填充

跟上面的代码也差不多，再对这两列求个均值就行了。

import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)


a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
index = pd.isna(a.AirTemp) | pd.isna(a.Humidity)
# 求均值
AirTempmean = a.AirTemp.mean()
Humiditymean = a.Humidity.mean()
# 填充
AirTemp = a.AirTemp.fillna(value = AirTempmean)
Humidity = a.Humidity.fillna(value = Humiditymean)

plt.figure(figsize = (10,6))
plt.scatter(AirTemp[~index],Humidity[~index],c = "blue",marker = "o",label = "非缺失值")
plt.scatter(AirTemp[index],Humidity[index],c = "red",marker = "s",label = "缺失值")
plt.grid()
plt.legend(loc = "upper right",fontsize = 12)
plt.xlabel("AirTemp")
plt.ylabel("Humidity")
plt.title("使用缺失值后面的值填充")
plt.show()

在这里插入图片描述
从上面三种简单的填充方式的结果图可以看出，红色并没有起到填充的作用（红色分布太规律了，并且很“单独”），这是因为这三种方法只是简单地分析一个变量，没有从整体出发。下面，我们来学习一下比较复杂的填充方法，它们都能考虑到数据的整体情况。

🌗 复杂的缺失值填充方法

🌑 IterativeImputer多变量缺失值填充

IterativeImputer是sklearn库中提供的一种缺失值填充方式。该方法会考虑数据在高维空间中的整体分布情况，然后对缺失值的样本进行填充。

from sklearn.experimental import enable_iterative_imputer	
from sklearn.impute import IterativeImputer	# 导入我们所需的IterativeImputer，同时还要加上上面一句，不然会导入失败
import pandas as pd
from matplotlib import pyplot as plt
# 中文显示问题
import matplotlib
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)


a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
index = pd.isna(a.AirTemp) | pd.isna(a.Humidity)
# 填充
iterimp = IterativeImputer(random_state = 123) # random_state相当于随机数种子
a_iter = iterimp.fit_transform(a)
# 获取填充后的变量
AirTemp = a_iter[:,4]	# [:,4]表示第4列的所有行，下同
Humidity = a_iter[:,5]

plt.figure(figsize = (10,6))
plt.scatter(AirTemp[~index],Humidity[~index],c = "blue",marker = "o",label = "非缺失值")
plt.scatter(AirTemp[index],Humidity[index],c = "red",marker = "s",label = "缺失值")
plt.grid()
plt.legend(loc = "upper right",fontsize = 12)
plt.xlabel("AirTemp")
plt.ylabel("Humidity")
plt.title("使用IterativeImputer方式填充")
plt.show()

关于sklearn中的模块导入失败的问题，我自己之前也在网上找到了很多解决办法，都挨个试了一下，还是不行，最后还是在一位大佬的帮助下才成功，具体怎么解决的我也没看懂0.0

在这里插入图片描述
将这个图和上面那三个图一对比，是不是发现这个图填充的结果更符合数据的分布规律？

🌑 K-近邻缺失值填充

该方法可以使用sklearn库中的KNNImputer来完成。该方法会利用带有缺失值样本的多个近邻（挨得近的）综合情况，对缺失值样本进行填充。

# 只需改一下上面代码的填充和获取填充后的变量部分即可
knnimp = KNNImputer(n_neighbors = 5)
a_knn = knnimp.fit_transform(a)
AirTemp = a_knn[:,4]
Humidity = a_knn[:,5]

在这里插入图片描述

🌑

🌕 数据描述与异常值发现

数据描述是通过分析数据的统计特征，增强对数据的理解，从而利用合适的机器学习方法，对数据进行挖掘、分析。

🌗 数据描述统计

数据描述统计主要有数据的集中位置、离散程度、偏度和峰度等。

首先我们导入一个数据集。
这个数据集的部分如下：
在这里插入图片描述
为了方面我们进行数据描述统计，我们需要把Id列和Species列删除，因为Id并不是我们要的数据，Species也不是数字。

import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/Iris.csv")
a = a.drop(["Id","Species"],axis = 1)
print(a)

在这里插入图片描述

🌑 数据集中位置

描述数据集中位置的统计量主要有均值、中位数、众数等。

print(a.mean())		# 求均值
print(a.median())	# 求中位数
print(a.mode())		# 求众数

在这里插入图片描述

🌑 离散程度

描述数据离散程度的统计量主要有方差、标准差、变异系数、分位数和极差等。

⭐️变异系数：度量观测数据的标准差相对于均值的离中程度，计算公式为均值除以标准差。变异系数没有量纲，所以针对不同度量方式的变量可以相互比较，变异系数取值越大说明数据越分散。

⭐️分位数：亦称分位点，是指将一个随机变量的概率分布范围分为几个等份的数值点，可以使用quantile()方法进行计算。

⭐️极差：指的是数据最大值和最小值之间的差值，极差越小说明数据越集中。

print(a.var())							# 方差
print(a.std())							# 标准差
print(a.mean() / a.std())				# 变异系数
print(a.quantile(q=[0.25,0.5,0.75]))	# 分位点，0.25是计算第一四分位数，0.5是第二四分位数（中位数），0.75是第三四分位数
print(a.max() - a.min())				# 极差

在这里插入图片描述

🌑 偏度和峰度

⭐️ 偏度：也称偏态系数，是用于衡量对称程度或偏斜程度的指标。可以通过skew()方法进行计算。

⭐️ 峰度：也称峰态系数，是哟过来衡量数据尾部分散度的指标。可以通过kurtosis()方法进行计算。

print(a.skew())
print(a.kurtosis())

在这里插入图片描述

🌑 单个数据变量的分布情况

单个连续变量可以使用直方图进行可视化。

import pandas as pd
from matplotlib import pyplot as plt

import matplotlib
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)

a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/Iris.csv")
a = a.drop(["Id","Species"],axis = 1)

plt.figure(figsize = (10,6))
plt.hist(a.PetalLengthCm,bins = 30,color = "blue")
plt.xlabel("PetalLengthCm")
plt.ylabel("频数")
plt.title("直方图")
plt.show()

hist()是绘制直方图的函数，第一个参数是指定要绘制直方图的数据（a.PetalLengthCm），第二个参数是设置长条形的数目（bins=30)，第三个参数是长条形的颜色设置。
在这里插入图片描述

🌗 发现异常值的基本方法

在前面我们处理了缺失值，当一个数据没有缺失值后，我们就要去分析，去看有没有异常值。要处理异常值，我们首先就要发现异常值。那么怎样的值才被定义为“异常”呢？

🌑 3sigma法则

针对单个变量，通常可以使用3sigma法则识别异常值，即超出均值3倍标准差的数据可被认为是异常值（言下之意就是用数据的值减去均值后的绝对值大于标准差的3倍就是异常值）。

下面我们使用前面由IterativeImputer填充缺失值后的数据中的5个变量，来分析每个变量是否存在异常值。

import pandas as pd
from matplotlib import pyplot as plt
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
# 中文显示问题
import matplotlib
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)
# 数据准备（前面有）
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
index = pd.isna(a.AirTemp) | pd.isna(a.Humidity)
iterimp = IterativeImputer(random_state = 123)
a_iter = iterimp.fit_transform(a)
AirTemp = a_iter[:,4]
Humidity = a_iter[:,5]
b = pd.DataFrame(data = a_iter[:,3:8],columns = ["SeaSurfaceTemp","AirTemp","Humidity","UWind","VWind"])
print(b.head(5))	# 输出b的前五行数据
# 找出异常值
bmean = b.mean()	# 均值
bstd = b.std()		# 标准差
result = abs(b - bmean) > 3 * bstd	# 结果
print(result)	# 处理异常值的结果
print(result.sum())	# 异常值数量的统计

在这里插入图片描述

🌑 箱线图

同时，针对该数据也可以用箱线图进行可视化分析，箱线图在可视化时会使用点输出异常值的位置，因此可以判断数据中是否存在异常值。

b.plot(kind = "box",figsize = (10,6))
plt.title("数据集箱线图")
plt.grid()
plt.show()

在这里插入图片描述

🌑 散点图

前面两种方式都是分析单个变量是否有异常值，对于两个变量，也可以使用散点图直观地分析数据中是否有异常值。

from matplotlib import pyplot as plt

import matplotlib
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)

x = [10,8,13,9,11,14,6,4,12,7,5]
y = [7.46,6.77,12.74,7.11,7.81,8.84,6.08,5.39,8.15,6.42,5.73]
plt.figure(figsize = (10,6))
plt.plot(x,y,"ro")
plt.grid()
plt.xlabel("X")
plt.ylabel("Y")
plt.text(12.5,12,"异常值")
plt.show()