数据清洗-缺失值填充-随机森林搜寻最优参数填充

一、安装所需的python包
二、采用随机森林算法进行缺失值填充
- 2.1可直接运行代码
- 2.2以某个缺失值数据进行实战
- - 代码运行过程截屏：
  - 填充后的数据截屏：
三、随机森林算法 (Random Forest) 介绍
- 3.1随机森林的定义
- 3.2随机森林的基本思想
- 3.3随机森林的工作原理
- 3.4随机森林的优缺点
- - 3.4.1优点
  - 3.4.2缺点
- 3.5随机森林的应用场景
- 3.6随机森林的参数
四、随机森林参数优化原理--网格搜索
- 4.1代码说明
- 4.2参数优化的原理
- - 1. 网格搜索（Grid Search）
  - 2. 交叉验证（Cross-Validation）
  - 3. 随机森林模型的超参数
  - 4. 预测缺失值
- 4.3整体优化效果
- 4.4输出与保存

感觉大家对原理性的东西不太感兴趣，那我就直接举例提供代码，以及详细的注释，大家自己对照改代码应用于你自己建立的模型吧。

这些代码全部是我自己做数模竞赛时候自己用的代码。可以直接运行，记得修改文件路径。

一、安装所需的python包

pip install scikit-learn
pip install numpy
pip install pandas

二、采用随机森林算法进行缺失值填充

注意代码需要把自己的数据文件格式转换为CSV文件，并且把路径修改为自己文件所在的路径，不会转换的参考我此教程文件格式转换：EXCEL和CSV文件格式互相转换。

我知道大家对原理性的东西不感兴趣，我把他的原理介绍放在文末，需要写论文的同学自己拿去用，记得修改，否则查重率过不去。

2.1可直接运行代码

"""
随机森林补充缺失值，随机森林的参数是经过优化的，但是精度不太够，哎先就这样吧
我想着可以对初值进行优化，但是还没弄，就现这样吧
这个运算速度慢

随机森林：优点可以处理各种类型的特征(包括二元、分类和数值特征)，并且不需要对数据进行标准化或规范化
"""
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV

import numpy as np
import pandas as pd

#导入文件
data = pd.read_csv('缺失值填充.csv',encoding='gbk')

#备份数据，防止数据丢失，保护原数据
data_copy = data.copy()

#删除第一列，因为是索引，不影响结果
data_copy.drop(data_copy.columns[0], axis=1, inplace=True)
#对数据的各列进行排序，找出缺失值最少的列
sindex = np.argsort(data_copy.isnull().sum()).values

#创建随机森林模型
rfc = RandomForestRegressor()

#GridSearchCV的参数网络
param_grid = {'n_estimators': range(10, 71, 10), 'max_depth': range(5, 8),
               'min_samples_split': range(2, 5), 'min_samples_leaf': range(1, 3)}

#创建GridSearchCV的实例
rfc_GS = GridSearchCV(estimator=rfc, param_grid=param_grid, cv=3)

#处理每一列数据
for i in sindex:
    #判断，无缺失值跳过
    if data_copy.iloc[:, i].isnull().sum() == 0:
        continue
    df = data_copy
    fillc = df.iloc[:, i]
    df = df.iloc[:, df.columns != df.columns[i]]

    #对于缺失值填充0
    df_0 = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value=0).fit_transform(df)

    #划分训练集和测试集
    Ytrain = fillc[fillc.notnull()]
    Ytest = fillc[fillc.isnull()]
    Xtrain = df_0[Ytrain.index, :]
    Xtest = df_0[Ytest.index, :]

    #使用GridSearchCV训练模型，寻找最优参数
    rfc_GS.fit(Xtrain, Ytrain)

    #预测缺失值
    Ypredict = rfc_GS.predict(Xtest)

    #打印最优参数
    print('Best parameters are: ', rfc_GS.best_params_)

    #填充数据
    data_copy.loc[data_copy.iloc[:, i].isnull(), data_copy.columns[i]] = Ypredict

#打印数据
print(data_copy)

#保存数据
data_copy.to_csv('随机森林参数优化填充.csv', index=False)

注意：data = pd.read_csv('缺失值填充.csv',encoding='gbk')里面的缺失值填充.csv是你自己的缺失值的csv文件路径，data_copy.to_csv('随机森林参数优化填充.csv', index=False)中的随机森林参数优化填充.csv是你填充后的文件名，你可以自己起名。

2.2以某个缺失值数据进行实战

注意：数据量较少，由自己构建，均有规律，
如下图：

构造缺失值，如下图：

运行代码查看填充后的数据怎么样，
运行代码如下图+填充后的截图：

代码运行过程截屏：

在这里插入图片描述

填充后的数据截屏：

在这里插入图片描述

说明：可以看到对参数进行优化后，预测填充的效果直线上升，但是你在进行数模比赛时候，需要说明为什么你要选用该算法填充，说明他的原理即可，不必纠结填充的数据是否正确，因为你本身也不知道数据的正确性。

接下来我将继续分享其他我参加数模时候常用的几种数据填充的代码，都是我自己调试跑通过的，大家直接复制粘贴使用。

三、随机森林算法 (Random Forest) 介绍

3.1随机森林的定义

随机森林 (Random Forest) 是一种基于决策树的集成学习方法，由 Leo Breiman 和 Adele Cutler 在 2001 年提出。它通过构建多个决策树来完成分类或回归任务，并利用这些决策树的集成结果来提高模型的准确性和稳定性。随机森林的基本思想是将多个相对较弱的学习器（即决策树）结合起来，从而形成一个强大的集成模型。

3.2随机森林的基本思想

随机森林属于 Bagging (Bootstrap Aggregating) 集成方法 的一种扩展。Bagging 方法通过从原始数据集中有放回地抽样来生成多个子数据集，并在每个子数据集上训练一个弱学习器（如决策树）。在预测时，随机森林会将所有树的预测结果进行投票（分类问题）或平均（回归问题），以得到最终的预测结果。

随机森林的基本特点在于“随机性”，主要体现在以下两个方面：

数据随机性：在构建每棵决策树时，从原始数据集中随机抽取样本（有放回），构成训练数据集。
特征随机性：在每棵树的节点分裂时，随机选择部分特征来确定最佳分裂点，而不是使用所有特征。

3.3随机森林的工作原理

随机抽样：从原始数据集中有放回地随机抽取多个子样本，构建多个训练数据集。
构建决策树：对每个训练数据集，构建一棵决策树。在每个节点分裂时，随机选择一部分特征，并根据这些特征选择最佳分裂点。
集成结果：对分类问题，随机森林对所有决策树的结果进行投票，选择出现次数最多的类别作为最终分类结果；对回归问题，则取所有决策树预测值的平均作为最终预测结果。

3.4随机森林的优缺点

3.4.1优点

准确性高：通过多个决策树的集成，随机森林通常比单一决策树有更高的预测准确性。
防止过拟合：由于采用了随机性机制，随机森林能有效防止决策树的过拟合问题。
鲁棒性强：对噪声和异常值不敏感，具有较好的鲁棒性。
处理高维数据：能够处理大量特征的数据集，并能评估特征的重要性。
易于并行化：各个树的构建可以独立并行进行，容易扩展到大数据场景。

3.4.2缺点

模型复杂度高：由于集成了多棵决策树，随机森林的模型复杂度较高，不易解释。
计算成本大：构建多棵决策树的计算开销大，特别是在数据量大或特征数量多的情况下。
对单调特征不敏感：如果某个特征对于所有树来说都是有用的，则无法通过随机森林的特征重要性识别出来。

3.5随机森林的应用场景

随机森林广泛应用于以下场景：

分类问题：如文本分类、图像分类、疾病诊断等。
回归问题：如房价预测、销量预测等。
特征选择：通过评估特征的重要性，帮助选择有意义的特征。
异常检测：通过识别异常样本与正常样本的差异，应用于金融欺诈检测、网络入侵检测等领域。

3.6随机森林的参数

随机森林模型有多个参数可以调整，主要包括：

n_estimators（决策树的数量）：构建的决策树数量，通常数量越多，模型效果越好，但计算开销也越大。
max_features（最大特征数）：每次分裂时随机选择的特征数量，可以是特定数值或占比（如 "sqrt" 表示总特征数的平方根）。
max_depth（最大深度）：单棵决策树的最大深度，防止树过度生长（过拟合）。
min_samples_split（最小分裂样本数）：节点分裂所需的最小样本数，越大则越能防止过拟合。
min_samples_leaf（叶节点最小样本数）：叶节点上所需的最小样本数。
bootstrap（是否有放回抽样）：是否对样本进行有放回抽样构建子数据集。

四、随机森林参数优化原理–网格搜索

4.1代码说明

该代码使用随机森林回归器（RandomForestRegressor）来填补数据中的缺失值，并通过网格搜索（Grid Search）对随机森林模型的超参数进行优化，以提高填补的精度。具体步骤如下：

读取数据：从 CSV 文件中读取数据，并备份原始数据，以防数据丢失。
数据预处理：
- 删除数据的第一列（假设为索引列），以免影响结果。
- 对数据的各列进行排序，按缺失值的数量从少到多排序，以便先填补缺失值较少的列。
创建随机森林模型：使用 RandomForestRegressor 作为基础模型。
定义参数网格：使用 GridSearchCV 定义一组超参数范围，以进行网格搜索优化：
- n_estimators：树的数量，范围为 10 到 70（步长为 10）。
- max_depth：树的最大深度，范围为 5 到 7。
- min_samples_split：分裂节点所需的最小样本数，范围为 2 到 4。
- min_samples_leaf：叶节点所需的最小样本数，范围为 1 到 2。
逐列填补缺失值：对每一列存在缺失值的数据，使用随机森林进行预测和填补：
- 将非目标列的缺失值填充为 0，准备训练数据。
- 分离训练集（有值）和测试集（缺失值部分）。
- 使用网格搜索和交叉验证（Cross-Validation）来选择最佳的模型参数组合。
- 用训练好的随机森林模型预测测试数据中的缺失值并进行填补。
保存数据：将填补后的数据保存为新的 CSV 文件 随机森林参数优化填充.csv。

4.2参数优化的原理

1. 网格搜索（Grid Search）

网格搜索是一种对模型超参数进行优化的技术，通过定义一组参数的可能取值，遍历这些组合来找到模型在验证集上表现最优的参数设置。在代码中，使用 GridSearchCV 实现网格搜索优化随机森林模型的超参数。

estimator：指定使用的基础模型，这里是 RandomForestRegressor。
param_grid：定义参数的取值范围：
- n_estimators：从 [10, 20, 30, 40, 50, 60, 70] 中选择最佳的树数量。
- max_depth：从 [5, 6, 7] 中选择最佳的树深度。
- min_samples_split：从 [2, 3, 4] 中选择最佳的分裂节点最小样本数。
- min_samples_leaf：从 [1, 2] 中选择最佳的叶节点最小样本数。
cv：设置交叉验证的折数，这里为 3，表示使用 3 折交叉验证。