数据清洗-缺失值填充-对XGBoost参数优化填充

一、安装所需的python包
二、采用XGboost算法进行缺失值填充
- 2.1可直接运行代码
- 2.2以某个缺失值数据进行实战
- - 2.2.1 代码运行过程截屏：
  - 2.2.2 填充后的数据截屏：
三、网格搜索（Grid Search）对 XGBoost 模型的超参数进行优化原理介绍
- 3.1 说明
- 3.2 参数优化的原理
- - 1. 网格搜索（Grid Search）
  - 2. 交叉验证（Cross-Validation）
  - 3. XGBoost 模型的超参数
  - 4. 预测缺失值
- 3.3 整体优化效果
- 3.4 输出与保存
四、XGBoost算法原理介绍
- 4.1 XGBoost 的定义
- 4.2 XGBoost 的核心思想
- 4.3 XGBoost 的特点
- 4.4 XGBoost 的工作原理
- 4.5 XGBoost 的损失函数
- 4.6XGBoost 的参数
- 4.7 XGBoost 的应用场景
- 4.8XGBoost 的优缺点
- - 4.8.1 优点
  - 4.8.2 缺点

感觉大家对原理性的东西不太感兴趣，那我就直接举例提供代码，以及详细的注释，大家自己对照改代码应用于你自己建立的模型吧。

这些代码全部是我自己做数模竞赛时候自己用的代码。可以直接运行，记得修改文件路径。

一、安装所需的python包

pip install pandas
pip install numpy
pip install scikit-learn
pip install xgboost

二、采用XGboost算法进行缺失值填充

注意代码需要把自己的数据文件格式转换为CSV文件，并且把路径修改为自己文件所在的路径，不会转换的参考我此教程文件格式转换：EXCEL和CSV文件格式互相转换。

我知道大家对原理性的东西不感兴趣，我把他的原理介绍放在文末，需要写论文的同学自己拿去用，记得修改，否则查重率过不去。

2.1可直接运行代码

"""
XGBoost算法填补缺失值，这个精度比随机森林高，对XGboost的参数进行优化以后的代码
基本上在缺失值附近的数据旁边了
填充的效果还行，可以！
"""


import pandas as pd
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import joblib

# 读取数据，请将'缺失值填充.csv'替换为你的真实数据文件名
filename = '缺失值填充.csv'
data = pd.read_csv(filename, encoding='gbk')

# 分离出有缺失值的列
missing_columns = data.columns[data.isnull().any()]

# 定义要进行网格搜索的超参数范围
parameters = {
    'n_estimators': [50, 100, 200, 300],  # 树的数量
    'learning_rate': [0.01, 0.05, 0.1, 0.2],  # 学习率
    'max_depth': [3, 5, 8, 10],  # 构建树的深度，越大可能模型会更复杂/过拟合
}

# 对每一列进行迭代插补
for column in missing_columns:
    # 提取出非缺失值的数据
    train_data = data[data[column].notnull()]
    test_data = data[data[column].isnull()]

    y = train_data[column]
    X = train_data.drop(columns=[column])
    X_test = test_data.drop(columns=[column])

    # 利用XGBRegressor拟合数据
    model = XGBRegressor()
    grid_search = GridSearchCV(estimator=model, param_grid=parameters, scoring='neg_mean_squared_error', cv=5)
    grid_search.fit(X, y)
    model = grid_search.best_estimator_

    # 利用模型预测缺失值
    imputed_values = model.predict(X_test)

    # 用估计的值填充缺失值
    data.loc[data[column].isnull(), column] = imputed_values

    # 输出最优参数和最优分数
    print(f'Best parameters for column {column}: {grid_search.best_params_}')
    print(f'Best score for column {column}: {grid_search.best_score_}')

    # 保存模型
    joblib.dump(model, f'{column}_best_model.joblib')

# 输出处理后的数据
print(data)

#保存数据
data.to_csv('XGBoost参数优化填充.csv', index=False)

注意：filename = '缺失值填充.csv'里面的缺失值填充.csv是你自己的缺失值的csv文件路径，data.to_csv('XGBoost参数优化填充.csv', index=False)中的XGBoost参数优化填充.csv是你填充后的文件名，你可以自己起名。
注意：你也可以自定义网格的超参数范围。

2.2以某个缺失值数据进行实战

注意：数据量较少，由自己构建，均有规律，
如下图：

构造缺失值，如下图：

运行代码查看填充后的数据怎么样，
运行代码如下图+填充后的截图：

2.2.1 代码运行过程截屏：

在这里插入图片描述

2.2.2 填充后的数据截屏：

在这里插入图片描述

说明：数据量过小，填充效果不明显，但是你在进行数模比赛时候，需要说明为什么你要选用该算法填充，说明他的原理即可，不必纠结填充的数据是否正确，因为你本身也不知道数据的正确性。并且数模如国赛的C题，数据量往往都很大，以及MathorCup的大数据竞赛等等，所以效果仁者见仁吧。

接下来我将继续分享其他我参加数模时候常用的几种数据填充的代码，都是我自己调试跑通过的，大家直接复制粘贴使用。

三、网格搜索（Grid Search）对 XGBoost 模型的超参数进行优化原理介绍

3.1 说明

该代码使用 XGBoost 算法来填补数据中的缺失值，并通过网格搜索（Grid Search）对 XGBoost 模型的超参数进行优化，以提高预测精度。具体步骤如下：

读取数据：从指定的 CSV 文件中读取数据，并查找所有包含缺失值的列。
参数优化设置：定义一组超参数的可能取值范围，供后续的网格搜索使用。这些超参数包括：
- n_estimators：树的数量（即弱学习器的数量）。
- learning_rate：学习率，控制每次更新的步长大小。
- max_depth：树的最大深度，控制模型的复杂度。
逐列填补缺失值：对每一列存在缺失值的数据，使用 XGBoost 进行预测和填补：
- 分离出该列的训练数据（非缺失值）和测试数据（缺失值部分）。
- 使用网格搜索和交叉验证（Cross-Validation）来选择最佳的模型参数组合。
- 用训练好的 XGBoost 模型预测缺失值并进行填补。
保存最优模型：将每一列的最佳模型保存到文件中，以备将来使用。
保存处理后的数据：将填补后的数据保存为新的 CSV 文件。

3.2 参数优化的原理

1. 网格搜索（Grid Search）

网格搜索是对一组给定的超参数进行系统地遍历，找到一组使模型在验证集上表现最优的参数组合。具体来说，代码中使用 GridSearchCV 函数来实现网格搜索：

estimator：指定使用的基础模型，这里是 XGBRegressor。
param_grid：定义参数的取值范围。代码中定义了 3 个参数：
- n_estimators：从 [50, 100, 200, 300] 中选择最佳的树数量。
- learning_rate：从 [0.01, 0.05, 0.1, 0.2] 中选择最佳的学习率。
- max_depth：从 [3, 5, 8, 10] 中选择最佳的树深度。
scoring：指定使用的评分标准，这里是负均方误差（neg_mean_squared_error），目的是最小化均方误差。
cv：设置交叉验证的折数，这里为 5，表示使用 5 折交叉验证。

2. 交叉验证（Cross-Validation）

交叉验证用于评估模型的泛化能力。通过将数据集分为若干个互斥的子集，迭代地训练和验证模型，可以有效防止过拟合。代码中使用 5 折交叉验证，这意味着将数据集分为 5 份，每次使用其中 4 份训练模型，剩下 1 份用于验证。

3. XGBoost 模型的超参数

n_estimators（树的数量）：控制模型的复杂度。过多的树可能导致过拟合，而树的数量太少可能导致欠拟合。
learning_rate（学习率）：控制每次更新的步长。较低的学习率通常需要更多的树来达到最佳性能，但能防止模型过拟合。
max_depth（最大深度）：控制单棵树的深度，越大可能导致模型更复杂（过拟合），越小则可能欠拟合。

4. 预测缺失值

在找到最佳的参数组合后，使用训练好的 XGBoost 模型预测测试数据中的缺失值。模型使用已知数据学习缺失值的模式，然后对未知部分进行填充。

3.3 整体优化效果

通过网格搜索和交叉验证，代码能够找到适合填补每一列缺失值的最佳 XGBoost 模型参数，从而最大化模型的预测准确性。通常相较于未优化的XGBoost填补效果相对较好，因为它利用了大量数据的局部信息，并优化了模型的复杂度和泛化能力。

3.4 输出与保存

最优参数和分数：对于每一列，输出最优参数组合和最佳得分。
保存模型：将每一列的最佳模型保存为 .joblib 文件，以便将来复用。
保存数据：填补后的完整数据保存为新的 CSV 文件 XGBoost参数优化填充.csv。

每一列的最佳模型保存结果如下图：

在这里插入图片描述

四、XGBoost算法原理介绍

4.1 XGBoost 的定义

XGBoost（eXtreme Gradient Boosting）是一种基于梯度提升的机器学习算法，由 Tianqi Chen 在 2016 年提出。相比其他梯度提升算法，XGBoost 在速度和性能上有显著的提升。XGBoost 是一种集成学习方法，通过组合多个弱学习器（通常是决策树）来构建一个强大的预测模型。

4.2 XGBoost 的核心思想

XGBoost 属于 梯度提升树（Gradient Boosting Decision Trees, GBDT） 的一种扩展和优化。GBDT 的基本思想是将多个弱学习器（通常是决策树）逐步叠加，通过最小化损失函数来提高模型的准确性。XGBoost 在此基础上进行了多种优化和增强，使得算法在计算速度、内存效率和准确性上都有显著提升。

4.3 XGBoost 的特点

正则化处理：XGBoost 引入了正则化项（L1 和 L2 正则化），可以有效防止过拟合。
并行计算：XGBoost 支持并行化的树构建过程，利用多核 CPU 加速计算。
分块结构：采用分块结构处理数据，可以高效利用内存，适合处理大规模数据集。
缺失值处理：XGBoost 可以自动处理数据中的缺失值，在训练过程中找到最优化的分裂方向。
自定义损失函数：支持多种损失函数（如平方误差、逻辑回归损失）以及用户自定义损失函数。
树剪枝（Pruning）：采用后向贪心算法进行树剪枝，减少不必要的复杂度。
内置交叉验证：内置了交叉验证方法，可以自动在训练过程中找到最佳的模型参数。

4.4 XGBoost 的工作原理

初始化模型：首先用一个常数值（如训练数据的平均值）初始化模型。
迭代训练：在每一轮迭代中：
- 计算模型的残差（即当前模型的预测值与实际值之间的差距）。
- 使用残差训练一个新的弱学习器（通常是决策树），使其能够拟合这些残差。
- 将新的弱学习器加到现有模型中，更新模型的预测结果。
- 重复上述步骤，直到达到预设的弱学习器数量或其他停止条件。
组合模型：将所有弱学习器的结果加权求和，得到最终的预测模型。

4.5 XGBoost 的损失函数

XGBoost 可以使用多种损失函数，例如：

均方误差（MSE）：用于回归问题。
对数损失（Log Loss）：用于分类问题。
自定义损失函数：用户可以根据特定需求定义自己的损失函数。

4.6XGBoost 的参数

XGBoost 有许多参数可以调整，主要分为以下几类：

通用参数：控制 XGBoost 的通用功能，如 booster（指定使用哪种基学习器），nthread（用于控制并行线程数量）等。
Booster 参数：控制单个 Booster（基学习器）的行为，如 eta（学习率），max_depth（树的最大深度），subsample（子样本比例）等。
任务参数：控制 XGBoost 如何执行特定的学习任务，如 objective（指定学习任务和相应的损失函数），eval_metric（指定评价指标）等。