机器学习——XGBoost

一、初识XGBoost

1. 介绍

2. 使用 XGBoost 的方法

（1）直接使用xgboost库自己的建模流程

（2）使用xgboost库中的sklearn的API

3. XGBoost的三大板块

4. 提升集成算法

5. 建模流程

二、模型常用参数

1. n_estimators

2. subsample（有放回抽样问题）

3. eta（步长）

4. booster（选择弱评估器）

5. objective（XGB的目标函数）

补充：方差与泛化误差学习曲线

6. gamma（让树停止生长）

7. scale_pos_weight

三、XGB的目标函数（求解）

1. 目标函数求解

2. 参数化决策树

3. 求解 w 与 T（寻找最佳树结构）

3. 最佳分枝（结构分数之差）

四、模型调参

五、xgboost模型评估

六、XGBoost模型的保存和调用

1. Pickle保存和调用模型

2. Joblib保存和调用模型

七、其他参数

1. n_jobs（更多计算资源）

2. base.score（降低学习难度）

3. random_state（生成树的随机模式）

4. missing（自动处理缺失值）

一、初识XGBoost

1. 介绍

XGBoost 全称是 eXtreme Gradient Boosting，可译为极限梯度提升算法。它由陈天奇所设计，致力于让提升树突破自身的计算极限，以实现运算快速，性能优秀的工程目标。与决策树、SVM 等不同，它是一个集大成的机器学习算法。

2. 使用 XGBoost 的方法

（1）直接使用xgboost库自己的建模流程

params {eta, gamma, max_depth, min_child_weight, max_delta_step, subsample, colsample_bytree, colsample_bylevel, colsample_bynode, lambda, alpha, tree_method string, sketch_eps, scale_pos_weight, updater, refresh_leaf, process_type, 
grow_policy, max_leaves, max_bin, predictor, num_parallel_tree}

xgboost.train (params, dtrain, num_boost_round=10, evals=(), obj=None, feval=None, maximize=False,early_stopping_rounds=None, evals_result=None, verbose_eval=True, xgb_model=None, callbacks=None,learning_rates=None)

（2）使用xgboost库中的sklearn的API

class xgboost.XGBRegressor (max_depth=3, learning_rate=0.1, n_estimators=100, silent=True, objective='reg:linear', booster='gbtree', n_jobs=1, nthread=None, gamma=0, min_child_weight=1, max_delta_step=0, subsample=1, colsample_bytree=1, colsample_bylevel=1, reg_alpha=0, reg_lambda=1, scale_pos_weight=1, base_score=0.5, random_state=0, seed=None, missing=None, importance_type='gain', **kwargs)

使用 xgboost 中设定的建模流程来建模，和使用 sklearnAPI中的类来建模，模理效果是比较相似的，但是 xgboost 库本身的运算速度（尤其是交叉验证）以及调参手段比 sklearn要简单。

3. XGBoost的三大板块

XGBoost 本身的核心是基于梯度提升树实现的集成算法，整体来说可以有三个核心部分：集成算法本身，用于集成的弱评估器，以及应用中的其他过程。三个部分中，前两个部分包含了 XGBoost 的核心原理以及数学过程，最后的部分主要是在 XGBoost 应用中占有一席之地。

4. 提升集成算法

XGBoost 的基础是梯度提升算法。梯度提升（Gradient boosting）是构建预测模型的最强大技术之一，它是集成算法中提升法（Boosting）的代表算法。集成算法通过在数据上构建多个弱评估器，汇总所有弱评估器的建模结果，以获取比单个模型更好的回归或分类表现。弱评估器被定义为是表现至少比随机猜测更好的模型，即 预测准确率不低于 50% 的任意模型。

梯度提升树中可以有回归树也可以有分类树，两者都以 CART 树算法作为主流，XGBoost 背后也是 CART 树，这意味着 XGBoost 中所有的树都是二叉的。

5. 建模流程

梯度提升回归树是专注于回归的树模型的提升集成模型，其建模过程大致如下：最开始先建立一棵树，然后逐次迭代，每次迭代过程中都增加一棵树，逐渐形成众多树模型集成的强评估器。

对于决策树而言，每个被放入模型的任意样本最终一个都会落到一个叶子节点上。而对于回归树，每个叶子节点上的值是这个叶子节点上所有样本的均值。

对于梯度提升回归树来说，每个样本的预测结果可以表示为所有树上的结果的加权求和：

其中，K 是树的总数量，k 代表第 k 棵树， $\gamma_k$ 是这棵树的权重， $h_k$ 表示这棵树上的预测结果。

XGB 和 GBDT 核心区别是 求解预测值的方式不同，GBDT 中预测值是由所有弱分类器上的预测结果的加权求和，其中每个样本上的预测结果就是样本所在的叶子节点的均值。对于 XGB 来说，每个叶子节点上会有一个预测分数（prediction score），也被称为叶子权重。这个叶子权重就是所有在这个叶子节点上的样本在这一棵树上的回归取值，用 $f_k(x_i)$ 或者 $w$ 来表示，其中 $f_k$ 表示第 k 棵决策树， $x_i$ 表示样本 i 对应的特征向量。当只有一棵树的时候， $f_1(x_i)$ 就是提升集成算法返回的结果。当有多棵树的时候，集成模型的回归结果就是所有树的预测分数之和，假设这个集成模型中总共有 K 棵决策树，则整个模型在这个样本 i 上给出的预测结果为：

二、模型常用参数

1. n_estimators

补充：

        ① XGB中的树的数量决定了模型的学习能力，树的数量越多，模型的学习能力越强。只要 XGB 中树的数量足够了，即便只有很少的数据，模型也能够学到训练数据 100% 的信息，所以 XGB 也是天生过拟合的模型。但在这种情况下，模型会变得非常不稳定。

        ② XGB 中树的数量很少的时候，对模型的影响较大，当树的数量已经很多的时候，对模型的影响比较小。

        ③ 树的数量提升对模型的影响有极限，最开始，模型的表现会随着 XGB 的树的数量一起提升，但到达某个点之后，树的数量越多，模型的效果会逐步下降，这也说明了暴力增加 n_estimators 不一定有效果。

2. subsample（有放回抽样问题）

训练模型之前，必然会有一个巨大的数据集。树模型是天生过拟合的模型，并且如果数据量太过巨大，树模型的计算会非常缓慢，因此，要 对原始数据集进行有放回抽样（bootstrap）。无论是装袋还是提升的集成算法中，有放回抽样都是防止过拟合，让单一弱分类器变得更轻量的必要操作。实际应用中，每次抽取 50% 左右的数据就能够有不错的效果了。

在梯度提升树中，每一次送代都要建立一棵新的树，因此每次迭代中，都要有放回抽取一个新的训练样本。但是这并不能保证每次建新树后，集成的效果都比之前要好。因此 在梯度提升树中，每构建一个评估器，都让模型更加集中于数据集中容易被判错的那些样本。

首先有一个巨大的数据集，在建第一棵树时，对数据进行初次有放回抽样，然后建模。建模完毕后，对模型进行评估，然后将模型预测错误的样本反馈给数据集，一次迭代就算完成。紧接着要建立第二棵决策树，于是开始进行第二次有放回抽样。但这次有放回抽样时，加大了被第一棵树判断错误的样本的权重。也就是说，被第一棵树判断错误的样本，更有可能被抽中。基于这个有权重的训练集来建模，新建的决策树就会更加倾向于这些权重更大的，很容易被判错的样本。建模完毕之后，又将判错的样本反馈给原始数据集。下一次送代的时候，被判错的样本的权重会更大，新的模型会更加倾向于很难被判断的这些样本。如此反复迭代，越后面建的树，越是之前的树们判错样本上的专家，越专注于攻克那些之前的树们不擅长的数据。

对于一个样本而言，它被预测错误的次数越多，被加大权重的次数也就越多。只要弱分类器足够强大，随着模型整体不断在被判错的样本上发力，这些样本会渐渐被判断正确。如此就一定程度上实现了我们每新建一棵树模型的效果都会提升的目标。

subsample 参数通常是在样本量本身很大的时候调整和使用。参数对模型的影响应该会非常不稳定，大概率应该是无法提升模型的泛化能力的，但也不乏提升模型的可能性。

3. eta（步长）

除了保证模型逐渐倾向于困难样本的方向，还必须控制新弱分类器的生成，我们必须保证，每次新添加的树一定得是对这个新数据集预测效果最优的那一棵树。

可以首先找到一个损失函数 $Obj$ ，这个损失函数应该可以通过带入预测结果 $\hat{y_i}$ ，来衡量梯度提升树在样本的预测效果。然后利用梯度下降来迭代集成算法：

在 k次迭代后，集成算法中总共有 k 棵树，k 棵树的集成结果是前面所有树上的叶子权重的累加 $\sum_{k}^{K}{f_k(x_i)}$ 。所以让 k 棵树的集成结果 $\hat{y_i}^{(k)}$ 加上新建的树上的叶子权重 $f_{k+1}(x_i)$ ，就可以得到第 k+1 次迭代后，总共 k+1 棵树的预测结果 $\hat{y_i}^{(k+1)}$ 了。让这个过程持续下去，直到找到能够让损失函数最小化的 $\hat{y}$ ，这个 $\hat{y}$ 就是模型的预测结果。

上式 𝞰 读作 “eta”，是迭代决策树时的步长（shrinkage），又叫做学习率（learning rate）。和逻辑回归中的 a 类似，𝞰 越大，迭代的速度越快，算法的极限很快被达到，有可能无法收敛到真正的最佳。𝞰 越小，越有可能找到更精确的最佳值，更多的空间被留给了后面建立的树，但迭代速度会比较缓慢。

4. booster（选择弱评估器）

5. objective（XGB的目标函数）

不同于逻辑回归和 SVM 等算法中固定的损失函数写法，集成算法中的损失函数是可选的，要选用什么损失函数取决于我们希望解决什么问题，以及希望使用怎样的模型。比如说，如果目标是进行回归预测，那可以选择调节后的均方误差 RMSE 作为损失函数。如果是进行分类预测，那可以选择错误率 error 或者对数损失 log_loss。只要选出的函数是一个可微的，能够代表某种损失的函数，它就可以是 XGB 中的损失函数。

XGB 的是实现了模型表现和运算速度的平衡的算法。普通的损失函数，比如错误率，均方误差等，都只能够衡量模型的表现，无法衡量模型的运算速度。XGB 因此引入了模型复杂度来衡量算法的运算效率。它的目标函数被写作：传统损失函数+模型复杂度。

其中 i 代表数据集中的第 i 个样本，m 表示导入第 k 棵树的数据总量，K 代表建立的所有树（n_estimators），当只建立了 t 棵树的时候，式子应当为 $\sum_{k=1}^{t}{\Omega(f_k)}$ 。

第一项代表传统的损失函数，衡量真实标签 $y_i$ 与预测值 $\hat{y_i}$ 之间的差异，通常是 RMSE（调节后的均方误差）。第二项代表模型的复杂度，使用树模型的某种变换 𝛀 表示，这个变化代表了一个从树的结构来衡量树模型的复杂度的式子，可以有多种定义。在迭代每一棵树的过程中，都最小化 $Obj$ 来力求获取最优的分，这同时最小化了模型的错误率和模型的复杂度。

公式第一项传统损失函数与已经建好的所有树相关：

$\hat{y_i}$ 中己经包含了所有树的迭代结果，因此整个目标函数都与 K 棵树相关。

补充：方差与泛化误差学习曲线

在机器学习中，用来衡量模型在未知数据上的准确率的指标，叫做 泛化误差（Genelization error）。一个集成模型（f）在未知数据集（D）上的泛化误差 $E(f;D)$ ，由方差（var），偏差（bais）和噪声（𝛜）共同决定。其中 偏差就是训练集上的拟合程度决定，方差是模型的稳定性决定，噪音是不可控的。而泛化误差越小，模型就越理想。

方差可以被简单地解释为模型在不同数据集上表现出来地稳定性，而偏差是模型预测的准确度。

所以，式子的第一项是衡量偏差，模型越不准确，第一项就会越大。第二项是衡量方差，模型越复杂，模型的学习就会越具体，到不同数据集上的表现就会差异巨大，方差就会越大。所以求解 $Obj$ 的最小值，其实是在求解方差与偏差的平衡点，以求模型的泛化误差最小，运行速度最快。

xgb.train()	xgb.XGBRegressor()	xgb.XGBClassifier()
obj ：默认 binary:logistic	objective：默认reg:linear	objective：默认binary:logistic

还可以选择自定义损失函数。

# 默认 reg:linear
reg = XGBR(n_estimators=180, random_state=420).fit(Xtrain, Ytrain)
reg.score(Xtest, Ytest)
MSE(Ytest, reg.predict(Xtest))

# 使用类Dmatrix读取数据
dtrain = xgb.DMatrix(Xtrain, Ytrain)
dtest = xgb.DMatrix(Xtest, Ytest)

# 写明参数
param = {'objective':'reg:linear', "eta":0.1}
bst = xgb.train(param, dtrain)

# 接口predict
r2_score(Ytest, bst.predict(dtest))
MSE(Ytest, bst.predict(dtest))

6. gamma（让树停止生长）

从目标函数和结构分数之差 Gain 的式子中来看，𝛄 是每增加一片叶子就会被剪去的惩罚项。增加的叶子越多，结构分数之差 Gain 会被惩罚越重，所以，𝛄 又被称之为是 “ 复杂性控制 ”（complexity control），所以 𝛄 是用来防止过拟合的重要参数。实践证明，𝛄 是对梯度提升树影响最大的参数之一，其效果丝毫不逊色于 n_estimators 和 max_depth。同时，𝛄 还是让树停止生长的重要参数。

在 XGB 中规定，只要 结构分数之差 Gain 是大于 0 的，即只要目标函数计就允许树继续进行分枝。对于目标函数减小量的要求为：

𝛄 设定越大，算法就越保守，树的叶子数量就越少，模型的复杂度就越低。

7. scale_pos_weight

对于 XGB 中的样本不均衡问题，通常在参数中输入的是负样本量与正样本量之比 $\frac{sum(negative\ instances)}{sum(positive\ instances)}$ ：

scale_pos_weight 参数是通过调节预测的概率值来调节。当我们只关心预测出的结果是否准确，AUC 面积或者召回率是否足够好，就可以使用 scale_pos_weight 参数。当我们希望能够保持概率原有的模样，而提升模型的效果。这种时候，就不应使用scale_pos_weight。

三、XGB的目标函数（求解）

1. 目标函数求解

求解目标函数的目的：为了求得在第 t 次迭代中最优的树 $f_t$ 。

在 XGB 中迭代的是树，树 $f_t$ 不是数字组成的向量，并且其结构不受到特征矩阵 x 取值大小的直接影响，所以在 XGB 中无法使用梯度下降。

在求解 XGB 的目标函数的过程中，考虑的是如何能够将目标函数转化成更简单的，与树的结构直接相关的写法，以此来建立树的结构与模型的效果（包括泛化能力与运行速度）之间的直接联系。也因为这种联系的存在，XGB 的目标函数又被称为 “结构分数”。

其中 $g_i$ 和 $h_i$ 分别是在损失函数 $l(y_i^t,\hat{y_i}^{(t-1)})$ 上对 $\hat{y_i}^{(t-1)}$ 所求的一阶导数和二阶导数，他们被统称为每个样本的梯度统计量（gradient statisticts）。这里求解导数只是 为了配合泰勒展开中的形式，以简化公式为目的。所以 GBDT 和 XGB 的区别之中，GBDT 求一阶导数，XGB 求二阶导数，这两个过程根本是不可类比的。

泰勒展开变换：

其中 $f'(c)$ 表示 $f(x)$ 上对 x 求导后，令 x 的值等于 c 所取得的值。其中有假设：c 与 x 非常接近， $(x-c)$ 非常接近 0，于是可以将式子改写成：

其中， $x-c$ 需要很小，与 x 相比起来越小越好，在式子中，需要很小的这部分就是 $f_t(x_i)$ 。对于一个集成算法来说，每次增加的一棵树对模型的影响其实非常小，尤其是当有许多树的时候。比如 n_estimators=500， $f_t(x_i)$ 与 x 相比总是非常小的，因此这个条件可以被满足，泰勒展开可以被使用。

如此，目标函数可以被转化成：

式子中， $g_i$ 和 $h_i$ 只与传统损失函数相关，核心的部分是需要决定的树 $f_t$ 。

2. 参数化决策树 $f_k(x)$

对于决策树而言，每个被放入模型的任意样本 i 最终都会落到一个叶子节点上。对于回归树，通常来说每个叶子节点上的预测值是这个叶子节点上所有样本的标签的均值。

对于 XGB 来说，每个叶子节点上会有一个预测分数（prediction score），也被称为叶子权重。这个 叶子权重就是所有在这个叶子节点上的样本在这一棵树上的回归取值，用 $f_k(x_i)$ 或者 $w$ 来表示。

当有多棵树的时候，集成模型的回归结果就是所有树的预测分数之和。假设这个集成模型中总共有 K 棵决策树，则整个模型在这个样本 i 上给出的预测结果为：

对于每一棵树，都有自己独特的结构，这个结构即是指叶子节点的数量，树的深度，叶子的位置等所形成的一个可以定义唯一模型的树结构。在这个结构中使用 $q(x_i)$ 表示样本 $x_i$ 所在的叶子节点，并且使用 $w_{q(x_i)}$ 来表示这个样本落到第 t 棵树上的第 $q(x_i)$ 个叶子节点中所获得的分数，于是有：

这是 对于每一个样本而言的叶子权重，然而在一个叶子节点上的所有样本所对应的叶子权重是相同的。设一棵树上总共包含了 T 个叶子节点，其中每个叶子节点的索引为 j，则这个叶子节点上的样本权重是 $w_j$ 。依据这个可以定义模型的复杂度 $\Omega(f)$ 为：

注：这不是唯一可能的定义，还可以使用其他的定义，只要满足叶子越多 / 深度越大，复杂度越大的理论，可以自己决定 $\Omega(f)$ 要是一个怎样的式子。

这个结构中有两部分内容，一部分是控制树结构的 $\gamma T$ ，另一部分则是正则项。叶子数量 T 可以代表整个树结构，这是因为在 XGBoost 中所有的树都是 CART树（二叉树），所以可以根据叶子的数量 T 判断出树的深度，而 𝛄 是自定的控制叶子数量的参数。第二部分正则项，a 和 𝛌 的作用都是控制正则化强度的参数，可以二选一使用，也可以一起使用加大正则化的力度。当 𝛌 和 a 都为 0 的时候，目标函数就是普通的梯度提升树的目标函数。

在 XGB 中，当 𝛌 和 a 越大，惩罚越重，正则项所占的比例就越大，在尽全力最小化目标函数的最优化方向下，叶子节点数量就会被压制，模型的复杂度就越来越低，所以对于天生过拟合的 XGB 来说，正则化可以一定程度上提升模型效果。从 XGB 的默认参数来看，优先选择的是 L2 正则化。但如果真的希望控制模型复杂度，往往会调整 𝛄 而不是调整这两个正则化参数。

3. 求解 w 与 T（寻找最佳树结构）

树使用叶子节点上的预测分数来表达，而树的复杂度则是叶子数目加上正则项：

假设现在第 t 棵树的结构已经被确定为 q，可以将树的结构带入损失函数，来继续转化目标函数。转化目标函数的目的是：建立树的结构（叶子节点的数量）与目标函数的大小之间的直接联系，以求出在第 t 次迭代中需要求解的最优的树 $f_t$ 。

注：假设使用的是 L2正则化（这也是参数 lambda 和 alpha的默认设置，lambda 为 1，alpha 为 0）。

于是有：

定义：

于是有：

其中每个 j 取值下都是一个以 $w_j$ 为自变量的二次函数 $F^*$ ，目标是追求让 $Obj$ 最小，只要单独的每一个叶子 j 取值下的二次函数都最小，那他们的加和必然也会最小。于是，在 $F^*$ 上对 $w_j$ 求导，让一阶导数等于 0 以求极值，可得：

带入目标函数则有：

到了这里，比起最初的 损失函数+复杂度 的样子，现在目标函数已经发生了巨大变化。样本量 i 已经被归结到了每个叶子当中去，目标函数是基于每个叶子节点，也就是树的结构来计算。所以，目标函数又叫做 “结构分数”（structure score），分数越低，树整体的结构越好。如此就建立了树的结构（叶子）和模型效果的直接联系。

举个例子：

在 XGB 的运行过程中，会根据 $Obj$ 的表达式直接探索最好的树结构，也就是说找寻最佳的树。从式子中可以看出，𝛌 和 𝛄 是设定好的超参数， $G_j$ 和 $H_j$ 是由损失函数和这个特定结构下树的预测结果 $\hat{y_i}^{(t-1)}$ 共同决定，而 T 只由树结构决定。则通过最小化 $Obj$ 所求解出的其实是 T（叶子的数量），本质也就是求解树的结构了。

补：

① 求解 $G_j$ 和 $H_j$ 中带有 w 和求解叶子权重 $w_j$ 的问题？

一阶和二阶导数的本质：

预测值的求解公式：

$\hat{y_i}^{(t-1)}$ 与现在要求解的 $w_j$ 不是在同一棵树上的。我们是在一直迭代的，现在求解的 $w_j$ 是第 t 棵树上的结果，而 $\hat{y_i}^{(t-1)}$ 是前面的 $(t-1)$ 棵树的累积 w，是在前面所有的迭代中已经求解出来的己知的部分。

② 没有 “前面己经迭代完毕的部分”，怎么办？

假设 $\hat{y_i}^{(0)}=0$ 来解决问题。

3. 最佳分枝（结构分数之差）

在 XGB 中，我们首先使用目标函数来衡量树的结构的优劣，然后让树从深度 0 开始生长，每进行一次分枝，我们就计算目标函数减少了多少，当目标函数的降低低于设定的某个阈值时，就让树停止生长。

对于中间节点这一个叶子节点而言，T=1，则这个节点上的结构分数为：

对于弟弟和妹妹节点而言，则有：

分枝后的结构分数之差为：

最后可知，分枝后的结构分数之差为：

其中 $G_L$ 和 $H_L$ 从左节点（弟弟节点）上计算得出， $G_R$ 和 $H_R$ 从右节点（妹妹节点）上计算得出，而 $(G_L+G_R)$ 和 $(H_L + H_R)$ 从中间节点上计算得出。对于任意分枝，都可以这样来进行计算。

四、模型调参

参数含义	xgb.train()	xgb.XGBRegressor()
树的最大深度	max_depth，默认6	max_depth，默认6
每次生成树时随机抽样特征的比例	colsample_bytree，默认1	colsample_bytree，默认1
每次生成树的一层时随机抽样特征的比例	colsample_bylevel，默认1	colsample_bylevel，默认1
每次生成一个叶子节点时随机抽样特征的比例	colsample_bynode，默认1	N.A.
一个叶子节点上所需要的最小 $h_i$ 即叶子节点上的二阶导数之和类似于样本权重	min_child_weight，默认1	min_child_weight，默认1

这些参数中，树的最大深度是决策树中最常用的剪枝参数，不过在 XGBoost 中，最大深度的功能与 𝛄 参数相似，因此如果先调节了 𝛄，则最大深度可能无法展示出巨大的效果。当然，如果先调整了最大深度，则 𝛄 也有可能无法显示明显的效果。通常来说，这两个参数中我们只使用一个。也可以都试试。

三个随机抽样特征的参数中，前两个比较常用。Boosting 算法一直以抽取样本（横向抽样）来调整模型过拟合的程度，而实践证明其实纵向抽样（抽取特征）更能够防止过拟合。

参数 min_child_weight 不太常用，它是一篇叶子上的二阶导数 $h_i$ 之和，当样本所对应的二阶导数很小时，比如说为 0.01，min_child_weight 若设定为 1，则说明一片叶子上至少需要 100个样本。本质上来说，这个参数其实是在控制叶子上所需的最小样本量，因此对于样本量很大的数据会比较有效。就剪枝的效果来说，这个参数的功能也被 𝛄 替代了一部分，通常来说可以试试看这个参数。

剪枝上的调参顺序是： n_estimators 与 eta 共同调节，gamma 或者 max_depth，采样和抽样参数（纵向抽样影响更大），最后才是正则化的两个参数。

五、xgboost模型评估

在 sklearn 下 XGBoost太不稳定，如果这样来调整参数的话，效果就很难保证。因此引入新的工具，xgboost 库中的类 xgboost.cv。

xgboost.cv (params, dtrain, num_boost_round=10, nfold=3, stratified=False, folds=None, metrics=(), obj=None, feval=None, maximize=False, early_stopping_rounds=None, fpreproc=None, as_pandas=True, verbose_eval=None, show_stdv=True, seed=0, callbacks=None, shuffle=True)

import xgboost as xgb

dfull = xgb.DMatrix(X,y)

#设定参数
param1 = {'obj':'reg:linear', "gamma":0}
num_round = 180
n_fold=5

cvresult1 = xgb.cv(param1, dfull, num_round, n_fold)

六、XGBoost模型的保存和调用

1. Pickle保存和调用模型

import pickle

dtrain = xgb.DMatrix(Xtrain, Ytrain)

#设定参数，对模型进行训练
param = {'obj':'reg:linear'
         ,"eta":0.05
         ,"gamma":20}
num_round = 180

bst = xgb.train(param, dtrain, num_round)

#保存模型
pickle.dump(bst, open("xgboost_01.dat", "wb"))
# wb 表示以 二进制写入，rb 表示以 二进制读入

#导入模型
loaded_model = pickle.load(open("xgboost_01.dat", "rb"))

2. Joblib保存和调用模型

import joblib

bst = xgb.train(param, dtrain, num_round)

# 保存模型
joblib.dump(bst, "xgboost_02.dat")

# 导入模型
loaded_model = joblib.load("xgboost_02.dat")

七、其他参数

1. n_jobs（更多计算资源）

nthread 和 n_jobs 都是算法运行所使用的线程，与 sklearn 中规则一样，输入整数表示使用的线程，输入 -1表示使用计算机全部的计算资源。如果数据量很大，则可能需要这个参数来为调用更多线程。

2. base.score（降低学习难度）

它被叫做 全局偏差，在分类问题中，它是我们希望关注的分类的先验概率。比如说，如果我们有 1000 个样本，其中 300个正样本，700 个负样本，则 base_score 就是0.3。对于回归来说，这个分数默认 0.5，但其实这个分数在这种情况下并不有效。许多使用 XGBoost 的人已经提出，当使用回归的时候 base_score 的默认应该是标签的均值，不过现在 xgboost 库尚未对此做出改进。使用这个参数，便是在告诉模型 —些我们了解但模型不一定能够从数据中学习到的信息。通常我们不会使用这个参数，但对于严重的样本不均衡问题，设置一个正确的 base_score 取值是很有必要的。

3. random_state（生成树的随机模式）

在 xgb 库和 sklearn 中，都存在 空值生成树的随机模式的参数 random_state。在剪枝中，可以通过随机抽样特征来减轻过拟合的影响，我们可以通过其他参数来影响随机抽样的比例，却无法对随机抽样干涉更多，因此，真正的随机性还是由模型自己生成的。如果希望控制这种随机性，可以在 random_state 参数中输入固定整数。需要注意的是，xgb 库和 sklearn 库中，在 random_state 参数中输入同一个整数未必表示同一个随机模式，不一定会得到相同的结果，因此导致模型的 feature_importances 也会不一致。

4. missing（自动处理缺失值）

XGBoost 被设计成是能够自动处理缺失值的模型，这个设计的初衷其实是为了让XGBoost 能够处理稀疏矩阵。可以在参数 missing 中输入一个对象，比如 np.nan，或数据的任意取值，表示将所有含有这个对象的数据作为空值处理。XGBoost 会将所有的空值当作稀疏矩阵中的 0 来进行处理，因此在使用 XGBoost 的时候，也可以不处理缺失值。