Xgboost简介

XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在Gradient Boosting框架下实现机器学习算法。 XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速准确地解决许多数据科学问题。在数据科学方面，有大量的Kaggle选手选用XGBoost进行数据挖掘比赛，是各大数据科学比赛的必杀武器；在工业界大规模数据方面，XGBoost的分布式版本有广泛的可移植性，支持在Kubernetes、Hadoop、SGE、MPI、 Dask等各个分布式环境上运行，使得它可以很好地解决工业界大规模数据的问题。XGBoost利用了核外计算并且能够使数据科学家在一个主机上处理数亿的样本数据。最终，将这些技术进行结合来做一个端到端的系统以最少的集群系统来扩展到更大的数据集上。Xgboost以CART决策树为子模型，通过Gradient Tree Boosting实现多棵CART树的集成学习，得到最终模型。

Xgboost原理

从目标函数生成一颗树

XGBoost和GBDT两者都是boosting方法，boosting方法实际采用加法模型，（基函数线性组合）与前向分布算法，XGBoost与GBDT除了工程上的实现，解决问题上的一些差异外，最大的不同都是目标函数的定义，因此，我们从目标函数开始研究Xgboost的基本原理：

学习第t棵树

XGBoost由K个基模型组成的一个加法模型，假设我们第 $t$ 次迭代要训练的树模型是 $f_t(x)$ ，则有:L
**加粗样式**在这里插入图片描述

Xgboost的目标函数

损失函数可有预测值 $\hat{y_i}$ 与真实值 $y_i$ 进行比较:
在这里插入图片描述
其中 $n$ 为样本数量。
模型的预测精度有模型的偏差和方差共同决定。损失函数代表了模型的偏差，想要方差小则需要在目标函数中添加正则项，用于防止过拟合。
所以，目标函数由模型的损失函数 $L$ 与抑制模型复杂度的 $Ω$ 组成，目标函数定义如下:
在这里插入图片描述
其中 $\sum^t_{i = 1}Ω(f_i)$ 是将全部 $t$ 棵树的复杂度进行求和。添加到目标函数作为正则项，用于防止模型过拟合。
由于xgboost是boosting方法，实际上采用了加法模型和前方分布算法，以第 $t$ 个模型为例，模型对第 $i$ 个样本的 $x_i$ 的预测值为:
在这里插入图片描述
其中 $\hat{y^{t - 1}_i}$ 是 $t - 1$ 个模型给出的预测值，是已知常数， $f_t(x_i)$ 是第 $t$ 个模型的预测值，此时，目标函数写成: