4.系统学习-集成学习

集成学习

前言
Bias and Variance
过拟合（overfitting）与欠拟合（underfitting）
集成学习为什么有效？
Blending 模型集成
Stakcing 模型集成
Bagging模型集成
Bagging 模型集成算法流程：
Boosting模型集成
作业

前言

比赛中集成学习，但要用好模型集成可能并不是那么简单，本文将讨论讨论：

模型总体误差分解，过拟合，欠拟合
为什么集成学习能降低总体误差
Blending
Stacking
Bagging
Boosting

Bias and Variance

在这里插入图片描述
假设有训练数据集 $D$ ，包含样本点 $(x_1, y_1), \ldots, (x_n, y_n)$ ，
存在一个带噪音的真实函数 $\epsilon$ ，噪音 $\epsilon$ 均值为 $0$ ，方差为 $\sigma^2$ ，我们希望通过数据集 $D$ 训练模型 $\hat{f}(x; D)$ 尽可能逼近真实函数 $f$ ，使得任意训练数据集以外的样本误差最小化，即最小化误差函数 MSE：

$\mathbb{E}_{D,\epsilon}\left[(y - \hat{f}(x; D))^2\right] = \left(\text{Bias}_D\left[\hat{f}(x; D)\right]\right)^2 + \text{Var}_D\left[\hat{f}(x; D)\right] + \sigma^2$

where 偏差 (bias) 部分：

$\text{Bias}_D\left[\hat{f}(x; D)\right] = \mathbb{E}_D\left[\hat{f}(x; D)\right] - f(x)$

and 方差 (variance) 部分：

$\text{Var}_D\left[\hat{f}(x; D)\right] = \mathbb{E}_D\left[\left(\mathbb{E}_D[\hat{f}(x; D)] - \hat{f}(x; D)\right)^2\right].$
这里我们已经通过公式推导将目标函数分解成三项：

a) 偏差项 (bias) 是采用不同训练数据集 $D$ 时，模型预测和真值的偏差，可以看成由不同的模型假设带来的误差。比如真实函数是一个非线性函数 $f$ ，而我们采用线性回归模型 $\hat{f}$ 进行建模，由于这一假设，估计我们的线性模型 $\hat{f}$ 将存在误差。通常越复杂的模型偏差更小，复杂模型的假设空间更大，对真实函数逼近能力更强，偏差更小。

b) 方差项 (variance) 为采用不同训练数据集 $D$ 训练模型时，模型对同一个样本预测值的波动大小，通常越复杂的模型越敏感，这意味着采用不同数据训练的模型差异会很大，导致对同一个样本预测值的波动较大，即方差很大。

c) 为随机误差，无法预测。

过拟合（overfitting）与欠拟合（underfitting）

Overfitting，当我们的模型太复杂（比如很深的决策树、非常多的特征工程、大型深度学习网络等），模型偏差较低，方差较大；
Underfitting，当我们的模型太简单（线性回归、无特征工程、浅层感知机等），模型偏差较大，方差较小；过拟合和欠拟合都不是我们想要的模型状态，如下图所示，最好的状态时偏差和方差都处于比较小的均衡状态，这时候总体误差最小。

集成学习为什么有效？

集成学习指建模时训练多个基模型，预测时候融合多个模型预测结果，降低总体误差的学习方法。集成学习方法有很多，总体上可以分为三类：Stacking，Bagging 及 Boosting.
在这里插入图片描述
降低模型方差

可以看出不管是哪种模型集成方法，都有一个共同特点：融合多个模型预测结果。由统计知识可知，多个独立同分布随机变量满足：

设 $X_1, X_2, \ldots, X_n$ 是独立同分布的，满足 $E(X_i) = \mu, D(X_i) = \sigma^2, i = 1, 2, 3, \ldots, n$

则随机变量 $\overline{X} = \frac{1}{n}\sum_{i=1}^n X_i$ ，满足 $E(\overline{X}) = \mu, D(\overline{X}) = \frac{\sigma^2}{n}$ 。

下证：

$E(\overline{X}) = E\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n} \sum_{i=1}^n E(X_i) = \frac{1}{n} \cdot n\mu = \mu$

$D(\overline{X}) = D\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n^2} \sum_{i=1}^n D(X_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n}$

其中随机变量的简单算术平均可以看成模型融合结果，只要不同模型预测结果满足独立同分布，模型预测方差将从原本的 $\sigma^2$ 变为 $\frac{\sigma^2}{n}$ ，大幅度降低了总体误差中的方差部分。当然这是最理想情况了，一般来说模型间都存在一定的相关性，相关性越弱，融合后预测方差越低。

因此在集成学习中，构造模型间的差异化是重中之重。在 bagging 中，我们通过采用不同的训练数据构造差异化。

降低模型偏差
在这里插入图片描述从上图可以看出，融合多个弱模型（相对概念，指复杂度比较低的模型），可以降低模型偏差，获得更高的模型精度。

Blending 模型集成

将数据划分为训练集和验证集
在这里插入图片描述

在这里插入图片描述

在训练集上训练模型（m1, m2, m3, …）
在验证集上预测，得到模型（m1, m2, m3, …）的预测结果
使用模型验证集预测结果作为特征，训练分类（例如逻辑回归）或回归（例如线性回归）模型，也可以人工指定权重，对模型（m1, m2, m3, …）的预测结果进行加权平均。例如在分类问题中将（m1, m2, m3, …）的预测概率进行加权，权重和为1。

Stakcing 模型集成

在这里插入图片描述
Stacking 模型集成方法和 Blending 方法非常类似，通过一个 meta model 对不同类别的基模型预测结果进行集成。Stacking 采用的基模型通常是不同种类的，算法流程如下：

将数据集划分成3部分：subset1, subset2, subset3。
在 subset1 上训练不同种类的基模型（比如：逻辑回归、决策树等）。
在 subset2 上，基模型进行预测。
在 subset2 上，使用第3步中的预测结果作为输入，训练一个 meta 模型，通常 meta 模型我们尽量采用复杂度较低的简单模型，比如线性回归或逻辑回归，避免过拟合。
在 subset3 上，基模型进行预测，预测结果输入到 meta 模型进行预测，得到最终预测结果，测试模型精度。

Stacking 简化变体 Average / Weighted

很多时候，为了简化 stacking 模型集成或降低过拟合，我们不需要训练 meta 模型，可以直接将基模型预测值进行平均或加权平均即可。这时候我们的工作流变成：

将数据集划分成两部分：subset1 和 subset2。
在 subset1 上训练不同种类的基模型（比如：逻辑回归、决策树等）。
在 subset2 使用基模型进行预测，并对所有基模型预测的结果计算平均值（或进行加权平均）得到最终预测结果，测试模型精度。

如果采用加权平均，一般建议精度更高的模型更高的权重。例如有模型 A/B/C，精度模型 A > B > C，可以给予权重 A: 0.5, B: 0.3, C: 0.2。如果你不想调整权重而求最优权重，这时候可以等价于引入一个线性模型，在搜索线性模型参数时，来防止过拟合。这个时候建议采用完整 stacking 模型集成方案。

需要注意的是，在进行分类问题建模时通常进行概率融合。例如在使用逻辑回归进行分类时，使用 predict_proba 方法可以得到预测概率结果，预测结果为 N x 2 维度，2 为类别数量，分别代表输入样本和正确类别的概率。概率值融合后，使用 np.argmax(pred_result, axis=1) 即可得到每个样本最高概率的类别。

>>> from sklearn.datasets import load_iris
>>> from sklearn.linear_model import LogisticRegression
>>> X, y = load_iris(return_X_y=True)
>>> clf = LogisticRegression(random_state=0).fit(X, y)
>>> clf.predict(X[:2, :])
array([0, 0])
>>> clf.predict_proba(X[:2, :])
array([[9.8...e-01, 1.8...e-02, 1.4...e-08],
       [9.7...e-01, 2.8...e-02, 2.2...e-08]])
>>> clf.score(X, y)
0.97

Bagging模型集成

在这里插入图片描述

Bagging 模型集成算法流程：

通过 放回抽样 得到多个训练集
在不同的训练集上训练基模型（一般采用相同类型的模型）
对模型预测结果进行融合

一般的，我们将使用决策树作为基模型的 Bagging 集成学习方法叫做 随机森林，同时由于决策树本身是一种拟合能力比较强的模型，为了最大化模型差异化，在训练每棵决策树时进行特征采样，使得不同子模型使用的数据集不仅样本不同，同时使用的特征也不完全一致。在 sklearn 库中已经有成熟的随机森林实现，可以直接调用。

from sklearn.ensemble import RandomForestClassifier

RandomForestClassifier(
    n_estimators=100,
    max_depth=None,
    max_features='auto',
    max_leaf_nodes=None,
)

参数解释：

参数	解释
n_estimators	设置基模型数量
max_depth	树的最大深度
max_features	寻找最佳分割时要考虑的特征数量
max_leaf_nodes	允许的最大叶子节点数量

随机森林的特点：

并行的集成框架，适合并行训练，训练速度快。
特征随机采样使得在样本特征维度很高的时候，仍然能有效的训练模型。
数据集随机采样 & 特征随机采样的引入，使得随机森林的基模型能构造较大的差异化，降低融合模型方差，提升泛化能力，避免过拟合。
因为 Bagging 主要降低模型方差，因此一般选择偏差较小的大型决策树（深度较深，叶子节点数量高）作为基模型，来平衡偏差和方差。

Boosting模型集成

与Bagging相反，Boosting采用串行的集成框架，常见的算法流程如下图所示：

从数据集中均匀采样一个子集
在子集上训练模型并对整个数据集进行预测
计算每个样本误差
根据误差大小对数据集样本赋权（误差越大，权重越大），并使用新的权重对数据集进行采样，得到一个新的子集
重复2～4，直到达到预设的迭代次数
Boosting集成学习通过迭代训练，逐步降低模型偏差，因此我们一般采用比较简单的基模型（浅层决策树），
避免过拟合发生。
sklearn已经实现了Boosting集成学习方法，可以通过
sklearn.ensemble.AdaBoostClassifier直接调用，使用方法和参数与随机森林类似。
Boosting模型集成特点：
串行集成方法，比较难并行化，速度较慢
能有效降低偏差，适合采用简单的基模型