集成学习的小九九

集成学习（Ensemble Learning）是一种机器学习的方法，通过结合多个基本模型的预测结果来进行决策或预测。集成学习的目标是通过组合多个模型的优势，并弥补单个模型的不足，从而提高整体性能。

集成学习的主要策略

在集成学习中，有两个主要的策略：平均法和投票法。

平均法：平均法通过对多个模型的预测结果进行平均或加权平均，得到最终的预测结果。例如，对于回归问题，可以计算多个模型的预测值的平均值作为最终的预测结果；对于分类问题，可以采用投票法来进行决策。
投票法：投票法通过对多个模型的预测结果进行投票，选择得票最多的类别作为最终的预测结果。例如，对于分类问题，可以将每个模型的预测结果看作一个投票，并选择得票最多的类别作为最终的分类结果。

集成学习的优势

集成学习的优势在于：

提高泛化能力：集成学习能够通过结合多个模型的预测结果，减少单个模型的偏见和方差，从而提高整体的泛化能力，降低过拟合的风险。
提高预测准确性：通过集成多个模型，可以利用各自模型的优势，弥补单个模型的不足，从而提高最终的预测准确性。
增加稳定性：集成学习能够降低模型的不确定性，提高系统的稳定性和鲁棒性，对异常数据或噪声具有较好的抗干扰能力。

集成学习分类

目前的集成学习方法分为两类（Boosting类方法、Bagging类方法）：
（1）个体学习器间存在强依赖关系、必须串行生成的序列化方法，代表算法Boosting类方法；
（2）个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表算法Bagging类方法；bagging类方法又可分为：bagging、随机森林等。 boosting类方法又可分为：AdaBoost、GBDT等。

Bagging类方法

个体学习器间不存在强依赖关系、可同时生成的并行化方法

主要代表方法

Bagging

定义：是通过不同模型的训练数据集的独立性来提高不同模型之间的独立性．我们在原始训练集上进行有放回的随机采样，得到𝑀 个比较小的训练集并训练𝑀 个模型，然后通过投票的方法进行模型集成。

Bagging的步骤如下：

自助采样：从原始训练集中通过有放回地随机采样生成多个不同的采样集（有些样本可能会被重复采样，有些样本可能被遗漏），每个采样集的大小与原始训练集相同。
基本模型训练：使用每个采样集独立地训练一个基本模型，可以使用相同的学习算法或不同的学习算法。每个模型都是在略有差异的数据子集上进行训练的。
预测整合：对于回归问题，通常将每个基本模型的预测结果进行平均，得到最终的预测值；对于分类问题，则进行投票，选择得票最多的类别作为最终的预测结果。

Bagging的优势在于：

减小方差：由于每个基本模型都是在不同的数据子集上训练的，因此它们之间具有一定的差异性。通过平均或投票整合多个模型的结果，可以减小模型预测的方差，提高整体的泛化能力。
抗过拟合：自助采样会引入一些随机性和变化性，从而减少模型对训练数据的过度拟合。通过构建多个模型并平均它们的预测结果，可以降低过拟合风险。
并行化处理：每个基本模型的训练是相互独立的，因此可以并行地进行训练和预测，提高训练效率。

需要注意的是，Bagging并不能改善模型的偏差（bias），因此如果基本模型本身存在很大的偏差，Bagging可能无法有效提升性能。此外，Bagging方法可能增加模型的复杂度和计算资源消耗，因为需要构建多个模型并进行整合。因此，在使用Bagging时需要权衡集成效果和计算成本之间的平衡。

随机森林RF

定义：在Bagging的基础上再引入了随机特征，进一步提高每个基模型之间的独立性．在随机森林中，每个基模型都是一棵决策树。

随机森林的主要步骤如下：

随机采样：从原始训练集中通过有放回地随机采样得到多个不同的训练子集。每个子集的大小与原始训练集相同，但是可能包含一些重复样本和遗漏样本。
决策树训练：使用每个训练子集独立地训练一个决策树模型。在构建决策树时，对于每个节点的划分，随机选择一部分特征子集作为候选划分特征，从中选择最优特征进行划分。这样可以增加决策树之间的差异性，提高整体集成模型的多样性。
预测整合：对于回归问题，随机森林通过对多个决策树的预测结果进行平均，得到最终的预测值；对于分类问题，则进行投票，选择得票最多的类别作为最终的预测结果。

随机森林的优势在于：

高性能：随机森林在处理大规模数据时具有较好的效率和性能。通过并行训练多个决策树，可以有效利用计算资源。
鲁棒性：随机森林对于缺失值和异常值具有一定的鲁棒性，它可以处理不完整或有噪声的数据集，并且不容易过拟合。
变量重要性评估：通过随机森林，可以对特征的重要性进行评估，帮助选择最相关的特征，并进行特征选择。

需要注意的是，随机森林的参数设置也会影响模型的性能。例如，决策树中的候选划分特征数目、每棵树的最大深度以及随机采样的次数等。合理地选择这些参数可以进一步提高随机森林的性能与泛化能力。

总之，随机森林是一种强大的集成学习方法，可应用于回归、分类和特征选择等任务，且在许多实际问题中取得了优异的表现。

Boosting类方法

个体学习器间存在强依赖关系、必须串行生成的序列化方法

Boosting 类方法是一种集成学习的方法。它通过迭代地训练基本模型，并加权整合它们的预测结果来提高整体模型的性能。相比于 Bagging 类方法， Boosting 方法更注重弱分类器之间的关联。

Boosting 的主要思想是按顺序构建多个基本模型，在每次迭代中关注前一个模型“错分”的样本，尝试对其进行更好的分类。通过不断调整样本权重，让后续模型着重处理前一个模型处理错误的样本。最终，将所有基本模型的预测结果进行加权平均得到最终的预测结果。

Boosting 的步骤如下：

初始化样本权重：将所有样本的权重初始化为相等值。
基本模型训练：迭代训练多个基本模型，每个模型都在上一个模型分类错误的样本上进行训练。
样本权重更新：根据每个基本模型对样本的分类结果，调整每个样本的权重。被错误分类的样本权重会被放大，而被正确分类的样本权重则会缩小。
集成模型整合：将所有基本模型的预测结果进行加权平均，得到最终的预测结果。

常见的 Boosting 方法有 AdaBoost（Adaptive Boosting）、GBDT（Gradient Boosting Decision Tree）等。AdaBoost 是 Boosting 方法的经典算法之一，它通过调整样本权重来训练基本模型的分类器。GBDT 是 Boosting 方法的另一种形式，它通过训练多个决策树并加权组合它们的预测结果来提高模型性能。

Boosting 的优势在于：