集成学习
1. 集成学习概念
集成学习是解决有监督机器学习任务的一类方法,它的思路是基于多个学习算法的集成来提升预测结果,它通过多个模型的组合形成一个精度更高的模型,参与组合的模型成为弱学习器(基学习器)。训练时,使用训练集依次训练出这些弱学习器,对未知的样本进行预测时,使用这些弱学习器联合进行预测。
集成学习通过建立几个模型来解决单一预测问题。它的工作原理是 生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。
2. 集成学习分类的串行和并行学习算法
集成学习算法一般分为:
bagging(同质基学习器并行)----降低方差
boosting(同质基学习器串行)— 降低偏差
Stacking(相当于异质基学习器叠加)
Bagging 与 Boosting的对比
区别一:数据方面
- Bagging:有放回采样
- Boosting:全部数据集,