目录
- 题目1:下面关于提升树的说法哪个是正确的?
- 题目2:下面关于随机森林和梯度提升集成方法的说法哪个是正确的?
- 集成学习主要有哪几种框架?工作过程是?
题目1:下面关于提升树的说法哪个是正确的?
(1)在提升树中,每个弱学习器是相互独立的
(2)这是通过对弱学习器的结果进行综合来提升能力的方法
答案:2
在提升树中,每个弱学习器不是相互独立的,因为每棵树都纠正了前一棵树的结果。Bagging和Boosting都可以被认为是提高基础学习器能力的方法。
题目2:下面关于随机森林和梯度提升集成方法的说法哪个是正确的?
(1)这两种方法都可以用来做分类和回归
(2)随机森林可以降低模型的偏差
(3)梯度提升可以降低模型的方差
(4)使用cart树作为随机深林的基学习器, 树的最大深度可以设置的大一些
答案:1和4
两种方法既可以做分类又可以做回归。
bagging:降低方差;
boost:降低偏差.
弱学习器max_depth大会导致高方差,bagging的集成方法可以降低方差, 所以决策树的max_depth大一些没有问题
集成学习主要有哪几种框架?工作过程是?
集成学习的集成框架主要有:Bagging,Boosting和Stacking,其中Bagging和Boosting为同质集成,而Stacking为异质集成。
(1)Bagging(Bootstrap Aggregating)
Bagging的核心思想为并行地训练一系列各自独立的同类模型,然后再将各个模型的输出结果按照某种策略进行聚合。例如,分类中可以采用投票策略,回归中可以采用平均策略。Bagging主要分为两个阶段:
Boostrap阶段,即采用有放回的采样方式,将训练集分为n个子样本集;并用基学习器对每组样本分布进行训练,得到n个基模型;
Aggregating阶段,将上一个阶段训练得到的n个基模型组合起来,共同做决策。在分类任务中,可采用投票法,比如相对多数投票法,将结果预测为得票最多的类别。而在回归任务中可采用平均法,即将每个基模型预测得到的结果进行简单平均或加权平均来获得最终的预测结果。
(2)Stacking
Stacking的核性思想是并行地训练一系列各自独立的不同类模型,然后通过训练一个元模型(meta-model)来将各个模型输出结果进行结合。Stacking也可以分为两个阶段:
分别采用全部的训练样本来训练n个组件模型,要求这些个体学习器必须异构的,比如可以分别是线性学习器,SVM,决策树模型和深度学习模型。
训练一个元模型(meta-model)来将各个组件模型的输出结果进行结合,具体过程就是将各个学习器在训练集上得到的预测结果作为训练特征和训练集的真实结果组成新的训练集;然后用这个新组成的训练集来训练一个元模型。这个元模型可以是线性模型或者树模型。
(3)Boosting
Boosting的核心思想为串行地训练一系列前后依赖的同类模型,即后一个模型用来对前一个模型的输出结果进行纠正。Boosting算法是可以将弱学习器提升为强学习器的学习算法。学习过程是:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本进行调整,使得先前基学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行。直至基学习器数目达到实现指定的值n,最终将这n个基学习器进行结合。
备注:
随机森林步骤
AdaBoost步骤:
心得:集成学习作为机器学习部分最后一节,主要讲述了Bagging和Boosting两个框架的核心思想,掌握其中的原理,通过做题查漏补缺