1 主要思想
集成学习: 三个臭裨将, 顶个诸葛亮
- Bagging: 数据随机重抽样, 并行构建分类器, 投票;
- Boosting: 关注被错分的样本, 串行构建分类器, 加权投票。
2 理论
AdaBoost (Adaptive Boosting)示意图1
错误率:
ε
=
E
N
\varepsilon = \frac{E}{N}
ε=NE
其中
N
N
N为实例数量,
E
E
E为错分数量
样本权重:
α
=
1
2
ln
(
1
−
ε
ε
)
\alpha = \frac{1}{2} \ln (\frac{1 - \varepsilon}{\varepsilon})
α=21ln(ε1−ε)
正确分类样本权重:
D
i
t
+
1
=
D
i
t
e
−
α
∑
D
D_i^{t + 1} = \frac{D_i^t e^{-\alpha}}{\sum D}
Dit+1=∑DDite−α
错误分类样本权重:
D
i
t
+
1
=
D
i
t
e
α
∑
D
D_i^{t + 1} = \frac{D_i^t e^{\alpha}}{\sum D}
Dit+1=∑DDiteα