机器学习算法之–决策树

最经典的机器学习模型之一，成树型结构，决策树的目的是为了产生一颗泛化能力强，处理未见实例能力强的树，通过特征判断不断分类，基本流程遵循“分而治之”的递归分类策略。

一、算法原理

1.1、特征选择

关键就是选取对训练数据具有分类能力的特征，可提高决策树学习的效率。通常特征选择的准则是信息增益或信息增益比。

1.2、信息增益

熵：表示随机变量不确定性的度量；熵越大，随机变量的不确定性就越大。
信息熵：出自香浓的《通信数学原理》，是度量样本集合纯度最常用的一种指标

假定当前样本集合X中第k类样本所占比例： $p_k(k=1,2,...,|y|)$ ,信息熵(Information Entropy)定义为：
$Ent(D)=-\sum_{k=1}^{|y|}p_klog_2p_k$

熵Ent（D）随概率p（x）变化的曲线如下图所示

Ent(D)越小，D纯度越高；熵越大，随机变量的不确定性就越大。
当概率越接近0或1时，信息熵值越小，不确定性越小，数据越纯

条件熵：H（Y|X），表示在已知随机变量X的条件下随机变量Y的不确定性。
信息增益：表示得知特征X的信息而使得类Y的信息的不确定性减少的程度

属性a有V个不同取值 ${a^1,......,a^V \}$ ,若使用a对样本集D进行划分，则会产生V个分支节点， $D^v$ 表示数据集在属性a上取值为 $a^V$ 的样本，根据信息熵公式可计算出该信息熵，再考虑到不同分支包含的样本数不同，给分支节点赋予权重 $\frac{|D^v|}{|D|}$ ，也就是样本数越多的分支结点影响最大，于是便可计算出使用属性a进行划分所获得的“信息增益”（information gain）
$a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$

|D|表示样本容量
其中， $\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$ 称为：条件熵 H(D|A)，表示特征A对训练数据集D的条件熵
一般而言，信息增益越大，意味着使用属性a进行划分所获得的“纯度提升”越大，因此可使用信息增益来进行决策划分的属性选择依据（ID3算法就是使用该原理）

信息增益比：以信息增益作为划分训练数据集的特征，存在偏向于选取取值较多的特征的问题，使得信息增益比可以对这一问题进行校正，这也是特征选择的另一标准

$g_R(D, A)=\frac{Gain(D, a)}{H_a(D)}$
其中Gain（D，a）表示特征信息增益； $H_a(D)$ 表示训练数据集D关于特征a的值的熵，且 $H_a（D）=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D_i|}{|D|}$ ，且概率 $\frac{|D_i|}{|D|}=p_i$

特征选择：特征选择在于选取对训练数据具有分类能力的特征，可以提高决策树学习的效率。通常特征选择的准则是信息增益或信息增益比。

二、决策树的创建（ID3算法）

叶结点对应一个决策结果，其余分支节点对应一个属性测试

信息熵计算：①计算数据集DataSet划分前的信息熵；②遍历所有未作为划分条件的特征，分别计算根据每特征划分的信息熵
特征选择：选择信息增益最大的特征，使用其作为DS划分节点来划分DS
递归：递归处理被划分后的所有子数据集DS，从未被选择的特征中继续进行划分
终止：①直到所有特征都用完，终止决策；②或者当划分后的信息增益足够小，也停止决策

算法模拟：
输入：训练数据集D，特征集A，阈值 $\epsilon$
输出：决策树T

若D中所有实例属于同一类 $C_k$ ，则T为单结点树，并将类 $C_k$ 作为该结点的类标记并返回T
若A=空集，则T为单结点树，并将D中实例数最大的类 $C_k$ 作为该结点类标记并返回T
否则，计算A中各特征对D的信息增益，选择信息增益最大的特征 $A_g$
如果 $A_g$ 信息增益小于某阈值 $\epsilon$ ，则置T为单结点树，并将D中实例数最大的类 $C_k$ 作为该结点类标记，并返回T
否则，对于 $A_g$ 每一个可能值 $a_i$ ，依 $A_g=a_i$ 将D分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子结点，由节点及其子节点构成树T，返回T
对第i个子结点，以 $D_i$ 为训练集，以 $A-{A_g}$ 为特征集，递归地调用前5步，得到子树 $T_i$ ，返回 $T_i$