参考

b站视频【决策树、随机森林】附源码！！超级简单，同济大佬手把手带你学决策树
决策树模型及案例（Python）
决策树之基尼系数该文章的公式理解可能不对，但提供了思路。
【概率论】1-4:事件的的并集(Union of Events and Statical Swindles) 并集的概率

决策树指标

决策树有多种可选的形态，那么如何确定哪种决策树是更好的呢？有两种指标可以使用：

基尼系数
信息熵、信息增益

基尼系数

基础公式

基尼系数是一种评估决策树好坏的指标。他反映了决策树对样本分类的离散情况。假设样本集合为T，分为了若干个类别，每个类别在样本集合T中占的比例为 $p_i$ 。它的计算公式如下：
$\operatorname{gini}(T)=1-\sum p_{i}^{2}$

举个例子，假设某个员工的样本集合里都是离职员工，所以该集合只有"离职员工"一个类别，其出现的频率是100%。所以该系统的基尼系数为 $1-1^2＝0$ ，表示该系统没有混乱，或者说该系统的“纯度”很高。而如果样本中一半是离职员工，另一半是未离职员工，那么类别个数为2，每个类别出现的频率都为50%，所以其基尼系数为 $1-（0.5^2＋0.5^2）＝0.5$ ，其混乱程度很高。

公式理解

如何理解这个公式的含义？我们举个例子，假设有个贷款人员的样本集合，有贷款人员是否违约的二分类问题，1表示违约，0表示不违约。现在问：任取两个样本，它们属于同一类别的概率是多少？两个样本同属第一个类别的概率为 $P_1=p_1^2$ ，同属第二个类别的概率为 $P_2=p_2^2$ 。所以，两个样本同属一个类别的概率如下：
$\begin{aligned} Pr(P_1 \cup P_2)&=Pr(P_1)+Pr(P_2)-Pr(P_1 \cap P_2) \\ &=Pr(P_1)+Pr(P_2) \qquad \text{两个样本不可能同时都属于多个类别} \\ &=p_1^2+p_2^2 \end{aligned}$
所以，两个样本不属于同一类别的概率为 $1-Pr(P_1 \cup P_2)=1-p_1^2-p_2^2=gini(T)$ 。在二分类问题中，基尼系数的含义就是随机采样的两个样本不属于同一类别的概率。

该说法在多分类问题中一样成立。参考【概率论】1-4:事件的的并集(Union of Events and Statical Swindles)给出的公式：

图中的并集元素项都等于0，所以任取两个样本，都属于同一类别的概率为 $\operatorname{Pr}\left(\bigcup_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{A}_{\mathrm{i}}\right)=\sum_{\mathrm{i}=1}^{\mathrm{n}} \operatorname{Pr}\left(\mathrm{A}_{\mathrm{i}}\right)=\sum_{\mathrm{i}=1}^{\mathrm{n}}p_i^2$ 。所以任取两个样本，不属于同一类别的概率为 $1-\sum_{\mathrm{i}=1}^{\mathrm{n}}p_i^2$ ，该说法得证。在多分类问题中，基尼系数的含义也是同样的。

引入划分后的公式

当引入某个用于划分样本空间的条件（如“满意度＜5”）时，分类后的基尼系数公式如下，其中S1、S2为划分后的两类各自的样本量， $gini(T_1)$ 、 $gini(T_2)$ 为两类各自的基尼系数。

$\operatorname{gini}(T)=\frac{S_{1}}{S_{1}+S_{2}} \operatorname{gini}\left(T_{1}\right)+\frac{S_{2}}{S_{1}+S_{2}} \operatorname{gini}\left(T_{2}\right)$

举个例子，一个初始样本中有1000个员工，其中已知有400人离职，600人不离职，划分前该系统的基尼系数为 $1-（0.4^2＋0.6^2）＝0.48$ 。
下面采用两种方式决定根节点：一是根据“满意度＜5”进行分类；二是根据“收入＜10000元”进行分类。

划分方式1：以“满意度＜5”为根节点进行划分，如下图所示，1000个员工中，200个人是满意度<5的，另外有800个人满意度>=5。计算过程如下。

T1的基尼系数： $gini(T_1)＝1-（1^2＋0^2）＝0$
T2的基尼系数： $gini(T_2)＝1-（0.25^2＋0.75^2）＝0.375$
综上，划分后的基尼系数就是
$\begin{aligned} \operatorname{gini}(T)&= \frac{200}{1000} \times 0+ \frac{800}{1000} \times 0.375= 0.3 \end{aligned}$

划分方式2：以“收入＜10000元”为根节点进行划分，如下图所示，1000个员工中，有400个人收入小于10000元，另外600人收入>=10000元计算过程如下。

T1的基尼系数： $gini（T1）＝1-（0.25^2＋0.75^2）＝0.375$
T2的基尼系数： $gini（T2）＝1-（0.5^2＋0.5^2）＝0.5$

综上，划分后的基尼系数就是
$\begin{aligned} \operatorname{gini}(T)&= \frac{400}{1000} \times 0.375+ \frac{600}{1000} \times 0.5= 0.45 \end{aligned}$

可以看到，划分前的基尼系数为0.48，以“满意度＜5”为根节点进行划分后的基尼系数为0.3，而以“收入＜10000元”为根节点进行划分后的基尼系数为0.45。基尼系数越低表示系统的混乱程度越低（纯度越高），区分度越高，越适合用于分类预测，因此这里选择“满意度＜5”作为根节点。

划分后公式的理解

如何理解划分后的基尼系数公式？在划分前，样本空间是全集。划分将决策树的分为了若干个树节点，每个树节点相当于一个样本空间子集。所以公式中将各个划分样本计算基尼系数后，按权重相加的方式，相当于计算每个划分样本空间基尼系数的加权和。

信息熵、信息增益

这里建议阅读原文决策树模型及案例（Python），对某个样本空间X计算信息熵的公式为：
$H(X)=-\sum p_{i} \log _{2}\left(p_{i}\right) \quad\left(i=1,2 \ldots \ldots{ }{\text n}\right)$
进行某种变量A划分后(比如“满意度＜5”)，信息熵的计算公式如下。则根据变量A划分后的信息熵又称为条件熵。
$H_{A}(X)=\frac{S_{1}}{S_{1}+S_{2}} H\left(X_{1}\right)+\frac{S_{2}}{S_{1}+S_{2}} H\left(X_{2}\right)$