前言

今天给大家带来的主要内容包括：决策树算法、基尼系数和CART决策树算法。废话不多说，下面就是本文的全部内容了！

一、决策树算法

假设有这么一个例子，小明毕业后来到一家银行当行长，上班第一天就有15位客人申请了贷款，刚刚入行的小明仔细整理了客户的基本信息，这些基本信息包括：

是否有工作
是否有固定资产
信誉是否良好

经过深思熟虑后，小明逐一审查了这15份申请，并做了相应批复：

请添加图片描述

图1：贷款申请审批结果

但是小明觉得这工作量实在是太大了，如果可以想一个办法快速的判断一个用户是否可以申请贷款呢？

请添加图片描述

图2：可否自动分类得到贷款的审批结果？

经过几天几夜的努力思考后，小明根据客户的基本信息尝试得出结论：

按照工作为标准。其中五个有工作的用户都被批准了，而另外十个没有工作的客户有四个被批准了，六个被拒绝了

请添加图片描述

图3：按照工作为标准审批贷款申请

如果以少数服从多数为原则的话，可以得出结论：有工作的客户就会被批准，而没有工作的客户就会被直接拒绝。以上方法得到的结果显然和样本绝大部分的结果都相悖，所以按照工作为标准并不可行

按照信誉为标准。其中四个信誉非常好的客户被批准了；信誉良好的有四个客户被批准，两个被拒绝；而信誉一般的只有一个客户被批准，四个被拒绝

请添加图片描述

图4：按照信誉为标准审批贷款申请

如果仍以少数服从多数为原则的话，那么可以得出结论：信誉非常好或者好的客户就会被批准，而信誉一般的客户就直接拒绝。以上方法得到的结果显然和样本绝大部分的结果仍然都相悖，所以按照信誉为标准也不可行

按照工作和信誉为标准。首先考虑工作因素，其中有工作的客户被分类得很好，全部客户的申请都被批准了，没有特例；而没有工作的客户，既有批准的，也有拒绝的。然后按照信誉的等级将剩下的客户分类，可以看到其中信誉非常好的客户和信誉一般的客户都被分类得很好，要不申请都批准了，要不都拒绝了，没有特例；而信誉好的客户的申请更偏向于拒绝

请添加图片描述

图5：按照工作和信誉为标准审批贷款申请

还是以少数服从多数为原则，可以得出结论：如果客户有工作，那么可以批准贷款；如果没有工作，我们再考虑他的信誉情况做出判断。通过以上方法得到的结果的正确率显然比前两种方法的正确率更高一些。这种方法就是利用决策树（Decision Tree）算法进行决策分类的过程，这种方法称为决策树算法的原因就是因为通过判断得到结果的过程分支很像一棵树，故而得名决策树算法

当小明发现决策树算法可以帮他快速进行客户申请的结果判断后，他非常高兴。假设此时有一个新客户的贷款申请，此客户没有工作，但是信誉非常好（忽略房子的因素），小明就可以按照上面介绍的决策树算法直接得出结论：

请添加图片描述

图6：使用决策树算法直接得到贷款审批结果

在刚才的决策树算法中，我们先按照是否有工作分类，又按照信誉等级进行分类，并且只考虑了这两种因素。那么我们目前就面临两个问题：

如果先按照信誉等级分类，再按照工作分类可不可以呢？
如果把是否有房子这个因素也考虑在内，又该按照什么顺序来选择标准呢？

请添加图片描述

图7：如何选择分类标准？

二、CART决策树算法

2.1 基尼系数

刚才我们提到了，应该如何构建决策树呢？应该如何选择合理的因素呢？又应该如何选择多个因素合理的顺序呢？也就是说我们应该选择一个合理的标准，来作为决策树的分类节点，这个时候我们就需要对我们选择的标准进行好坏的判断，而标准的好坏可以用一个值来定义，这个值被称为基尼系数（Gini Index）：
$\operatorname{Gini}=1-\sum_{k=1}^{K} p_{k}^{2}$