【机器学习】监督学习算法之：决策树

决策树

1、引言
2、决策树
- 2.1 定义
- 2.2 原理
- 2.3 实现方式
- 2.4 算法公式
- - 2.4.1 信息增益公式
  - 2.4.2 信息增益率公式
- 2.5 代码示例
3、总结

1、引言

小屌丝：鱼哥，我被你骗了。
小鱼：… 别闹，我怎么可能骗你呢。
小屌丝：你上次说的去泡澡
小鱼：嗯，然后呢。
小屌丝：然后咱俩去的是啥地方
小鱼：…嗯… 这个… 是泡澡的地方啊
小屌丝：你可拉倒吧。
小鱼：那我问你，咱俩去没去泡澡。
小屌丝：去了啊。
小鱼：那咱俩泡澡的地方有没有汗蒸房
小屌丝：有啊。
小鱼：那咱俩泡澡的地方，有没有提供饮料。
小屌丝：有啊
小鱼：那咱俩泡澡的地方，有没有敲背。
小屌丝：有啊…
小鱼：那咱俩泡完澡，有没有吃夜宵。
小屌丝：… 也有啊
小鱼：你看，你都说了，这个流程咱都有，你咋说我骗你呢。
小屌丝：…但不，咱去的泡澡的地方跟原来的不一样
小鱼： …哪不一样了。

在这里插入图片描述
小屌丝：你看，这就是你说你请我去的泡澡的地方。
小鱼：那你说，这次咱俩洗完澡，是不是比平时更舒服了
小屌丝：这么一说，确实是这样的。
小鱼：而且冬天了，咱也得感受一下东北的搓澡文化。
小屌丝：…这么一说，那下次，咱还去这搓澡。
小鱼：你这还喜欢上搓澡了。

2、决策树

2.1 定义

决策树算法是一种常用的机器学习算法，它主要用于分类和回归问题。

该算法通过构建一棵树状结构来对输入数据进行分类或预测。

决策树算法的核心思想是基于一系列的特征对数据集进行分割，使得每个分割后的子集能够更好地满足某种条件，从而逐步逼近最终的分类或预测结果。

2.2 原理

是通过对数据集进行递归地划分，使得每个划分子集中的数据尽可能地相似。

通过计算不同特征的信息增益或基尼不纯度等指标，选择最佳的划分特征。

在划分的过程中，会逐渐减小不确定性，使得每个子集内的数据更加纯净。

2.3 实现方式

决策树的实现通常包括以下几个步骤：

特征选择：选择最优特征进行划分，常用的特征选择方法有信息增益、增益率、基尼不纯度等。
决策树生成：递归地划分数据集，生成决策树。常用的划分准则是完全划分，即每个子集只包含同一类别的数据。
剪枝：对生成的决策树进行剪枝，以提高模型的泛化能力。常见的剪枝策略有预剪枝和后剪枝。
决策树评估：使用测试数据对决策树进行评估，常用的评估指标有准确率、精确率、召回率和F1分数等。

2.4 算法公式

决策树算法的实现方式可以有多种，包括：

ID3算法：ID3算法使用信息增益来选择最佳划分特征
C4.5算法：C4.5算法使用信息增益率来选择最佳划分特征
CART算法：CART算法则使用基尼不纯度来选择最佳划分特征
…

2.4.1 信息增益公式

信息增益公式如下：
$\sum_{v=1}^{V}\frac{|D_v|}{|D|}Entropy(D_v)$
$D$ 表示原始数据集， $A$ 表示待选择的划分特征， $V$ 表示特征 $A$ 的取值集合， $D_v$ 表示特征 $A$ 取值为 $v$ 的子集， $∣ D ∣$ 表示数据集的样本个数， $D_v|$ 表示子集 $D_v$ 的样本个数。

2.4.2 信息增益率公式

信息增益率公式如下：
$Gain\_Ratio(D, A) = \frac{Gain(D, A)}{Split\_Info(D, A)}$

其中， $Split\_Info(D, A)$ 表示特征 $A$ 的分裂信息，用于避免对具有较多取值的特征偏好。

基尼不纯度公式如下：
$\sum_{k=1}^{K}(p_k)^2$
$K$ 表示类别的个数， $p_k$ 表示属于类别 $k$ 的样本在数据集 $D$ 中的比例。

2.5 代码示例

# -*- coding:utf-8 -*-
# @Time   : 2024-01-21
# @Author : Carl_DJ

'''
实现功能：
    实现了一个简单的决策树分类器，其中包含了
      信息熵和基尼指数的计算函数，
      构建决策树、预测的方法

'''


import numpy as np

# 定义熵函数，计算给定标签集合的熵（信息熵）
def entropy(y):
    # 获取y中所有唯一值及其出现次数
    _, counts = np.unique(y, return_counts=True)
    # 计算每个类别的概率
    probabilities = counts / len(y)
    # 根据香农熵公式计算熵值
    return -np.sum(probabilities * np.log2(probabilities))

# 定义基尼不纯度指数函数，计算给定标签集合的基尼指数
def gini(y):
    # 同样获取y中所有唯一值及其出现次数
    _, counts = np.unique(y, return_counts=True)
    # 计算每个类别的概率
    probabilities = counts / len(y)
    # 根据基尼指数公式计算基尼不纯度
    return 1 - np.sum(probabilities**2)

# 定义信息增益计算函数，基于某个特征列计算划分数据集的信息增益
def information_gain(X, y, feature_index):
    # 计算原始数据集的熵（或基尼指数）作为总熵
    total_entropy = entropy(y)
    # 获取特征列feature_index上所有唯一值及其出现次数
    values, counts = np.unique(X[:, feature_index], return_counts=True)
    # 计算每个特征值对应的子集熵，并加权求和得到信息增益
    weighted_entropies = []
    for value, count in zip(values, counts):
        subset_y = y[X[:, feature_index] == value]
        # 子集的熵
        subset_entropy = entropy(subset_y)
        # 加权后的熵
        weighted_entropies.append(subset_entropy * count / len(y))
    # 总熵减去加权子集熵之和即为信息增益
    return total_entropy - np.sum(weighted_entropies)

# 定义基尼指数增益计算函数，与信息增益类似，但使用基尼指数代替熵
def gini_index(X, y, feature_index):
    # 计算原始数据集的基尼指数作为总基尼指数
    total_gini = gini(y)
    # 获取特征列feature_index上所有唯一值及其出现次数
    values, counts = np.unique(X[:, feature_index], return_counts=True)
    # 计算每个特征值对应的子集基尼指数，并加权求和得到基尼指数增益
    weighted_ginis = []
    for value, count in zip(values, counts):
        subset_y = y[X[:, feature_index] == value]
        # 子集的基尼指数
        subset_gini = gini(subset_y)
        # 加权后的基尼指数
        weighted_ginis.append(subset_gini * count / len(y))
    # 总基尼指数减去加权子集基尼指数之和即为基尼指数增益
    return total_gini - np.sum(weighted_ginis)

# 定义决策树类
class DecisionTree:
    # 初始化方法，设置最大深度和分裂标准（默认为基尼指数）
    def __init__(self, max_depth=None, criterion='gini'):
        self.max_depth = max_depth
        self.criterion = criterion

    # 训练方法，构建决策树模型
    def fit(self, X, y):
        # 调用私有方法构建决策树
        self.tree = self._build_tree(X, y)

    # 预测方法，根据输入样本X预测类别
    def predict(self, X):
        # 对于每个样本x，遍历决策树进行预测，并将结果存放在数组中
        return np.array([self._traverse_tree(x, self.tree) for x in X])

    # 私有方法，递归构建决策树
    def _build_tree(self, X, y, depth=0):
        # 如果达到最大深度或者所有样本标签相同，则返回该标签作为叶子节点
        if depth == self.max_depth or len(np.unique(y)) == 1:
            return np.bincount(y).argmax()
        
        # 选择最优特征并根据最优特征划分数据集
        best_feature = self._select_best_feature(X, y)
        tree = {best_feature: {}}
        
        # 获取当前最佳特征的所有可能取值
        values = np.unique(X[:, best_feature])
        for value in values:
            # 根据特征值筛选出子集，并对子集继续构建子树
            subset_X = X[X[:, best_feature] == value]
            subset_y = y[X[:, best_feature] == value]
            tree[best_feature][value] = self._build_tree(subset_X, subset_y, depth + 1)
        
        # 返回当前结点及其包含的子树
        return tree

    # 私有方法，选择最优特征（根据信息增益或基尼指数）
    def _select_best_feature(self, X, y):
        # 根据设定的标准选取相应的评价函数
        if self.criterion == 'gini':
            criterion_func = gini_index
        elif self.criterion == 'entropy':
            criterion_func = information_gain
        else:
            raise ValueError("Invalid criterion.")
        
        # 遍历所有特征，找到具有最高信息增益/基尼指数增益的特征
        best_feature = None
        best_score = -np.inf
        for feature_index in range(X.shape[1]):
            score = criterion_func(X, y, feature_index)
            if score > best_score:
                best_score = score
                best_feature = feature_index
        
        # 返回最优特征索引
        return best_feature

    # 私有方法，遍历决策树进行预测
    def _traverse_tree(self, x, tree):
        # 如果当前结点是字典类型（非叶节点），则继续深入决策树
        if isinstance(tree, dict):
            feature_index = list(tree.keys())[0]
            value = x[feature_index]
            subtree = tree[feature_index][value]
            return self._traverse_tree(x, subtree)
        # 如果当前结点不是字典类型（叶节点），则返回预测类别
        else:
            return tree