机器学习——决策树特征选择准则

news2026/3/25 8:16:11

机器学习——决策树特征选择准则

决策树是一种强大的机器学习模型，它可以用于分类和回归任务。决策树通过树状结构对数据进行分类，每个内部节点表示一个特征，每个叶节点表示一个类别或一个数值。在决策树构建的过程中，特征的选择准则起着至关重要的作用。本篇博客将介绍决策树模型以及常用的特征选择准则，包括熵和条件熵、信息增益、信息增益比和基尼指数，并通过Python代码实现。

1. 决策树模型

决策树是一种基于树状结构进行决策的模型，它通过一系列的特征测试将数据集分割成不同的子集，直到数据集中的所有样本都属于同一个类别或达到预定义的停止条件为止。决策树有两种类型：分类树和回归树。在分类树中，叶节点表示类别标签；而在回归树中，叶节点表示数值。

2. 特征选择准则

2.1 熵和条件熵

熵是表示随机变量不确定性的度量，定义为：

$-\sum_{i=1}^{n} p(x_i) \log p(x_i)$

其中， $p(x_i)$ 是随机变量 $X$ 取值为 $x_i$ 的概率。

条件熵是在已知随机变量 $Y$ 的条件下，随机变量 $X$ 的不确定性，定义为：

$-\sum_{i=1}^{n} \sum_{j=1}^{m} p(x_i, y_j) \log p(x_i|y_j)$

其中， $p(x_i, y_j)$ 是 $X$ 取值为 $x_i$ 且 $Y$ 取值为 $y_j$ 的联合概率， $p(x_i|y_j)$ 是在已知 $Y$ 的条件下， $X$ 取值为 $x_i$ 的条件概率。

2.2 信息增益

信息增益是特征选择准则中常用的指标，表示在已知某个特征的条件下，对数据集分类的不确定性减少的程度。信息增益越大，说明特征对分类的贡献越大。信息增益的计算公式为：

$\text{Gain}(D, A) = H(D) - H(D|A)$

其中， $D$ 是数据集， $A$ 是某个特征， $H (D)$ 是数据集 $D$ 的熵， $H (D ∣ A)$ 是在已知特征 $A$ 的条件下，数据集 $D$ 的条件熵。

2.3 信息增益比

信息增益比是信息增益与特征自身熵的比值，用于解决信息增益偏向选择取值较多的特征的问题。信息增益比的计算公式为：

$Gain_ratio ( D , A ) = Gain ( D , A ) H A ( D ) \text{Gain\_ratio}(D, A) = \frac{\text{Gain}(D, A)}{H_A(D)}$

其中， $H_A(D)$ 是特征 $A$ 的熵。

2.4 基尼指数

基尼指数是衡量数据集纯度的指标，定义为数据集中随机抽取两个样本，类别不一致的概率。基尼指数越小，数据集的纯度越高。基尼指数的计算公式为：

$\sum_{k=1}^{|\mathcal{Y}|} p_k (1 - p_k)$

其中， $|\mathcal{Y}|$ 是类别的个数， $p_k$ 是数据集 $D$ 中属于类别 $k$ 的样本的比例。

3. Python实现

接下来，让我们通过Python代码实现一个简单的决策树模型，并使用信息增益作为特征选择准则。我们将使用DecisionTreeClassifier类来构建决策树，并在西瓜数据集上进行分类。

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

# 加载西瓜数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建决策树模型
clf = DecisionTreeClassifier(criterion='entropy', random_state=42)
clf.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# 绘制决策树可视化图形
plt.figure(figsize=(12, 8))
plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()