机器学习·L2W4-决策树

news2026/2/12 22:47:25

决策树

从根节点的所有示例开始
计算所有可能特征的分割信息增益，并选择信息增益最高的特征
根据所选特征分割数据集，并创建树的左分支和右分支
不断重复分割过程，直到满足停止条件

信息增益

也可以理解为信息熵的减少
$p$ 是结果为positive的概率

$\text{Information Gain} = H(p_1^\text{node})- \left(w^{\text{left}}H\left(p_1^\text{left}\right) + w^{\text{right}}H\left(p_1^\text{right}\right)\right),$

信息熵

与逻辑回归的SparseCategoricalCrossentropy函数定义一致

$H(p_1) = -p_1 \text{log}_2(p_1) - (1- p_1) \text{log}_2(1- p_1)$

一次性编码

用于解决有多个分类的特征

连续型随机变量

设定一个阈值，用于划分左右子树，该阈值使得信息增益最大化。

在这里插入图片描述

回归树

树划分的标准为：

$var_{root}-\left(w_{left}*var_{left}+w_{right}*var_{right}\right)$

在这里插入图片描述
输出的结果为数据集的均值

随机森林

随机森林每次从n个样本中抽取 $\sqrt{n}$ 个特征作为划分的标准，可以避免形成对于特定特征局部一致的决策树

决策树模型中的所有超参数也将存在于此算法中，因为随机森林是许多决策树的集合。

随机森林的另一个超参数称为 n_estimators，它是组成随机森林的决策树的数量。
请记住，对于随机森林，我们随机选择特征子集并随机选择训练示例子集来训练每棵树。
按照讲座，如果n是特征数量，我们将随机选择 $\sqrt{n}$ 这些特征来训练每棵树。请注意，您可以通过设置 max_features 参数来修改它。
您还可以使用另一个参数 n_jobs 加快训练作业的速度。
由于每棵树的拟合彼此独立，因此可以并行拟合多棵树。
因此，将 n_jobs 设置得更高将增加其使用的 CPU 核心数。

model=RandomForestClassifier(min_samples_split=min_samples).fit(X_train,Y_train)
    y_train=model.predict(X_train)
    y_cv=model.predict(X_cv)
    
    accuracy_train=accuracy_score(y_train,Y_train)
    accuracy_cv=accuracy_score(y_cv,Y_cv)
    
    accuracy_list_train.append(accuracy_train)
    accuracy_list_cv.append(accuracy_cv)

XGBOOST

核心思想：刻意挑选哪些训练效果不好(分类或者预测效果差)的样本用于训练决策树

梯度提升模型，称为 XGBoost。提升方法训练多棵树，但它们彼此之间不再互不相关，而是一棵树接一棵树地拟合，以最小化误差。

该模型具有与决策树相同的参数，加上学习率。

学习率是梯度下降法的步骤大小，XGBoost 在内部使用该方法来最小化每个训练步骤中的误差。

XGBoost 的一个有趣之处在于，在拟合过程中，它可以采用形式为 (X_val,y_val) 的评估数据集。

在每次迭代中，它都会测量评估数据集上的成本（或评估指标）。
一旦成本（或指标）在一定轮次（称为 early_stopping_rounds）内停止下降，训练就会停止。
迭代次数越多，估计量就越多，而估计量越多，则会导致过度拟合。

from xgboost import callback
early_stopping = callback.EarlyStopping(rounds=20, save_best=True, maximize=False)
#%%
xgb_model=XGBClassifier(n_estimators=500,learning_rate=0.1)
xgb_model.fit(X_train,Y_train,eval_set=[(X_cv,Y_cv)])