CART 回归树中的公式详细讲解

news2024/10/6 19:15:14

本文将说明CART 回归树这些公式是如何在整个构建过程中发挥作用的。

CART 回归树的核心思想

CART（分类与回归树）既可以用于分类任务，也可以用于回归任务。在回归任务中，CART 回归树的目标是对连续型目标变量进行预测（例如预测房价、温度等）。与线性回归等方法不同，CART 回归树通过递归地将特征空间划分成多个区域，然后在每个区域中使用该区域内样本的目标均值来进行预测。

通过将数据集分成多个子集，CART 回归树能够很好地拟合非线性数据。其基本流程如下：

递归选择最优的特征和分裂点，划分数据集。
在每个划分区域内，使用该区域中的目标均值作为该区域的预测值。
通过最小化误差平方和来选择划分特征和分裂点。

CART 回归树的建模过程（公式 7-10）

$\sum_{m=1}^{M} c_m I(x \in R_m)$

公式 7-10 是 CART 回归树的预测模型表达式，描述了如何为每个输入 $x$ 生成预测值。

$f (x)$ ：CART 回归树对于输入 $x$ 的预测输出值。
$R_m$ ：特征空间中的第 $m$ 个划分区域。CART 回归树通过划分特征空间，将数据集分成 $M$ 个不重叠的区域。
$c_m$ ：区域 $R_m$ 内的预测值（常数）。通常来说，它是该区域内目标变量 $y$ 的均值（即公式 7-11 中描述的计算方式）。
$\in R_m)$ ：指示函数，当 $x$ 位于区域 $R_m$ 中时，该函数为 1，否则为 0。

该公式的含义是：给定一个输入 $x$ ，CART 回归树会找到 $x$ 所属的划分区域 $R_m$ ，并返回该区域的预测值 $c_m$ 作为模型的输出。这种模型基于二叉树结构来递归划分数据，使得每个区域都包含类似的目标值。

预测过程：

对于输入样本 $x$ ，模型会通过决策树的划分找到其所属的区域 $R_m$ 。
输出 $f (x)$ 就是区域 $R_m$ 对应的常数 $c_m$ ，即 $R_m$ 内所有样本的目标均值。

这种方法使得 CART 回归树非常灵活，能够捕捉数据中的复杂模式，而不是简单的线性关系。

如何确定区域内的输出值（公式 7-11）

$c_m = \text{average}(y_i | x_i \in R_m)$

公式 7-11 详细描述了如何计算区域 $R_m$ 的预测值 $c_m$ 。也就是说，区域 $R_m$ 的预测值是所有位于该区域内的样本的目标均值。

$y_i$ ：是第 $i$ 个样本的真实目标值。
$x_i \in R_m$ ：表示样本 $x_i$ 属于区域 $R_m$ 。

公式含义：

该公式表明，对于属于区域 $R_m$ 的所有样本 $x_i$ ，其目标值 $y_i$ 的均值就是该区域的预测值 $c_m$ 。这种方式保证了在该区域内的所有样本都会有一个相同的预测值。

举例说明：

假设我们有 5 个样本 $x_1, y_1), (x_2, y_2), (x_3, y_3), (x_4, y_4), (x_5, y_5)$ ，其中 $x_1, x_2, x_3$ 属于区域 $R_1$ ，而 $x_4, x_5$ 属于区域 $R_2$ 。那么，区域 $R_1$ 的预测值 $c_1$ 将是 $y_1, y_2, y_3$ 的均值，区域 $R_2$ 的预测值 $c_2$ 将是 $y_4, y_5$ 的均值。

这个公式的核心思想是：在每个区域中，使用目标变量的平均值来作为该区域的预测值。

如何划分数据集（公式 7-12）

$R_1(j, s) = \{ x | x^{(j)} \leq s \}, \quad R_2(j, s) = \{ x | x^{(j)} > s \}$

公式 7-12 描述了 CART 回归树在训练过程中如何基于某个特征 $j$ 和分裂点 $s$ 将数据集划分为两个子集（区域）。

$j$ ：表示用于划分数据集的特征索引。
$s$ ：特征 $j$ 上的划分点（阈值）。
$R_1(j, s)$ ：所有第 $j$ 个特征的值小于等于 $s$ 的数据点构成的区域。
$R_2(j, s)$ ：所有第 $j$ 个特征的值大于 $s$ 的数据点构成的区域。

公式含义：

CART 回归树会选择某个特征 $j$ 以及该特征上的某个取值 $s$ 作为分裂点，将数据集划分为两个子区域 $R_1(j, s)$ 和 $R_2(j, s)$ 。其中：

所有特征值 $x^{(j)} \leq s$ 的样本被划分到 $R_1$ ；
所有特征值 $x^{(j)} > s$ 的样本被划分到 $R_2$ 。

举例说明：

假设我们在数据集中有一个特征 “房屋面积” $X$ ，并且我们选择 1300 平方英尺作为分裂点 $s$ ，则：

所有房屋面积小于等于 1300 平方英尺的样本 $x$ 会被划分到 $R_1$ ；
所有房屋面积大于 1300 平方英尺的样本 $x$ 会被划分到 $R_2$ 。

通过不断地划分数据集，CART 回归树会生成一棵二叉树，每个节点都是根据一个特征和分裂点划分出来的。

如何选择最佳划分（公式 7-13）

$\min_{j, s} \left[ \min_{c_1} \sum_{x_i \in R_1(j, s)} (y_i - c_1)^2 + \min_{c_2} \sum_{x_i \in R_2(j, s)} (y_i - c_2)^2 \right]$

公式 7-13 是 CART 回归树中用于选择最佳特征和分裂点的关键公式。它描述了如何选择特征 $j$ 和分裂点 $s$ ，使得划分后的两个子区域的误差平方和最小。

$j$ ：表示用于划分数据的特征索引。
$s$ ：特征 $j$ 上的分裂点（取值）。
$R_1(j, s)$ 和 $R_2(j, s)$ ：通过特征 $j$ 和分裂点 $s$ 将数据划分为的两个子区域。
$c_1$ 和 $c_2$ ：是区域 $R_1$ 和 $R_2$ 内的预测值（即每个区域目标值的均值）。

公式的含义：

内层最小化 $c_1$ 和 $c_2$ ：对于每个区域 $R_1(j, s)$ 和 $R_2(j, s)$ ，找到最佳常数值 $c_1$ 和 $c_2$ ，使得平方误差最小。换句话说， $c_1$ 和 $c_2$ 就是区域 $R_1$ 和 $R_2$ 的均值，它们能最小化各自区域内的误差。
**外层最小化 $j$ 和 (

s$**：CART 算法通过遍历所有特征 $j$ 以及每个特征的所有可能分裂点 $s$ ，找到能使整个数据集的误差平方和最小的特征 $j$ 和分裂点 $s$ 。

最终，CART 回归树通过选择能够最小化误差的特征和分裂点，保证每次划分后的区域能够更好地拟合数据。

举例说明：

假设我们有一个房价预测任务，特征是房屋面积 $X$ 。算法会尝试多个可能的划分点（如 1200、1300、1500 平方英尺等），并计算每个划分后的两个区域的平方误差。最终选择使得两个区域误差平方和最小的划分点。

综合总结

CART 回归树的构建可以分为以下几个关键步骤：

模型结构（公式 7-10）：CART 回归树通过将特征空间划分为多个子区域 $R_m$ ，并为每个区域指定一个常数值 $c_m$ 来进行预测。
区域预测值的确定（公式 7-11）：在每个区域 $R_m$ 中，使用区域内目标变量的均值 $c_m$ 作为该区域内所有样本的预测值。这确保了区域内所有样本的预测值是相同的。
数据集划分（公式 7-12）：CART 回归树通过特征 $j$ 和分裂点 $s$ 将数据集划分为两个子区域 $R_1(j, s)$ 和 $R_2(j, s)$ 。这种划分是基于某个特定特征的取值范围进行的。
选择最佳划分（公式 7-13）：CART 回归树通过最小化划分后两个区域内的误差平方和，来选择最佳的特征和分裂点，从而确保每次划分能够减少整体的预测误差。