【机器学习导引】ch2-模型评估与选择

文章目录

经验误差与过拟合（Empirical error &overfitting）
- - 1. **均方误差（Mean Squared Error, MSE）**
  - 2. **均方根误差（Root Mean Squared Error, RMSE）**
  - 3. **平均绝对误差（Mean Absolute Error, MAE）**
  - 4. **交叉熵损失（Cross Entropy Loss）**
  - 5. **Hinge 损失**
  - 6. **Huber 损失**
  - 7. **KL 散度（Kullback-Leibler Divergence）**
  - 8. **Softmax 损失**
  - 总结：
评估方法（Evaluation method）
性能度量（Performance measure）
- 错误率与精度
- - 总结：
- 查准率、查全率与F1
- - 混淆矩阵（Confusion Matrix）：
  - 查准率（Precision, P）：
  - 查全率（Recall, R）：
  - F1值（F1 Score）：
  - 总结：
- 案例分析：垃圾邮件识别
- ROC与AUC
- - ROC曲线：
  - 真正例率（True Positive Rate, TPR）：
  - 假正例率（False Positive Rate, FPR）：
  - AUC（Area Under ROC Curve）：
  - 总结：
- 代价敏感错误率与代价曲线
- - 背景：
  - 公式解释：
  - 代价因素：
  - 解释：
  - 实际应用：
  - 总结：
偏差与方差（Bias and Variance）
- 泛化误差分解公式：
- - 各项含义：
  - 结论：

经验误差与过拟合（Empirical error &overfitting）

经验误差是指学习器 $f$ 在训练集上表现出的误差。公式为：

$R_{emp}(f) = \frac{1}{m} \sum_{i=1}^{m} L(f(x_i), y_i)$

其中 $L(f(x_i), y_i)$ 是损失函数，表示模型在训练样本 $x_i, y_i)$ 上的误差。
泛化误差是指学习器 $f$ 在未来的未见样本上所表现出的误差。公式为：

$\mathbb{E}[L(f(x), y)] = \int L(f(x), y) dP(x, y)$
- 这里 $P (x, y)$ 是样本的真实分布， $L (f (x), y)$ 表示模型对新的样本 $(x, y)$ 的误差。
- 公式右侧的积分表达式说明了**泛化误差是模型在整个真实数据分布下的平均误差，**即模型不仅要在训练数据上表现好，还需要在未来可能遇到的未知样本上表现良好。

要点：

经验误差并非越小越好，因为过度减小经验误差可能导致模型过拟合（即模型在训练集上表现非常好，但在新样本上表现差）。
常见的损失函数与适用范围

1. 均方误差（Mean Squared Error, MSE）
- 公式： $\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2$
- 适用场景：主要用于回归任务，例如预测房价或气温。
- 解释：MSE 计算的是真实值 $y_i$ 与预测值 $\hat{y_i}$ 之间的平方差。这个损失函数惩罚较大的误差，因此对异常值较为敏感。
2. 均方根误差（Root Mean Squared Error, RMSE）
- 公式： $\sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2}$
- 适用场景：同样适用于回归任务，其单位与输出变量一致，因此易于解释。
- 解释：与 MSE 类似，但在计算后进行了平方根处理，避免了过度放大大误差的影响。
3. 平均绝对误差（Mean Absolute Error, MAE）
- 公式： $\frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y_i}|$
- 适用场景：用于回归任务，但相比 MSE 更加鲁棒，适用于异常值较多的场景。
- 解释：MAE 计算的是预测值与真实值之间的绝对误差，所有误差的权重相同，因此对异常值的影响较小。
4. 交叉熵损失（Cross Entropy Loss）
- 公式：对于二分类问题：
  
  $\frac{1}{n} \sum_{i=1}^{n} [y_i \log \hat{y_i} + (1 - y_i) \log (1 - \hat{y_i})]$
- 适用场景：主要用于分类任务，例如二分类任务（如猫和狗的分类）、多分类任务（如手写数字识别）。
- 解释：交叉熵损失衡量的是两个概率分布之间的差异，预测值 $\hat{y_i}$ 越接近真实值 $y_i$ ，损失越小。
5. Hinge 损失
- 公式： $\hat{y}) = \max(0, 1 - y \cdot \hat{y})$
- 适用场景：主要用于**支持向量机（SVM）**等分类模型。
- 解释：当样本的预测结果 $\cdot \hat{y} \geq 1$ 时，损失为 $0$ ；当预测错误时，损失会增加。Hinge 损失用于区分模型的预测结果是否足够有信心。
6. Huber 损失
- 公式：
  
  $L_{\delta}(a) = \begin{cases} \frac{1}{2}a^2 & \text{if } |a| \leq \delta \\ \delta(|a| - \frac{1}{2}\delta) & \text{otherwise} \end{cases}$
- 适用场景：用于回归任务，尤其在需要平衡鲁棒性和异常值敏感性时。
- 解释：Huber 损失在误差较小时表现为均方误差（MSE），在误差较大时表现为平均绝对误差（MAE），因此在处理异常值时更加稳健。
7. KL 散度（Kullback-Leibler Divergence）
- 公式：
  
  $D_{KL}(P || Q) = \sum_{i} P(i) \log \frac{P(i)}{Q(i)}$
- 适用场景：用于测量两个概率分布之间的差异，常用于生成模型或自监督学习。
- 解释： $K L$ 散度度量了真实分布 $P$ 与预测分布 $Q$ 之间的信息损失，越接近越好。
8. Softmax 损失
- $\frac{1}{N} \sum_{i=1}^{N} \log \frac{e^{\hat{y_i}}}{\sum_{j} e^{\hat{y_j}}}$
- 适用场景：通常用于多分类问题的神经网络输出层，结合交叉熵损失。
- 解释： $S o f t ma x$ 损失将多个分类的输出归一化为概率分布，并计算与真实标签的交叉熵损失。
总结：
- 回归任务：常用 MSE、MAE、Huber 损失等。
- 分类任务：常用交叉熵损失、Hinge 损失、Softmax 损失等。
- 生成模型/概率测量：常用 KL 散度等。
损失函数的选择取决于具体的任务类型、数据特性以及模型需求。

评估方法（Evaluation method）

留出法 (Hold-out method)：

这是最简单的验证方法之一，将数据集分成两个或三个部分：训练集和测试集（有时还有验证集）。训练集用于训练模型，测试集用于评估模型的性能。常见的划分比例是70%用于训练，30%用于测试。这种方法简单直接，但在数据量较小时可能不够稳定。
交叉验证法 (Cross-validation)：

交叉验证是一种比留出法更可靠的验证技术。最常见的是 k折交叉验证。数据集被分成k个相同大小的部分，模型训练k次，每次使用一个不同的部分作为测试集，其余部分作为训练集。这样可以更好地减少模型性能估计的方差，提供更稳定的结果。
自助法 (Bootstrapping)：
- 自助法是一种重采样技术，数据点从数据集中随机选取，允许有放回地抽样，以创建多个新的训练集。这种方法在数据集较小时尤其有用，因为它可以通过创建许多样本来帮助估计模型性能的不确定性。自助法主要用于估计统计量的分布或不确定性。
- 通过自助法，初始数据集 $D$ 中约有 $\%$ 的样本未被采样到数据集 $D$ ’ 中。
调参与最终模型 (Parameter tuning and final model)：

这指的是调整模型的超参数以优化性能的过程。常用的方法包括网格搜索（Grid Search）和随机搜索（Random Search），它们用于找到最佳的参数组合。在找到最佳参数之后，最终模型会在整个训练集上进行训练，并在测试集上评估模型的性能。

性能度量（Performance measure）

错误率与精度

错误率：
- 错误率表示模型预测错误的比例。公式如下：
  
  $\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}(f(x_i) \neq y_i)$
  
  其中：
  - $m$ 是数据集中的样本总数；
  - $f(x_i)$ 是模型对样本 $x_i$ 的预测结果；
  - $y_i$ 是样本 $x_i$ 的真实标签；
  - $\mathbb{I}(f(x_i) \neq y_i)$ 是一个指示函数，当 $f(x_i) \neq y_i$ 时取值为 $1$ （表示预测错误），否则取值为 $0$ 。
- 错误率的意思是，模型在整个数据集上预测错误的样本占总样本数的比例。
精度：
- 精度表示模型预测正确的比例。公式如下：
  
  $\text{acc}(f;D) = \frac{1}{m} \sum_{i=1}^{m} \mathbb{I}(f(x_i) = y_i)$
  - 精度公式与错误率类似，不同的是，这里的指示函数是 $\mathbb{I}(f(x_i) = y_i)$ ，当模型预测正确时取值为 $1$ （即 $f(x_i) = y_i$ ），否则为 $0$ 。
  - 因为精度和错误率是互补的关系，所以我们可以用以下公式表示精度：
    
    $\text{acc}(f;D) = 1 - E(f;D)$
    
    即：精度等于 $1$ 减去错误率。

总结：

错误率 和精度是评估模型性能的两个基本指标。错误率衡量模型的错误预测比例，而精度则衡量模型的正确预测比例。两者之间的关系是互补的，精度等于 $1$ 减去错误率。

查准率、查全率与F1

在这里插入图片描述

混淆矩阵（Confusion Matrix）：

表格中展示了分类结果的四种情况：

TP (True Positive)：真正例，即模型正确预测为正类的样本。
FN (False Negative)：假反例，即模型错误地预测为负类的正类样本。
FP (False Positive)：假正例，即模型错误地预测为正类的负类样本。
TN (True Negative)：真反例，即模型正确预测为负类的样本。

查准率（Precision, P）：

查准率衡量的是模型预测为正类的样本中，实际为正类的比例。公式为：

$\frac{TP}{TP + FP}$

解释：在所有被模型预测为正的样本中，有多少是实际正类。

查全率（Recall, R）：

查全率衡量的是所有实际为正类的样本中，模型正确预测为正类的比例。公式为：

$\frac{TP}{TP + FN}$

解释：在所有真实正类样本中，有多少被模型正确预测为正。

F1值（F1 Score）：

$F 1$ 值是查准率和查全率的调和平均，用来平衡查准率和查全率之间的权衡。公式为：

$\frac{2 \times P \times R}{P + R} = \frac{1}{\frac{1}{2} \times (\frac{1}{P} +\frac{1}{R})}$

解释： $F 1$ 值同时考虑了查准率和查全率，当这两者数值差距较大时， $F 1$ 值能提供一个平衡的评估。

总结：

查准率 衡量的是预测为正类的准确性。
查全率 衡量的是对所有正类样本的覆盖程度。
F1值 提供了查准率和查全率的平衡评价，是在查准率和查全率有冲突时的常用指标。

案例分析：垃圾邮件识别

在这里插入图片描述

ROC与AUC

ROC曲线：

在这里插入图片描述

ROC曲线 是一个常用的评估分类模型性能的工具，特别是在二分类问题中。ROC曲线通过不同的分类阈值绘制出真正例率（ $TPR$ ） 和 假正例率（ $FPR$ ） 的关系，帮助分析模型在不同阈值下的表现。

真正例率（True Positive Rate, TPR）：

真正例率也称为召回率（Recall），表示在所有真实的正类样本中，模型正确预测为正类的比例。公式如下：

$\frac{TP}{TP + FN}$

其中：
- $TP$ 是真正例（模型正确预测为正的样本数）；
- $FN$ 是假反例（实际为正，但被模型预测为负的样本数）。

假正例率（False Positive Rate, FPR）：

假正例率表示在所有真实的负类样本中，模型错误预测为正类的比例。公式如下：

$\frac{FP}{FP + TN}$

其中：
- $FP$ 是假正例（实际为负，但被模型预测为正的样本数）；
- $TN$ 是真反例（模型正确预测为负的样本数）。

AUC（Area Under ROC Curve）：

在这里插入图片描述

$A U C$ 是 $ROC$ 曲线下面积，表示模型在不同阈值下的总体表现。 $A U C$ 值的范围是 $0$ 到 $1$ ， $A U C$ 越接近 $1$ ，说明模型的分类性能越好。
- $A U C$ 为 $1$ ：表示模型有完美的分类能力。
- $A U C$ 为 $0.5$ ：表示模型的分类能力与随机猜测相当。

总结：

ROC曲线 通过观察模型在不同阈值下的真正例率和假正例率的变化，评估模型的区分能力。
AUC 是ROC曲线下的面积，用来量化模型的整体表现，越接近 $1$ 代表模型性能越好。

代价敏感错误率与代价曲线

背景：

例如，错误地将小区居民识别为陌生人，和将陌生人错误识别为小区居民，这两种错误在实际应用中会有不同的代价。因此，在分类模型的评估中，我们需要考虑不同类型错误的代价，而不仅仅是简单的错误率。

公式解释：

$\frac{1}{m} \left( \sum_{x_i \in D^+} \mathbb{I}(f(x_i) \neq y_i) \times cost_{01} + \sum_{x_i \in D^-} \mathbb{I}(f(x_i) \neq y_i) \times cost_{10} \right)$

$E (f; D; cos t)$ ：表示考虑错误代价后的总体错误率。
$m$ ：数据集中样本的总数。
$\mathbb{I}(f(x_i) \neq y_i)$ ：一个指示函数，当模型 $f(x_i)$ 预测错误（即 $f(x_i) \neq y_i$ ）时，值为 $1$ ，否则为 $0$ 。

代价因素：

$D^+$ ：样例集中正类的子集，也就是标签为 $0$ （正类）的样本。
$D^-$ ：样例集中负类的子集，也就是标签为 $1$ （负类）的样本。
$cost_{01}$ ：将正类样本错误预测为负类样本的代价。例如，在实际中，将一个正常用户误判为危险用户可能产生较小的代价。
$cost_{10}$ ：将负类样本错误预测为正类样本的代价。例如，将一个危险用户误判为正常用户，可能会带来很大的风险。

解释：

该公式考虑了不同错误类型的代价。通过为不同的错误（假正例和假反例）分配不同的代价权重，模型可以更合理地应对代价不对称的情况。
如果某种错误比另一种错误代价更高，公式会通过加权方式增加该类错误的惩罚，使模型更注重减少此类错误。

实际应用：

在一些场景中，错误的代价可能不均衡，比如在疾病诊断中，误诊为病人的代价（假正例）和漏诊的代价（假反例）是不一样的。漏诊可能导致更严重的后果，因此我们通常希望减少假反例（更高的代价）。

总结：

此公式提供了一种引入代价的错误率计算方式，通过权衡不同错误的代价，帮助设计出更符合实际应用需求的分类模型。

偏差与方差（Bias and Variance）

泛化误差分解公式：

泛化误差 $E (f; D)$ 表示模型在新数据上的期望误差，它可以通过偏差（bias）、方差（variance）和不可避免的噪声项进行分解：

$\text{bias}^2(x) + \text{var}(x) + \epsilon^2$

偏差 $\text{bias}^2(x)$ ：衡量模型的预测值 $\bar{f}(x)$ 与真实输出 $y$ 的差异，即模型的系统误差。偏差反映了模型在捕捉数据特征时的偏离程度。公式如下：

$\text{bias}^2(x) = \left( \bar{f}(x) - y \right)^2$

偏差高通常意味着模型过于简单，无法很好地拟合数据（即欠拟合）。
方差 $\text{var}(x)$ ：衡量模型在不同训练集上的预测结果之间的波动性，反映了模型对训练数据的敏感程度。公式如下：

$\text{var}(x) = \mathbb{E}_D \left[ (f(x; D) - \bar{f}(x))^2 \right]$

方差高通常意味着模型过度依赖训练数据，容易过拟合（即过拟合）。
噪声项 $\epsilon^2$ ：这是不可避免的误差，它来自数据本身的固有噪声，表示即使模型完美拟合数据，也无法消除的误差。公式如下：

$\epsilon^2 = \mathbb{E}_D \left[ (y_D - y)^2 \right]$