【人工智能】机器学习中的评价指标

机器学习中的评价指标

在机器学习中，评估指标（Evaluation Metrics）是衡量模型性能的工具。选择合适的评估指标能够帮助我们更好地理解模型的效果以及它在实际应用中的表现。

一般来说，评估指标主要分为三大类：分类、回归和聚合。

分类问题

分类，顾名思义，就是将输入数据识别并分配到不同的类别上去，以下是它的评估指标：

一、混淆矩阵（Confusion Matrix）

核心概念

混淆矩阵（Confusion Matrix），又称为误差矩阵，是一种特定的表格布局，用于描述分类模型的性能。在监督学习中，特别是分类问题中，混淆矩阵给出了分类器预测结果与实际类别之间的差异对比，它能够帮助我们全面了解分类器的表现。

元素	定义	应用场景示例
TP (True Positive)	正类样本被正确预测的数量	电商用户流失预测中的真实流失用户
FP (False Positive)	负类样本被错误预测为正类的数量	垃圾邮件过滤中的正常邮件误判
FN (False Negative)	正类样本被错误预测为负类的数量	医疗诊断中的漏诊病例
TN (True Negative)	负类样本被正确预测的数量	信用卡欺诈检测中的正常交易识别

公式表示：

实际\预测	正类（1）	负类（0）
正类（1）	TP	FN
负类（0）	FP	TN

示例分析：
在用户流失预测中，若测试集包含：

TP=150（正确识别的流失用户）
FP=30（误判的正常用户）
FN=50（漏检的流失用户）
TN=770（正确识别的正常用户）
通过混淆矩阵可快速定位模型的召回能力缺陷（漏检率10%）。

二、基础评估指标

1. 准确率（Accuracy）

公式：
$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$

特点：

✅ 适用场景：类别均衡数据（如MNIST手写数字识别）
❌ 局限性：癌症筛查中若健康样本占99%，全预测为健康准确率可达99%但完全漏检癌症

2. 精确率（Precision）

公式：
$\text{Precision} = \frac{TP}{TP + FP}$

应用场景：

垃圾邮件过滤：预测100封为垃圾邮件，其中90封真实为垃圾，则精确率90%
法律文书分类：高精确率减少错误归档风险

3. 召回率（Recall）

公式：
$\text{Recall} = \frac{TP}{TP + FN}$

应用场景：

信用卡欺诈检测：识别45/50笔欺诈交易，召回率90%
地震预测：容忍较高误报率以降低漏报风险

三、复合评估指标

1. F1分数（F1-Score）

公式：
$\frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$

变体：

Fβ分数：通过β调整召回率权重（β>1时更重视召回）
案例：新闻推荐系统中，精确率80%+召回率70% → F1=74.8%

2. ROC曲线与AUC值

核心参数：

TPR（真正率）： $\frac{TP}{TP + FN}$
FPR（假正率）： $\frac{FP}{FP + TN}$

特性：

曲线越接近左上角性能越好
AUC=0.85表示85%概率将正类样本排在负类前

3. PR曲线与AUPR

优势：在类别极度不平衡时（如新冠检测阳性率1%）比AUC更敏感

四、多分类评估策略

1. 宏平均（Macro-Average）

计算方式：各类别指标取算术平均
适用场景：强调类别平等（如多语言文本分类）

2. 微平均（Micro-Average）

计算方式：汇总所有类别TP/FP/FN后计算全局指标
特点：样本量差异大时更稳定（如商品评论情感分析）

3. 加权平均（Weighted Average）

公式：
$\text{Weighted} = \sum_{i=1}^N \frac{\text{Samples}_i}{\text{Total}} \times \text{Metric}_i$
应用：电商用户分级（VIP客户样本少但权重大）

回归问题

均方误差（Mean Squared Error, MSE）

定义与公式
均方误差（MSE）是回归任务中最常用的评价指标之一，其计算公式为预测值与真实值差的平方的均值：
$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
MSE通过平方操作放大了较大误差的权重，使得模型在训练过程中更关注极端错误。例如，若真实值为 [200, 300, 400]，预测值为 [210, 290, 410]，则 MSE 计算为：
$\text{MSE} = \frac{(10)^2 + (-10)^2 + (10)^2}{3} = \frac{100 + 100 + 100}{3} \approx 100$
此时 MSE 的单位是目标变量的平方（如房价的平方值），导致解释性较差，但能有效反映模型的整体误差水平。

优点与缺点

优点：对大误差敏感，适用于需要严格避免大偏差的场景（如金融风控）。
缺点：量纲不直观，且异常值会显著拉高 MSE（例如某个预测误差为 100，其平方贡献为 10000）。

均方根误差（Root Mean Squared Error, RMSE）

定义与公式
RMSE 是 MSE 的平方根，公式为：
$\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}$
RMSE 解决了 MSE 量纲问题，使其与目标变量单位一致。例如，若预测温度（单位：℃）的 MSE 为 25，则 RMSE 为 5℃，可直接解读为“平均误差约为 5 摄氏度”。

实际案例
假设预测某城市日平均温度，真实值为 [20, 22, 25]，预测值为 [18, 23, 24]，则：
$\text{RMSE} = \sqrt{\frac{(2)^2 + (-1)^2 + (1)^2}{3}} = \sqrt{\frac{4 + 1 + 1}{3}} \approx 1.41 \,℃$
RMSE 的优势在于直观性，但依然受异常值影响。例如，若某个预测误差为 10℃，其平方项将主导计算结果。

平均绝对误差（Mean Absolute Error, MAE）

定义与公式
MAE 计算预测值与真实值绝对误差的平均值：
$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$
MAE 对异常值的鲁棒性优于 MSE/RMSE。例如，预测房价时，若数据中存在少量极端高价（如 1000 万美元），MAE 仅线性放大这些误差，而 MSE 会因平方操作使其影响剧增。

实际案例
假设真实房价为 [200, 300, 1000]（单位：万美元），预测值为 [210, 290, 950]，则：
$\text{MAE} = \frac{|10| + |-10| + |50|}{3} = \frac{10 + 10 + 50}{3} \approx 23.3 \,万美元$
MAE 的缺点是忽略误差方向（如高估或低估），且无法区分多个小误差和一个大误差的差异。

决定系数（R² Score）

定义与公式
R² 衡量模型对目标变量方差的解释能力，公式为：
$R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$
其中 $\bar{y}$ 是真实值的均值。R² 越接近 1，说明模型拟合越好。例如，若 R²=0.85，表示模型能解释 85% 的数据波动。

实际案例
假设某商品销量预测的 R²=0.75，说明模型解释了 75% 的销量变化，剩余 25% 由未考虑的因素（如促销活动）导致。但需注意：R² 随特征数量增加可能虚高，此时需结合调整后 R²（Adjusted R²）使用。

平均绝对百分比误差（Mean Absolute Percentage Error, MAPE）

定义与公式
MAPE 计算相对误差的绝对值均值，公式为：
$\text{MAPE} = \frac{100\%}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right|$
MAPE 适用于不同量纲数据的横向比较。例如，预测销售额时，若 MAPE=10%，表示平均误差为实际值的 10%。

实际案例
假设某商品日销售额真实值为 [100, 200, 300]（单位：美元），预测值为 [90, 210, 280]，则：
$\text{MAPE} = \frac{100\%}{3} \left( \frac{10}{100} + \frac{10}{200} + \frac{20}{300} \right) \approx 8.33\%$
但需注意：当真实值接近零时，MAPE 可能无限大（如真实值为 0 时，分母为零）。

调整后决定系数（Adjusted R²）

定义与公式
调整后 R² 在 R² 基础上引入特征数量惩罚，公式为：
$\text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right)$
其中 $k$ 为特征数量。当模型中添加无关特征时，调整后 R² 会下降，从而避免过拟合。

实际案例
假设某模型在 100 个样本上使用 5 个特征得到 R²=0.8，调整后 R² 计算为：
$\text{Adjusted } R^2 = 1 - \frac{(1 - 0.8)(99)}{94} \approx 0.787$
若新增一个无关特征后 R² 升至 0.805，调整后 R² 可能降至 0.78，说明新增特征无实际贡献。

聚类问题

纯度（Purity）

定义与公式
纯度衡量聚类结果与真实类别的一致性，通过统计每个聚类簇中占多数的真实类别样本数占比实现：
$\text{Purity} = \frac{1}{N} \sum_{k} \max_j |w_k \cap c_j|$
其中 $N$ 是总样本数， $w_k$ 表示第 $k$ 个聚类簇， $c_j$ 表示第 $j$ 个真实类别。例如，某聚类结果中三个簇的多数类别样本数分别为 5、4、3，总样本数 17，则纯度为 $\approx 0.706$ 。

优点与缺点

优点：计算简单，直观反映聚类与真实标签的匹配程度。
缺点：未考虑类簇数量影响，可能因簇数过多虚高（如极端情况每个样本单独成簇，纯度=1）。

归一化互信息（Normalized Mutual Information, NMI）

定义与公式
NMI 通过信息熵衡量聚类结果与真实类别的信息共享程度：
$\text{NMI} = \frac{I(\Omega; C)}{(H(\Omega) + H(C))/2}$
其中 $I(\Omega; C)$ 是互信息， $H(\Omega)$ 和 $H (C)$ 分别为聚类簇和真实类别的熵。NMI 值域为 [0,1]，越接近 1 表示聚类与真实分布越一致。

实际案例
若真实类别分布为 [6,6,5]，聚类结果分布为 [8,5,4]，通过计算联合概率分布和熵值，可得 NMI≈0.564。
优点：对簇数量敏感，避免因簇数过多导致的虚高问题。缺点：计算复杂度较高，需依赖概率分布模型。

兰德系数（Rand Index, RI）与调整兰德系数（Adjusted Rand Index, ARI）

定义与公式
RI 通过样本对的一致性评估聚类质量：
$\text{RI} = \frac{TP + TN}{TP + FP + FN + TN}$
其中 $TP$ 表示同类样本在同一簇中的对数， $TN$ 表示异类样本在不同簇中的对数。RI 值域 [0,1]，但随机聚类结果可能不为 0。因此引入 ARI 进行修正：
$\text{ARI} = \frac{RI - E[RI]}{\max(RI) - E[RI]}$
ARI 值域 [-1,1]，0 表示随机水平，1 表示完美匹配。

实际案例
某聚类结果中 $TP = 20$ 、 $TN = 72$ 、 $FP = 20$ 、 $FN = 24$ ，则 $R I \approx 0.68$ ，而 ARI 通过期望值修正后可能降至 0.48。
优点：综合考量同类/异类样本对的分布。缺点：计算复杂度高，需遍历所有样本对。

F值（F-score）

定义与公式
F-score 是准确率（Precision）和召回率（Recall）的调和平均，用于平衡聚类结果的精确性与覆盖率：
$F_{\beta} = (1+\beta^2) \cdot \frac{\text{Precision} \cdot \text{Recall}}{\beta^2 \cdot \text{Precision} + \text{Recall}}$
其中 $\beta$ 为权重参数（常取 1）。Precision 表示同一簇中同类样本占比，Recall 表示同类样本被正确聚类的占比。

实际案例
若某聚类结果中 $TP = 20$ 、 $FP = 20$ 、 $FN = 24$ ，则 Precision=0.5，Recall≈0.46， $F_1≈0.48$ 。
优点：适用于类别不平衡场景。缺点：依赖样本对的统计，计算成本较高。

互信息（Mutual Information, MI）与调整互信息（AMI）

定义与公式
MI 直接衡量聚类结果与真实类别的信息相关性：
$I(\Omega; C) = \sum_{k,j} \frac{|w_k \cap c_j|}{N} \log \frac{N|w_k \cap c_j|}{|w_k||c_j|}$
为消除随机聚类影响，AMI 引入调整项：
$\text{AMI} = \frac{I(\Omega; C) - E[I]}{(H(\Omega) + H(C))/2 - E[I]}$
AMI 值域 [0,1]，更鲁棒。
优点：无需假设数据分布，适应复杂结构。缺点：计算复杂，需依赖概率估计。