一、分类任务常用指标
1. 准确率(Accuracy)
- 定义:正确预测样本数占总样本数的比例。
- 优点:直观易懂,适用于类别平衡的数据。
- 缺点:对类别不平衡数据敏感(如欺诈检测中99%的负样本)。
- 应用场景:类别分布均匀的简单分类任务(如手写数字识别)。
2. 精确率(Precision)与召回率(Recall)
- 定义:
- 精确率 = TP / (TP + FP)(预测为正的样本中实际为正的比例)。
- 召回率 = TP / (TP + FN)(实际为正的样本中被正确预测的比例)。
- 优点:
- 精确率关注减少假阳性(如垃圾邮件检测)。
- 召回率关注减少假阴性(如癌症筛查)。
- 缺点:二者通常存在权衡(Trade-off)。
- 应用场景:
- 精确率:对误报敏感的任务(如推荐系统)。
- 召回率:对漏检敏感的任务(如医疗诊断)。
3. F1 Score
- 定义:精确率和召回率的调和平均(F1 = 2 * (Precision*Recall)/(Precision+Recall))。
- 优点:综合平衡精确率和召回率,适用于类别不平衡数据。
- 缺点:假设精确率和召回率同等重要,不适用于多分类的复杂场景。
- 应用场景:需要平衡假阳性和假阴性的任务(如异常检测)。
4. ROC-AUC
- 定义:ROC曲线下面积,反映模型在不同阈值下的分类性能。
- 优点:
- 对类别不平衡不敏感。
- 反映模型的整体排序能力。
- 缺点:计算复杂度高,对类别均衡的简单任务可能不如F1直观。
- 应用场景:需要全面评估分类性能的场景(如广告点击率预测)。
二、回归任务常用指标
1. 均方误差(MSE)
- 定义:预测值与真实值差的平方的平均值。
- 优点:对异常值敏感,惩罚大误差。
- 缺点:量纲不直观(平方单位)。
- 应用场景:需要强调大误差的任务(如房价预测)。
2. 平均绝对误差(MAE)
- 定义:预测值与真实值绝对差的平均值。
- 优点:量纲直观,对异常值鲁棒。
- 缺点:无法反映误差方向。
- 应用场景:需要稳健评估的任务(如库存需求预测)。
3. R²(决定系数)
- 定义:模型解释的方差占数据总方差的比例。
- 优点:无量纲,可横向比较不同模型。
- 缺点:对过拟合敏感。
- 应用场景:解释模型对数据的拟合程度(如科学实验建模)。
三、深度学习特定任务指标
1. IoU(交并比)
- 定义:预测区域与真实区域交集面积占并集面积的比例。
- 优点:直观衡量分割或检测的定位精度。
- 缺点:对边界敏感,无法反映类别重要性。
- 应用场景:图像分割、目标检测(如自动驾驶中的障碍物识别)。
2. BLEU(双语评估替补)
- 定义:通过n-gram匹配评估机器翻译结果与参考译文的相似度。
- 优点:快速计算,适用于大规模文本生成。
- 缺点:忽略语义和语法结构,对短文本不敏感。
- 应用场景:机器翻译、文本摘要。
3. 困惑度(Perplexity)
- 定义:模型对测试数据概率分布的逆几何平均。
- 优点:直接反映语言模型的预测能力。
- 缺点:依赖训练数据分布,无法反映生成文本的多样性。
- 应用场景:语言模型评估(如GPT系列模型)。
四、选型建议
- 类别不平衡:优先选择F1、AUC、PR-AUC。
- 异常值敏感:MAE优于MSE。
- 多目标优化:结合多个指标(如目标检测中的mAP)。
- 生成任务:BLEU、ROUGE、CIDEr结合人工评估。