一、参数介绍
基本参数
True Positives (TP)
True Positives (TP) 是一个用于评估模型性能的术语。它指的是模型正确预测为正例(Positive)的样本数量,即实际为正例且被正确分类为正例的样本数量。
False Positives (FP)
FP (False Positives):实际为负例但被预测为正例的数量
False Negatives (FN)
FN (False Negatives):实际为正例但被预测为负例的数量
TN (True Negatives):
TN (True Negatives): 实际为负例且被预测为负例的数量
混淆矩阵二类分法
示例
假设我们有一个二分类问题(如疾病检测),其中正例代表患病,负例代表未患病。我们对某些测试样本进行预测,结果如下:
- 实际正例(患病)且预测为正例:这些就是 True Positives。
- 实际负例(未患病)且预测为正例:这些是 False Positives(假阳性)。
- 实际正例(患病)但预测为负例:这些是 False Negatives(假阴性)。
- 实际负例(未患病)且预测为负例:这些是 True Negatives。
二、Precision精度
描述了模型在所有被预测为正例的样本中,实际正例的比例。简而言之,精度关注的是模型在预测为正例时的准确程度
Precision 的定义
精度的意义
-
精度高 的模型在预测为正例时比较可靠,适用于对假阳性有较高成本的场景。例如,在医学诊断中,错误地将健康患者预测为病人的假阳性可能会导致不必要的焦虑或进一步的检查,因此精度是一个重要的考虑因素。
-
精度低 的模型则可能会产生大量的假阳性,这在一些应用中可能会导致问题。
示例
三、Recall 召回率
它描述了在所有实际为正例的样本中,模型正确识别为正例的比例。召回率关注的是模型能够识别出多少实际正例,强调的是覆盖面。
Recall 的定义
召回率的意义
-
高召回率 在某些应用场景中非常重要,特别是当漏掉正例可能带来严重后果时。例如,在癌症检测中,错过一个真正的癌症患者可能会影响患者的生命安全,因此高召回率是关键。
-
低召回率 表示模型在捕获实际正例方面的能力较弱,这可能会导致漏掉很多重要的正例。
示例
四、F1 Score
是一种衡量分类模型性能的综合指标,特别是在类别不平衡的情况下。它是精确率(Precision)和召回率(Recall)的调和平均数。F1 Score 是一种综合评价指标,用于平衡精确率和召回率的权衡,以提供模型的整体效果。
定义
F1 Score 的计算公式如下:
其中:
解释
-
F1 Score 的值在0到1之间。值为1表示完美的精确率和召回率,值为0则表示模型在精确率和召回率方面都很差。
-
F1 Score 特别适合于处理那些对假正例(False Positives)和假负例(False Negatives)都有较大关注的场景。它在类别不平衡问题中尤为重要,因为单独依赖精确率或召回率可能会导致误导性的评价。
示例
五、Accuracy准确率
Accuracy(准确率)是一个常用的模型性能评估指标,它表示模型在所有预测样本中正确预测的比例。尽管准确率在许多情况下是有用的,但在处理类别不平衡问题时,需要结合其他指标如精确率、召回率和 F1 Score 来全面评价模型的性能
Accuracy 的定义
准确率的意义
- 高准确率 通常意味着模型整体上表现良好,特别是在类别分布比较均衡的情况下。
- 低准确率 可能表明模型无法很好地处理样本的分类,尤其是在类别不平衡的情况下,模型可能会对数量较多的类别表现良好,但对数量较少的类别表现不佳。