ROC 的由来
ROC 曲线是由混淆矩阵衍生来的指标。
混淆矩阵如图所示,
二ROC曲线的横坐标为 FPR,纵坐标为 TPR,计算公式分别是
F
P
R
=
F
P
F
P
+
T
N
,
也就是
F
P
R
=
F
P
F
A
L
S
E
FPR = \frac{FP}{FP+TN}, 也就是 FPR = \frac{FP}{FALSE}
FPR=FP+TNFP,也就是FPR=FALSEFP
可以理解为是取这个predcition结果中判断错误的代价,用 所有FALSE 中的错误预测FP占的比例来表达。同理 , TPR,也就是常说的Recall,即采用这个预测结果的收益。
T
P
R
=
T
P
T
P
+
F
N
,
也就是
T
P
R
=
T
P
T
R
U
E
TPR = \frac{TP}{TP+FN}, 也就是 TPR = \frac{TP}{TRUE}
TPR=TP+FNTP,也就是TPR=TRUETP
而在通常的情况下,二者都是正相关的。从公式的角度,我认为可以这样理解:
FPR变大的原因只有可能是 FP变大,而在分类器固定,FP变大的原因只有一个,就是阈值降低,也就是有了更多的FP,同时又有了更多的TP,所以,FP变大,TP也变大。相应的 FPR变大,TPR也变大。
别称
另外,这两个指标还有别称, 敏感性(sensitivity, FPR), 精确性/特异性(specificity, TPR)。
曲线下面积(AUC)
AUC的值来评价诊断效果,其在1.0和0.5之间。
当AUC>0.5时,AUC越接近于1,说明诊断效果越好;
AUC在 0.5~0.7时,准确性较低;
在0.7~0.9时,有一定准确性;
AUC在0.9以上时,准确性较高。
AUC=0.5时,说明诊断方法完全不起作用,无诊断价值。
AUC<0.5不符合真实情况,在实际中极少出现。