1
- 1 、ROC曲线
- 2 、PC曲线
- 3、F1
- 4 、正负样本不均衡时怎么选择
1 、ROC曲线
就是TPR 与FPR 曲线
如图,就是根据阈值不同,我们看我们的二分类器的结果,根据结果算出TPR(真阳性)与FPR(假阳性),最好的情况就是如图,我们的ROC曲线越靠近左上角,越好,当然,有一条基准线,就是y=x。
ROC曲线的面积就是AUC
2 、PC曲线
Recall其实就是TPR。
PC曲线就是精准率与召回率曲线,精准率与召回率是相爱相杀的,比如,当我们阈值很高的时候,精准率就会很高,精准率就是预测出来的阳性有多少是真阳性,阈值高,我们测出来的阳性一般都是真的,此时召回率就低,召回率是真的阳性中有多少被预测出来的,因为阈值变高了,我们预测出来的阳性很少。
3、F1
我们要平等的关注 精准率和召回率,所以有了F1
4 、正负样本不均衡时怎么选择
当正样本极少时
,我们更需要关注的是 FP而不是FN。
比如垃圾邮件,正样本很少,我们希望的是每个垃圾邮件都被精准的挑选出来。
当负样本数很少时
我们更需要关注的是FN而不是FP,我们希望少的那一方都被正确的检测出来。
还有一种情况,如果当正样本很少时,且ROC对正负样本不均衡不敏感时,我们需要关注F1以及PRC曲线,比如下图,当ROC曲线 TPR为0.8,FPR为0.1时,我们关注器PRC曲线,其Recall为0.8时(Recall其实就是TPR
),准确率只有0.05,此时我们就需要关注F1和PRC曲线了。
总结: