混淆矩阵
当我们在做二分类预测时,把预测情况与实际情况的所有结果两两混合,结果就会出现以下4种情况,就组成了混淆矩阵。
- P(Positive):代表正样本
- N(Negative):代表负样本
- T(True):代表预测正确
- F(False):代表预测错误
所以它们的交叉组合的情况为:
- TP:是预测为正类且预测正确;预测为1,实际为1
- TN:是预测为负类且预测正确;预测为0,实际为0
- FP:是把实际负类分类(预测)成了正类;实际为0,预测为1
- FN:则是把实际正类分类(预测)成了负类;始于为1,预测为0
准确率
准确率(Accuracy)。顾名思义,就是所有预测正确的(包括正类和负类)占总样本的比例:
精确率
精确率(Precision),查准率。所有被预测为正的样本中实际为正的样本的概率。
召回率
召回率(Recall),查全率,表示在实际为正的样本中被预测为正样本的概率
F1分数
精确率和召回率又被叫做查准率和查全率,如果我们想要在二者之间找到一个平衡点,就需要一个新的指标:F1分数,它同时考虑了查准率和查全率,让二者同时达到最高,取一个平衡点。
ROC与AUC
关于ROC曲线,横轴为FPR,纵轴为TPR。目的是希望FPR尽可能小,TPR尽可能大,我们发现TPR和FPR分别时基于实际表现1和0出发的,也就是说它们分别在实际正样本和负样本中来观察相关概率问题。正因如此,无论正负样本是否平衡,都不会被影响。
真正率(TPR) = 召回率 = TP/(TP+FN)
假正率(FPR) = FP / (FP+TN)