机器学习100天!今天讲的是:分类模型评价指标-ROC曲线和AUC
《机器学习100天》完整目录:目录
首先基于混淆矩阵,介绍两个新的概念:真正例率(TPR)和假正例率(FPR)。真正例率是预测为正且实际为正的样本的占所有正例样本的比例。TPR 越大,预测的正类中实际正类越多。计算表达式是:
假正例率是预测为正但实际为负的样本占所有负样本的比例。FPR 越大,预测的正类中实际负类越多。计算表达式是:
那么 ROC 和 AUC 是如何引入的呢?我们知道,分类模型是有一个阈值的,逻辑回归使用 sigmoid 函数,一般默认阈值是 0.5,大于 0.5 判断为正类,小于则为负类。而在实际的应用中,根据具体情况,我们可以采用不同的阈值,例如若更重视精确率,则可选择较大一点的阈值;若更重视召回率,则可选择较小的阈值。
选择不同的阈值,计算真正例率和假正例率。然后,以假正例率为横坐标,以真正例率为纵坐标,把所有的点连接起来,就得到了右边这张图所示蓝色的曲线。它就是 ROC 曲线。因为一般选择的是有限样本数,所以 RO