机器学习评估与度量指标

news2025/1/12 18:17:11

这里的内容主要包括:性能度量、比较检验和偏差与方差。在上一篇文章中,我们解决了评估学习器泛化性能的方法,即用测试集的"测试误差"作为"泛化误差"的近似,当我们划分好训练/测试集后,那如何计算"测试误差"呢?这就是性能度量,例如:均方差,错误率等,即"测试误差"的一个评价标准。有了评估方法和性能度量,就可以计算出学习器的"测试误差",但由于"测试误差"受到很多因素的影响,例如:算法随机性或测试集本身的选择,那如何对两个或多个学习器的性能结果做比较呢?这就是比较检验。最后偏差与方差是解释学习器泛化性能的一种重要工具。

一、性能度量

1.1 最常见的性能度量

在回归任务中,即预测连续值的问题,最常用的性能度量是"均方误差(mean squared error)",另外还有常用的性能度量分别为,平均绝对误差(MAE, mean absolute error), 均方根误差(RMSE, root mean square error), R平方。

在分类任务中,即预测离散值的问题,最常用的是错误率和精度,错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例,易知:错误率+精度=1。

后面的内容我们都来说明分类问题的性能度量。

1.2 查准率/查全率/F1

错误率和精度虽然常用,但不能满足所有的需求。例如:在推荐系统中,我们只关心推送给用户的内容用户是否感兴趣(即查准率),或者说所有用户感兴趣的内容我们推送出来了多少(查全率)。因此,使用查准率/查全率更适合描述这类问题。对于二分类问题,分类结果混淆矩阵与查准/查全率定义如下:

对于混淆矩阵每种取值的详细解释如下:

根据混淆矩阵可以得到的一些度量指标有:

  • Precision(P):精确度,查准率,预测为正样本中判断正确的比例
  • FDR(False Discovery Rate):判断为正样本的样本中,负样本所占比例
  • Recall(R, Sensitivity, TPR-True Positive Rate):召回率,查全率,敏感性,真正率,预测正确的所有正样本占实际所有正样本的比例
  • TNR(True Negative Rate, Specificity):特异度,真负率,预测正确的所有负样本占实际所有负样本的比例。
  • FPR(False Positive Rate):假正率,预测误判为正样本的负样本数据量占实际所有负样本的比例
  • FNR(False Negative Rate):假负率,预测误判为负样本的正样本数量占实际正样本的比例
  • Accuracy:正确率,所有实验中预测正确的样本数占所有样本数量的比例
  • Error Rate:错误率,所有实验中预测错误的样本数占所有样本数量的比例。

���������=����+�����=����+��=1−���������������=�����������=���=����+�����=�����������=����+�����=����+�����=����+��=1−��������������=��+����+��+��+�����������=��+����+��+��+��=1−��������

特别地,将查准率与查全率再次列出,查准率P与查全率R分别定义为:

正如天下没有免费的午餐,查准率和查全率是一对矛盾的度量。例如我们想让推送的内容尽可能用户全部感兴趣,那只能推送我们把握高的内容,这样就漏掉了一些用户感兴趣的内容,查全率就低了;如果想让用户感兴趣的内容都被推送,那只有将所有内容都推送上,宁可错杀一千,不可放过一个,这样查准率就很低了。

"P-R曲线"正式描述查准/查全率变化的曲线,P-R曲线定义如下:根据学习器的预测结果(一般为一个实值或概率)对测试样本进行排序,将最可能是"正例"的样本排在前面,最不可能是"正例"的排在后面,按此顺序逐个把样本作为"正例"进行预测,每次计算出当前的P值和R值。如下图所示:

P-R曲线如何评估呢?若一个学习器A的P-R曲线被另一个学习器的P-R曲线完全包住,则称:B的性能优于A。若A和B的曲线发生了交叉,则谁的曲线下的面积大,谁的性能更优。但一般来说,曲线下的面积是很难进行估算的,所以衍生出了"平衡点"(Break-Event Point,简称BEP),即当P=R时的取值,平衡点的取值越高,性能更优。

P和R的指标有时会出现矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-measure,又称F-score。F-measure是P和R的加权调和平均,即:

特别的,当 �=1 ,也就是常见的F1度量,是P和R的调和平均,当F1较高时,模型的性能越好。

有时候我们会有多个二分类混淆矩阵,例如:多次训练或者在多个数据集上训练,那么估算全局性能的方法有两种,分为宏观和微观。简单理解,宏观就是先算出每个混淆矩阵的P值和R值,然后取得平均P值macro-P和平均R 值macro-R,再算出 �� 或F1,而微观则是计算出混淆矩阵的平均TP、FP、TN、FN,接着进行计算P、R,进而求出��或F1。

1.3 ROC与AUC

如上所述:学习器对测试样本的评估结果一般为一个实值或概率,设定一个阈值,大于阈值为正例,小于阈值为负例,因此这个实值得好坏直接决定了学习器得泛化性能,若将这些实值排序,则排序得好坏决定了学习器的性能高低。ROC曲线正是从这个角度出发来研究学习器的泛化性能,ROC曲线与P-R曲线十分类似,都是按照排序的顺序逐一按照正例预测,不同的是ROC曲线以"真正例率(True Positive Rate, 简称TPR)"为横轴,纵轴为"假正例率(False Positive Rate, 简称FPR), ROC偏重研究基于测试样本评估值的排序好坏"。

简单分析图像,(0,0)表示将所有的样本预测为负例,(1,1)则表示将所有的样本预测为正例,(0,1)表示正例全部出现再负例之前的理想情况,(1,0)则表示负例全部出现在正例之前的最差情况。

现实中的任务通常都是有限个测试样本,因此只能绘制出近似ROC曲线。绘制方法:首先根据测试样本的评估值对测试样本排序,接着按照以下规则进行绘制。

同样地,进行模型的性能比较时,若一个学习器A的ROC曲线被另一个学习器B的ROC曲线完全包住,则称B的性能优于A。若A和B的曲线发生了交叉,则谁的曲线下的面积大,谁的性能更优。ROC曲线下的面积定义为AUC(area under roc curve),不同于P-R的是,这里的AUC是可估算的,即ROC曲线下每一个小矩形的面积之和。易知:AUC越大,证明排序的质量越好,AUC为1时,证明所有正例排在了负例的前面,AUC为0时,所有的负例排在了正例的前面。

1.4 代价敏感错误率与代价曲线

上面的方法中,将学习器的犯错同等对待,但在现实生活中,将正例预测成假例与将假例预测成正例的代价常常是不一样的。例如:将无疾病->有疾病只是增多了检查,但有疾病->无疾病却是增加了生命危险。以二分类为例,由此引入了"代价矩阵"(cost matrix)。

在非均等错误代价下,我们希望的是最小化"总体代价",这样"代价敏感"的错误率为:

同样对于ROC曲线,在非均等错误代价下,演变成了"代价曲线",代价曲线横轴是取值为[0,1]之间的正例概率代价,式中p表示正例的概率,纵轴是取值为[0,1]的归一化代价。

代价曲线的绘制很简单:设ROC曲线上一点的坐标为(TPR, FPR),则可相应计算出FNR,然后再代价平面上绘制一条(0, FPR)到(1, FNR)的线段,线段下的面积即表示了该条件下的期望总体代价;如此将ROC曲线上的每个点转化为代价平面上的一条线段,然后取所有线段的下界,围成的面积即为在所有条件下学习器的期望总体代价,如图所示:

1.5 ROC与AUC详解

AUC是一种模型分类指标,且仅仅是二分类模型的评价指标。AUC是Area Under Curve的简称,那么Curve就是ROC(Receiver Operating Characteristic),翻译为"接受者操作特性曲线"

ROC

曲线由两个变量TPR和FPR组成,这个组合以FPR对TPR,即是以代价(cost)对收益(benefits)

  • x轴是假阳性率(FPR):在所有的负样本中,分类器预测错误的比例
  • y轴为真阳性率(TPR):在所有的正样本中,分类器预测正确的比例

为了更好的理解ROC曲线,我们使用具体的实例说明:

如在医学诊断中,判断有病的样本。那么尽量把有病的揪出来是主要任务,也就是第一个指标TPR,要越高越好。而把没病的样本误诊为有病的,也就是第二个指标FPR,要越低越好。

不难发现,这两个指标之间是相互制约的。如果某个对于有病的症状比较敏感,稍微的小症状都判断为有病,那么他的第一个指标应该会很高,但是第二个指标也就相应地变高。最极端地情况下,他把所有的样本都看作有病,那么第一个指标达到1,第二个指标也为1.

我们以FPR为横轴,TPR为纵轴,得到如下ROC空间。

我们可以看出,左上角的点(TPR=1, FPR=0),为完美分类,也就是这个医生医术高明,诊断全对。点A(TPR>FPR),医生A的判断大体是正确的。中线上的点B(TPR=FPR),也就是医生B全是蒙的,蒙对一半,懵错一半;下半平面的点C(TPR<FPR),这个医生说你有病,那么你很可能没有病,医生C的话我们要反着听,为真庸医。上图中一个阈值,得到一个点。现在我们需要一个独立于阈值的评价指标来衡量这个医生的医术如何,也就是遍历所有的阈值,得到ROC曲线。

假设如下就是某个医生的诊断统计图,直线代表阈值。通过改变不同的阈值1.0->0,从而绘制出ROC曲线。下图为未得病人群(蓝色)和得病人群(红色)的模型输出概率分布图(横坐标表示模型输出概率,纵坐标表示概率对应的人群的数量)。阈值为1时,不管你什么症状,医生均未诊断出疾病(预测值都为N),此时FPR=TPR=0,位于左下。阈值为0时,不管你什么症状,医生都诊断结果都是得病(预测值都为P),此时FPR=TPR=1,位于右上。

曲线距离左上角越近,证明分类器效果越好。

如上,是三条ROC曲线,在0.23处取一条直线。那么,在同样的FPR=0.23的情况下,红色分类器得到更高的TPR。也就表明,ROC越往左上,分类器效果越好。我们用一个标量值AUC来量化它。

AUC

AUC定义:

AUC值为ROC曲线所覆盖的区域面积,显然,AUC越大,分类器分类效果越好。

AUC=1,是完美分类器。绝大多数预测的场合,不存在完美分类器。

0.5<AUC<1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

AUC=0.5,跟随机猜测一样,模型没有预测价值。

AUC<0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

注:对于AUC小于0.5的模型,我们可以考虑取反(模型预测为positive,那我们就取negative),这样就可以保证模型的性能不可能比随机猜测差。

以下为ROC曲线和AUC值得实例:

AUC的物理意义:

AUC的物理意义正样本的预测结果大于负样本的预测结果的概率。所以AUC反映的是分类器对样本的排序能力。

另外值得注意的是,AUC 对样本类别是否均衡并不敏感,这也是不均衡样本通常用AUC评价分类器性能的一个原因。

下面从一个小例子解释AUC的含义:小明一家四口,小明5岁,姐姐10岁,爸爸35岁,妈妈33岁建立一个逻辑回归分类器,来预测小明家人为成年人概率,假设分类器已经对夏明的家人做过预测,得到每个人为成人的概率。

1.AUC更多的是关注对计算概率的排序,关注的是概率值的相对大小,与阈值和概率值的绝对大小没有关系。

例子中并不关注小明是不是成人,而关注的是,预测为成人的概率的排序。

  • 问题1:以下为三种模型的输出结果,求三种模型的AUC。
模型小明姐姐妈妈爸爸
a0.120.350.760.85
b0.120.350.440.49
c0.520.650.760.85

AUC只与概率的相对大小(概率排序)有关,和绝对大小没关系。由于三个模型概率排序的前两位都是未成年人(小明,姐姐),后两位都是成年人(妈妈,爸爸),因此三个模型的AUC都等于1.

1.AUC只关注正负样本之间的排序,并不关心正样本内部,或者负样本内部的排序。这也体现了AUC的本质:任意个正样本的概率都大于负样本的概率的能力。例子中AUC只需要保证(小明和姐姐)(爸爸妈妈),小明和姐姐在前2个排序,而不会考虑小明和姐姐谁在前,或者爸爸和妈妈谁在前。

问题2:以下已经对分类器输出概率从小到大进行了排列,哪些情况的AUC等于1,哪些情况的AUC等于0(其中背景色表示True value,红色表示成年人,蓝色表示未成年人)。

易得,D模型,E模型和F模型的AUC值为1,C模型的AUC值为0(爸妈为成年人的概率小于小明和姐姐,显然这个模型预测反了)。

AUC的计算:

  • 法1:AUC为ROC曲线下的面积,那我们直接计算面积。面积为一个个小的梯形面积之和。计算的精度与阈值的精度有关。
  • 法2:根据AUC的物理意义,我们计算正样本预测结果大于负样本预测结果的概率。取n1n0(n1为正样本数,n0为负样本数)个二元组,比较score(预测结果),最后得到AUC。时间复杂度O(N*M)。
  • 法3:我们首先把所有样本按照score排序,依次用rank表示他们,如最大score的样本,rank=n(n=n0+n1,n0表示负样本个数,n1表示正样本个数),其次为n-1.那么对于正样本中rank最大的样本,rank_max,有n1-1个其他正样本比它score小,那么就有(rank_max-1)-(n1-1)个负样本比它score小。其次为(rank_second-1)-(n1-2),直到最后排序在最后面的正样本rank_min, 有0个其他正样本比它score小,那么就有rank_min - 1个负样本比它score小。最后我们得到正样本大于负样本的概率为

时间复杂度为O(N+M)。

下面有一个简单的例子:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/693933.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《Opencv3编程入门》学习笔记—第十章

《Opencv3编程入门》学习笔记 记录一下在学习《Opencv3编程入门》这本书时遇到的问题或重要的知识点。 第十章 角点检测 一、Harris角点检测 &#xff08;一&#xff09;兴趣点与角点 1、图像特征类型&#xff1a; 边缘角点&#xff08;感兴趣点&#xff09;斑点&#xf…

在pycharm上导出Anaconda3的环境配置文件

目录 1.原理&#xff1a; ​2.亲身实践&#xff1a; 1.原理&#xff1a; 要在PyCharm中导出Anaconda3环境的配置文件&#xff0c;可以使用conda命令行工具来完成。请按照以下步骤进行操作&#xff1a; 打开PyCharm&#xff0c;并确保项目使用的是Anaconda3环境。 在PyCha…

【小程序】如何手动绘制分享用的图片

上一篇【小程序】如何实现滑动翻页中介绍了如何在小程序中实现上下滑动翻页的效果。 如果要给这个产品增加一个生成图片用于分享到朋友圈的功能&#xff0c;又该如何实现呢&#xff1f; 先来看一下最终的效果图&#xff1a; 首先&#xff0c;新建一个页面&#xff08;page&am…

vue+elementui实现英雄联盟道具城

目录 一、效果图 1.首页 2.商品列表、分类 二、实现重点讲解 1.首页轮播图 1.1技术实现&#xff1a; 1.2.鼠标聚焦切换图片事件 2.首页tab切换 3.商品列表实现 三、项目结构说明 四、总结 一、效果图 1.首页 项目与官方效果没有太大差异&#xff1a; 游戏导航&#xff1…

windows上VMware虚拟机彻底卸载详细教程

VMware虚拟机彻底卸载 一、彻底卸载过程1.1 停止VMware服务1.2 结束vmware任务1.3 开始卸载VMware1.4 删除注册表信息1.5 删除安装目录 二、vmware 安装教程三、vmware 使用教程 回到目录   回到末尾 一、彻底卸载过程 卸载之前&#xff0c;需要先关闭VMware相关的后台服务…

高速公路智慧稽核常用技术及发展方向浅析

交通运输部数据显示&#xff0c;截至2021年末&#xff0c;全国收费公路里程达18.76万公里&#xff0c;其中高速公路16.12万公里&#xff0c;占比高达85.9%&#xff0c;高速公路费用收缴的重要性尤为凸显。 收费系统作为高速公路的三大机电系统之一&#xff0c;在高速费用的收取…

【Java面试题】框架篇——Spring

文章目录 什么是Spring框架&#xff1f;Spring框架有哪些主要模块&#xff1f;Spring有几种配置方式&#xff1f;Spring框架中的单例Beans是线程安全的么&#xff1f;Spring 框架中都用到了哪些设计模式&#xff1f;★★★Spring AOP在实际项目中的应用★★★阐述一下Bean的生命…

使用 Transformers 为多语种语音识别任务微调 Whisper 模型

本文提供了一个使用 Hugging Face &#x1f917; Transformers 在任意多语种语音识别 (ASR) 数据集上微调 Whisper 的分步指南。同时&#xff0c;我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识&#xff0c;并提供了数据准备和微调的相关代码。如果你想…

django-vue-admin 运行记录

django-vue-admin 运行记录 1. 安装 ubuntu-20.04.6 桌面版 ubuntu-20.04.6-desktop-amd64.iso 桌面版本 桌面版的目的是 有浏览器可以看 django vue 的localhost网页。 用server版&#xff0c;需要用别的机器看&#xff0c;别的机器在权限上可能有问题。 sudo apt install …

ChatGLM2-6B-Int4本地部署

原文链接&#xff1a;http://wangguo.site/posts/9d8c1768.html ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本 GitHub地址&#xff1a;https://github.com/THUDM/ChatGLM2-6B 1、先看效果 2、本地部署 部署环境 wsl2-ubuntu22.04 LTS-----------------------…

计网简答题

答案不保证正确性&#xff0c;仅供参考。 1.有如图所示的以太网&#xff0c;每个交换机的名字及接口号、主机的名字及MAC地址都标明在图中。网络初启动时&#xff0c;两个交换机的转发表都为空&#xff0c;接着先后进行以下MAC帧传输&#xff1a;H1→H5&#xff0c;H3→H2&…

PG系列5:PG体系结构

文章目录 一. PG体系结构1.1 PG的体系结构概述1.2 PostgreSQL进程概述 二. PG内存结构三. PostgreSQL进程3.1 后台进程3.2 后端进程(backend)或服务器进程3.3 用户进程或客户端进程3.4 数据库服务器启动流程 四. PG逻辑结构4.1 PostgreSQL cluster4.2 database和cluster的关系4…

DevExpress WPF Scheduler组件,快速构建性能优异的调度管理器!(上)

无论您在WPF项目中是需要Outlook样式的调度程序&#xff0c;还是需要时间表或议程视图来向最终用户展示信息&#xff0c;DevExpress WPF Scheduler都提供了数十个选项&#xff0c;如集成的日程对话框等&#xff0c;因此用户可以快速构建下一个伟大的调度管理器。 DevExpress W…

抖音本地生活团购服务商

抖音本地生活团购服务商市场前景非常广阔。随着移动互联网的普及和人们对本地生活服务需求的增加&#xff0c;本地生活团购行业已成为一个快速增长的市场。而抖音平台拥有庞大的用户基础和强大的社交媒体传播力&#xff0c;为本地生活团购服务商提供了巨大的发展机遇。 抖音…

刷题日记《链表02》

题目描述 给定两个 非空链表 l1和 l2 来代表两个非负整数。数字最高位位于链表开始位置。它们的每个节点只存储一位数字。将这两数相加会返回一个新的链表。 可以假设除了数字 0 之外&#xff0c;这两个数字都不会以零开头。 解题思路 面对这种求和相加的题目&#xff0c;不知道…

windows 下安装 mysql-8.0.25 解压版

介绍 此文介绍 mysql-8.0.25-winx64 的 zip 解压版&#xff0c;在 windows 下的安装与配置过程。 官方下载 官网下载页&#xff1a; https://downloads.mysql.com/archives/community/ 进入官网&#xff0c;选择默认版本就行&#xff0c;不需要包含测试工具套件的版本 本地解…

C++ day40

1、思维导图 2、定义一个命名空间Myspace&#xff0c;包含以下函数&#xff1a;将一个字符串中的所有单词进行反转&#xff0c;并输出反转后的结果。例如&#xff0c;输入字符串为"Hello World"&#xff0c;输出结果为"olleH dlroW"&#xff0c;并在主函数…

0基础入门---第四章---误差反向传播法

&#x1f31e;欢迎来到深度学习的世界 &#x1f308;博客主页&#xff1a;卿云阁 &#x1f48c;欢迎关注&#x1f389;点赞&#x1f44d;收藏⭐️留言&#x1f4dd; &#x1f31f;本文由卿云阁原创&#xff01; &#x1f64f;作者水平很有限&#xff0c;如果发现错误&#xff…

Java性能权威指南-总结19

Java性能权威指南-总结19 Java EE性能调优JVM线程调优调节线程栈大小偏向锁自旋锁线程优先级 小结 Java EE性能调优Web容器的基本性能 Java EE性能调优 JVM线程调优 JVM的某些调优策略可以影响线程和同步的性能。 调节线程栈大小 当空间非常珍贵时&#xff0c;可以调节线程…

Day6——Web安全基础

网络安全学习笔记Day6 Web安全基础 一.Web简介什么是Web&#xff1f;什么是因特网&#xff1f;互联网&#xff0c;因特网&#xff0c;万维网的关系万维网构想的诞生http协议URL 二.Web发展史Web1.0Web2.01.0与2.0的区别Web1.0的安全漏洞Web2.0的安全漏洞 三.杂项门户网站静态页…