paper 阅读: An introduction to ROC analysis

news2024/11/16 1:43:13

发布于2005年,附论文链接如下:

https://ccrma.stanford.edu/workshops/mir2009/references/ROCintro.pdf

之前一直都是从各种博客上了解ROC的,最近才看到这一篇paper。 

写在前面

用 True(T)和 False(F)分别表示预测是正确还是错误。
用 positive(P)和 negative(N)分别表示预测为正例和预测为负例。

TPR = R = \frac{TP}{TP + FN} , [TP] / [正样本数目]

FPR = \frac{FP}{FP+TN},[FP]/[负样本数目]

P = \frac{TP}{TP+FP} , [TP] / [预测为正的数目]

accuracy = \frac{TP+TN}{FP+FN},  [预测正确的数目] / [预测错误的数目]

F-measure = \frac{2}{1/P + 1/R}

分类任务有两类输出:一类是直接输出离散值,即直接预测类别;一类是输出连续值,可以理解为属于正例的概率。

ROC space

ROC曲线是用来权衡收益(true positive)和损失(false positive)的。

先看直接预测类别的

那些直接预测类别的分类器,仅能产生出一对(fpr,tpr),具体的表现在ROC的图上就是一个单独的点。我们知道ROC曲线可以通过卡阈值来得到一堆(fpr,tpr)的pair对,它们的连线就是我们常见的ROC曲线。但是直接预测标签的,只能输出离散值如0/1,这就不能卡不同阈值来得到一堆(fpr,tpr)的pair对了。

一些特殊的点的解释:

(0,0),表示 tpr 和 fpr 均为0,即 TP 和 FP 均为0,也即分类器从不会将样本判为正例,所有的预测类别均是负例。(1,1)表示 tpr 和 fpr 均为1,即 TP 和正样本数目相等,即所有的正例均预测为正,FP 于负样本数目相等,即所有的负例均预测为正,也即分类器给出全是正例的判定。(0,1)表示完美的分类器。

若在ROC曲线的左上半且临近X轴,表明该分类器比较保守,它们仅在置信度很高的情况下判为正例,所以很少产生FP(将负样本预测为正),但是它们的TP比例也很少。例如相对于B,A比较保守,具体表现为A的横纵坐标均小于B的横纵坐标。现实世界的许多场景被大量的负例支配,因此ROC图最左侧的性能变得更加重要。

关于随机

对角线 y=x 表示随机猜测类别的策略。例如若一个分类器以50%的概率随机预测为正类,那么它可以预期得到一半的正类和一半的负类;这产生ROC空间中的点(0.5,0.5)。如果它在90%的概率内预测为正类,那么它可以预期得到90%的阳性正确率,但其假阳性率也将增加到90%,在ROC空间中产生(0.9,0.9),与样本中正负比例不相干,随机意味着一个样本以p的概率预测为正,也即正样本是以p的概率预测为正,这就是 tpr ,负样本以p的概率预测为正,这就是fpr,可见 tpr=fpr=p 。

如果我们否定一个分类器,也就是说,在每一个实例上反转它的分类决策,那么它的真阳性分类就变成假阴性错误,而假阳性就变成真阴性。因此,任何在右下三角中产生点的分类器都可以被否定以在左上三角中产生一个点 。Therefore, any classifier that produces a point in the lower right triangle can be negated to produce a point in the upper left triangle。例如反转后,E就得到B。这种可以反转的性质也是由于分母分别是正样本数目和负样本数目,与预测类别无关。举例如下,可见反转前后两个tpr之和为1,两个fpr之和也为1,原本在右下区域的【tpr < fpr,即 1-tpr > 1-fpr】,反转后就是tpr>fpr,在左上区域。

反转前
预测为正预测为负
正样本ab
负样本cd
反转后
预测为正预测为负
正样本ba
负样本dc

ROC曲线

这里指预测是连续值,并不一定是严格意义上代表概率。由于样本数目有限ROC曲线是阶跃的形式,随着样本数目增多,ROC曲线会变得光滑。PR曲线并不是一直降的(中间可能有反复);ROC曲线是一直上升的(或者说不会存在下降的地方)。

 将预测值逆序排序,先卡一个很大的正数做阈值,这时候分类器不会给出预测正的决策,即图上的点(0,0),随着我们降低阈值到最大的输出值(对应图上的0.9),这时候只有一个样本被判定为正样本,对应图上的(0,0.1)。直至最后我们将阈值降到最小输出值(图上的0.1),这时候所有样本均被判为正,对应图上的(1,1)。貌似在保守区ROC曲线上来看表现的更好,ROC曲线在(0.1,0.5),对应的阈值是0.54(而不是0.5,This is equivalent to saying that the classifier is better at identifying likely positives than at identifying likely negatives),处达到最大accuracy(70%)。

相对分数与绝对分数

分类器不需要产生准确的、校准的概率估计;它只需要产生相对准确的分数来区分正例和负例。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/32470.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

BGP进阶:BGP 基础实验配置

实验拓扑 实验需求 R1、R2、R3属于AS123&#xff0c;R4属于AS 400&#xff1b;AS123内的R1、R2、R3运行OSPF&#xff0c;通告各自直连接口&#xff0c;注意OSPF域的工作范围&#xff1b;R3-R4之间建立eBGP邻居关系&#xff0c;R2暂时不运行BGP&#xff0c;R1-R3之间建立iBGP邻…

MCE | D-萤光素 Protocol 在手,生物发光检测无忧!

■ Q: D-萤光素的作用原理 D-萤光素 (D-Luciferin) 是萤火虫萤光素酶 (Firefly Luciferase) 的化学发光底物。在ATP 和萤光素酶存在下&#xff0c;萤光素能够被氧化发光 (图 1)。当萤光素过量时&#xff0c;发光亮度与萤光素酶浓度呈正相关。通过萤光素/萤光素酶生物发光体系&…

小程序容器技术加快推动国产操作系统“上车”

计算机是当前乃至未来的基础工具&#xff0c;而负责管理计算机硬件与软件资源、提供必须的人机交互机制的操作系统无疑是整个计算机的核心系统软件。 可以说&#xff0c;操作系统是当前一个国家提升综合实力过程中必须要攻克、掌握的核心技术之一。 国产操作系统多为以Linux为…

猫狗肠道菌群—“主子们”的健康新领域

随着生活水平提升&#xff0c;我国养宠人士逐年增多。数据显示&#xff0c;我国城镇养宠人士达到6844万多人&#xff0c;且仍在不断增长。 其中养猫人群数占比59.5%&#xff0c;养狗人群数占比51.7%&#xff0c;养水族类占比8.3%&#xff0c;养爬行类宠物的占比为5.8%&#xff…

Linux 文件操作(三) —— 获取并打印某个文件的属性(文件类型、执行权限、文件大小)

目录 1、获取文件属性 stat / lstat / fstat (1) 参数 path (2) 参数 buf (3) 返回值 2、获取并打印某个文件的属性 (1) 获取文件类型 (2) 获取文件权限 (3) 获取文件大小 (4) 获取上一次的访问时间 (5) 最终代码 1、获取文件属性 stat / lstat / fstat stat / lsta…

[附源码]java毕业设计疫情防控期间网上教学管理

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

数据分析可视化之模型介绍

一 前言 “数据分析可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。 数据分析可视化&#xff1a;是指将大型数据集中的数据以图形图像形式表示&#xff0c;并利用数据分析和开发工具发现其中未知信息的处理过程。 数据可视化已经提出了许多方法&…

【软件工程导论】1.软件过程模型

软件过程模型什么是软件过程模型包括瀑布模型特点演化模型特点增量模型特点原型模型类型使用策略废弃策略追加策略螺旋模型特点什么是软件过程模型 又叫作软件开发模型、软件生存周期模型 包括 瀑布模型 每一阶段都会生成文档 特点 缺乏灵活性在交互使用时才能发现问题&…

用HTML+CSS仿网易云音乐网站(6个页面)_实训素材

⛵ 源码获取 文末联系 ✈ Web前端开发技术 描述 网页设计题材&#xff0c;DIVCSS 布局制作,HTMLCSS网页设计期末课程大作业 | 音乐网页设计 | 仿网易云音乐 | 各大音乐官网网页 | 明星音乐演唱会主题 | 爵士乐音乐 | 民族音乐 | 等网站的设计与制作 | HTML期末大学生网页设计作…

ubuntu 安装 k8s 记录 2 初始化

ubuntu 安装 k8s 记录 2 初始化初ubuntu 安装 k8s 记录初始化初始化前置条件查询本机 ip需要docker初始化报错禁止 Swap 分区禁用 CRI重启 containerd重置节点初始化初始化报错设置驱动向 docker 看齐如果遇到出错要重新初始化&#xff0c;先执行下面两个步骤关闭 swap 并重新设…

业务增长遇到瓶颈?这些用大数据驱动业务增长的方法你一定要看看

目录 前言 一、海量数据处理方案 1.1 大数据存储 1.1.1 传统数据存储 1.1.2 云大数据仓库 1.2 数据BI快速展示 1.2.1大数据BI产业链结构分析 1.2.2 华为一站式大数据BI方案 前言 随着大数据与云原生的快速发展融汇交互&#xff0c;各技术领域又将来临新一波迅雷之势的挑…

数据增强

在训练数据拆分上评估数据增强&#xff0c;以增加高质量训练样本的数量。 Intuition 通常希望通过数据扩充来增加训练数据的规模和多样性。它涉及使用现有样本生成合成但真实的示例。 拆分数据集。想首先拆分数据集&#xff0c;因为如果允许将生成的样本放置在不同的数据拆分中…

HTML+CSS+JS环境保护网页设计期末课程大作业 web前端开发技术 web课程设计 网页规划与设计

&#x1f380; 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业…

FEDformer 代码分析(2)

首先总结一下FEDformer里面这些这些东西&#xff0c; mean的尺寸是&#xff1a;&#xff08;1,96,7&#xff09; seasonal_init的尺寸是&#xff1a;&#xff08;1,144,7&#xff09; trend_init的尺寸是&#xff1a;&#xff08;1,144,7&#xff09; zeros的尺寸是&#x…

[附源码]java毕业设计疫苗接种管理系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

四、图片特效

目录一、灰度处理二、颜色反转三、马赛克四、毛玻璃五、图片融合六、边缘检测与浮雕效果1 - 边缘检测2 - 浮雕效果七、颜色映射八、油画效果一、灰度处理 使用openCV的imread方法实现 import cv2img0 cv2.imread(image0.jpg, 0) img1 cv2.imread(image0.jpg, 1) print(img0…

嵌入式学习笔记(1)基本知识、C语言常用关键字、OLED

STM32是ST公司基于ARM Cortex-M内核开发的32位微控制器 STM32常应用在嵌入式领域&#xff0c;如智能车、无人机、机器人、无线通信、物联网、工业控制、娱乐电子产品等 STM32功能强大、性能优异、片上资源丰富、功耗低&#xff0c;是一款经典的嵌入式微控制器 STM32F103C8T6 系…

windows + anaconda 安装PySpark3.0.1

1、背景 Spark作为分布式内存计算框架&#xff0c;可以广泛应用在数据处理、分析等应用场景。因此&#xff0c;希望借助Spark高性能的处理项目中的数据&#xff0c;搭建此开发环境&#xff0c;深入了解Spark的处理能力与实现机制。 2、开发环境 在windows10上使用Anaconda作为…

微信小程序使用github协作

微信小程序github协作所需相关设置 1.点击开发工具右上角的版本管理初识化本地仓库&#xff1a; 2.去github新建一个仓库&#xff0c;复制仓库的ssh的url添加到仓库设置中的远程连接中&#xff1a; 3.在仓库设置中的通用里设置好自己的用户名和邮箱 4.生成ssh key 由于我们使…

web前端网页制作课作业——用DIV+CSS技术设计的家乡旅游主题网站

家乡旅游景点网页作业制作 网页代码运用了DIV盒子的使用方法&#xff0c;如盒子的嵌套、浮动、margin、border、background等属性的使用&#xff0c;外部大盒子设定居中&#xff0c;内部左中右布局&#xff0c;下方横向浮动排列&#xff0c;大学学习的前端知识点和布局方式都有…