分类模型评估指标详解(二分类、多分类、混淆矩阵)

news2024/11/26 9:44:49

 、二分类评估

1.混淆矩阵 (ConfusionMatrix)

TP:1的预测为1 (正确的积极) 正确判断

FP:0预测为1 (错误的积极) 错误判断

FN:1预测为0 (正确的消极) 漏判断的

TN:0预测为0 (错误的消极) 成功未判断的

(accuracy):预测对的值占预测总的概率 (PR)                       精准(precision)=TP/(TP+FP)----- 目标指标预测正确的的概率(预测股票的涨/跌)precision_score

召回率覆盖率: (recall)=TP/ (TP+FN) ------找到预测目标指标的概率(找病人)recall_score

2.F1-score

召回率和精确率之间往往存在此消彼长的关系,当模型能找出更多的正样本时,往往也会导致将更多的负样本分类为正样本,即recall高时,precision往往较低,而precision高时,recall往往较低。为了在这两个指标之间取得平衡,发明了F1指标,它是上述两者的调和平均数。

F1-Score(平衡精准率和召回率) = 2*Precision*Recall/(Precision+Recall)

precisionrecall相互平衡

决策边界--阈值:threshold

score分数值

阈值 (threshold) :进行判断区分的值

循环获取每个threshold对应的精确率 (precisions) 和召回率(recalls)

3.RP曲线(precision/recall) 曲线函数:

precision_recall_curve

获取每个阈值对应的精确率和召回率的值

X-精准(precision)=TP/(TP+FP)----- 目标指标预测正确的的概率(预测股票的涨 跌) 

Y-召回率(recall): =TP/ (TP+FN) ------找到预测目标指标的概率(找病人) 

4.ROC曲线  ( TPR和FPR之间的关系)

ROC曲线/AUC(Area Under the Curve,曲线下面积)

ROC曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,曲线下面积越大,诊断准确性越高。

横坐标:1-Specificity,伪正类率(False positive rate,

FPR),预测为正但实际为负的样本占所有负例样本的比例;

FPR=FP/(TN+FP)预测错了占不是目标值的比例 (找非目标值为目标值的概率) X

纵坐标:Sensitivity,真正类率(True positive rate,

TPR),预测为正且实际为正的样本占所有正例样本的比例。

TPR=TP/(TP+FN)预测对的占目标值的比例 (召回率recall:找到目标值的概率) Y

AUC ( ROC曲线的面积:最大为1) :面积越大越好

应用场合:比较两个模型的优

P/RROC是两个不同的评价指标和计算方式,  一般情况下,  检索用前者,  识别等用后者。

、  多分类评估

多分类问题的所有指标基本上都来自于二分类指标,但是要对所有类别进行平均。多分类的精度被定义为正确分类的样本所占的比例。

同样,如果类别是不平衡的,精度并不是很好的评估度量。除了精度,常用的工具有混淆矩阵和分类报告。

对于多分类问题中的不平衡数据集,最常用的指标就是多分类版本的f- 分数。多分类f- 分数背后的想法是,对每个类别计算一个二分类f- 分数,其中该类别是正类,其他所有类别组成反类。然后,使用以下策略之一对这些按类别f- 分数进行平均。

对于多分类模型的评价方法,通常是先将其转换为多个二分类模型,分别对其进行指标计算,然后使用一些规则来把这些指标汇总起来。

比如一个多分类模型的样本标签有A、B、C三类,则先把它看作三个二分类器,分类器1的标签为A,非A;分类器2的标签为B,非B;分类器3的标签为C,非C。对每个二分类器的评估我们已经知道了,但要评估分类器的总体功能,就需要考虑三个类别的综合预测性能。

下面有三种常用的汇总准则:

1.“宏”(macro)平均

Macro-average方法,对各个二分类器的评估指标求平均。该方法受样本量小的类别影响大。

该方法最简单,直接将不同类别的评估指标(Precision/ Recall/ F1-score)加起来求平均,给所有类别相同的权重。该方法能够平等看待每个类别,但是它的值会受稀有类别影响。

2.“加权”(weighted)平均

以每个类别的支持作为权重来计算按类别f- 分数的平均值。分类报告中给出的就是这个值。

Weighted-average方法,对各个二分类器的评估指标求加权平均,权重为该类别在总样本中的占比。该方法受样本量大的类别影响大。

该方法给不同类别不同权重(权重根据该类别的真实分布比例确定),每个类别乘权重后再进行相加。该方法考虑了类别不平衡情况,它的值更容易受到常见类(majority class)的影响

3.“微”(micro)平均:

计算所有类别中假正例、假反例和真正例的总数,然后利用这些计数来计算准确率、召回率和f- 分数。

Micro-average方法,把每个类别的TP, FP, FN先相加之后,在根据二分类的公式进行计算。

该方法把每个类别的TP, FP, FN先相加之后,在根据二分类的公式进行计算。

例:

实际值 (0-9)

预测值 (0-9)

十分类混淆矩阵:

实际值对应预测值的个数  (对角线为预测值=实际值:  即预测正确)

评估 参数:

每一行的预测错误占该行总预测数的比例  (err_matrix)

:  将1预测为9,  将8预测为1的比率大

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/746460.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity使用UGUI划线

Unity 里面虽然提供Linerender绘制线条,但是只能在3D空间划线,有时候需要在UI上绘制指定的线条,柱状图,饼状图等就可以采用下面的方式了。 创建DrawLine,继承MaskableGraphic类,重写OnPopulateMesh(VertexH…

【VirtualBox】win10安装配置 Vbox---超详细 最新 持续更新中

概述 一个好的文章能够帮助开发者完成更便捷、更快速的开发。书山有路勤为径,学海无涯苦作舟。我是秋知叶i、期望每一个阅读了我的文章的开发者都能够有所成长。 一、开发环境 VirtualBox 官网开发环境:windows10VirtualBox:VirtualBox7.0…

超级应用App的建设路径:业务功能小程序化

过往硅谷巨头对于「微信」这样的「超级应用」不屑一顾,如今Super App似乎已经成为巨头间的一个新共识,Meta、Snap、Uber等公司逐步将更多功能塞进现有App。 Facebook 做起了约会、招聘;Snap 则实打实学起了微信的「平台战略」,开始…

Java虚拟机(JVM)介绍

JVM是什么 JVM是Java Virtual Machine的缩写。它是一种基于计算设备的规范,是一台虚拟机,即虚构的计算机。 JVM屏蔽了具体操作系统平台的信息(显然,就像是我们在电脑上开了个虚拟机一样),当然,J…

js (一)数据类型与判断

数据类型 基本(值)类型: String 字符串是不可变的 let lang“java”; lang lang “script”; //先销毁再创建 Number 在数值类型中,存在一个特殊数值NaN,意为“不是数值”,用于表示本来要返回数值的…

计算机网络——计算机网络体系结构

文章目录 **1 计算机网络概述****1.1 概念****1.2 组成****1.3 功能****1.4 分类****1.5 性能指标** **2 计算机网络体系结构与参考模型****2.1 计算机网络分层结构****2.2 计算机网络协议,接口,服务的概念****2.3 ISO/OSI参考模型和TCP/IP模型** 1 计算…

操作系统Linux-day02

Linux学习 常见的cmd命令 winR 输入cmd打开窗口 ipconfig 查看ip地址信息ping查看网络连接情况或者网速情况 ping内网,外网,路由cd change directory 切换目录 cd 目录名称 切换到目录下 cd .. 切换到上一级 cd / 切换到根目录 dir 显示目录中的文…

Oracle初级

目录 概念 数据库分类 Oracle 存储结构 安装成功 ​编辑 创建用户和表空间 以超级管理员身份登录 创建表空间 创建用户 给用户授权 查询测试 概念 数据库(database): 物理操作系统文件或磁盘的集合。简单来说数据库的意思是数据的集合。 DBM…

基于51单片机的智能照明控制系统

**功能:**基于51单片机的智能照明控制系统,以51系列单片机为核心,使用光敏传感模块(采用ADC0832对光敏电路进行AD转换)、红外传感模块与声敏传感模块组成检测装置,并采用PWM对照明灯的光强度进行控制。 1.本设计分为手动模式和自动…

Python入门自学进阶-Web框架——37、异步IO与scrapy

异步IO: 一个请求多个网址并获取返回值的程序: import requestsurl_list [https://www.baidu.com,https://www.google.com,https://www.bing.com,https://www.sohu.com, ] for url in url_list:print(开始请求:,url)response requests.ge…

B068-项目实战-技术准备-Nosql-redis

目录 概述Redis简介:NoSql分类:Redis是什么特点(优势)Mysql、Memcached和Redis的比较使用场景 应用安装使用默认客户端redis-cli/命令行操作对value为string类型的常用操作对key的常用操作对list集合的常用操作其他命令行操作 jav…

JavaWeb(1)——HTML、CSS、JS 快速入门

JavaWeb 是使用 Java 技术来构建 Web 应用程序的一种方法。 HTML(超文本标记语言,负责网页的结构)是一种用于创建网页结构和内容的标记语言。它由一系列标签组成,每个标签都有特定的功能。开发人员可以使用 HTML 来定义页面的结构…

工作学习笔记

文章目录 一、java基础1、Hashcode的作用2、String、String StringBuffer 和 StringBuilder 的区别是什么?3、 Java的四种引用,强弱软虚4、3*0.1 0.3返回值是什么5、final修饰引用数据类型 二、jvm1、内存模型2、如何判断对象可以被回收3、Minor GC与Full GC分别在…

泊松比、泊松比范围、广义胡克定律、体积应变方程

泊松比(Poisson’s ratio)提供了有关不同材料在负载下如何变形的关键信息,将施加载荷的方向称为纵向(longitudinal direction),将垂直方向称为横向(lateral directions) 当在一个方…

RK3568平台开发系列讲解(编解码篇)编解码功能介绍及体验

🚀返回专栏总目录 文章目录 一、编解码功能简介二、音频和视频播放的操作2.1、使用 gplay 播放器播放视频和音频2.2、使用 gst-launch 播放视频2.3、使用 gst-launch 播放音频2.4、使用 gst-launch 播放视频和音频沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇…

优化SQL查询实现高效数据检索(二)

大家好,本文将接着上文,继续介绍SQL查询优化的重要性以及如何优化SQL查询以实现更快的数据检索。 适当使用通配符 适当使用通配符对于优化SQL查询尤为重要,特别是在匹配字符串和模式方面。通配符是用于SQL查询中查找特定模式的特殊字符&…

【学生系统】基于结构体的一个训练小项目

(꒪ꇴ꒪ ),hello我是祐言博客主页:C语言基础,Linux基础,软件配置领域博主🌍快上🚘,一起学习!送给读者的一句鸡汤🤔:集中起来的意志可以击穿顽石!作者水平很有限,如果发现错误&#x…

Go []uint8和string的爱恨情仇

先上代码: package mainimport "fmt"func main() {byteSlice : []uint8{52, 44, 51} // 示例字节切片str : string(byteSlice)fmt.Printf("byteSlice:%v\r\n", str) }// 执行-输出 byteSlice:4,3 干货: 在Go语言中,[]u…

TiDB-学习笔记02

编写这个笔记,希望能记录下学习TiDB时候的知识点。 参考文章 目的链接&详细TiDB中文手册 Overview 面板重要监控指标详解 | PingCAP 文档中心 第二章 章节Overview 面板重要监控指标详解 | PingCAP 文档中心 认识Grafana Grafana监控TiDB 对应中文手册的【14…

如何使用 Java 代理插件在不更改应用程序代码的情况下捕获自定义指标

作者:Jack Shirazi Elastic APM Java 代理会自动跟踪许多指标,包括通过 Micrometer 或 OpenTelemetry Metrics API 生成的指标。 因此,如果你的应用程序(或其包含的库)已公开来自这些 API 之一的指标,则安装…