混淆矩阵、F1score详解

news2025/1/14 1:03:53

Confusion Matrix混淆矩阵

混淆矩阵(Confusion Matrix)

在这里插入图片描述

TP(True Positives):真正例,预测为正例而且实际上也是正例;
FP(False Positives):假正例,预测为正例然而实际上却是负例;
FN(false Negatives):假负例,预测为负例然而实际上却是正例;
TN(True Negatives):真负例,预测为负例而且实际上也是负例。
图例

如上图所示:

  • 绿色框中 实际上不是猫但预测结果是猫,这属于把负预测成正 为FP;1
  • 红色框中 实际上不是猫且预测结果也不是猫,这属于把负预测成负 为TN;4
  • 黄色框中 实际上是猫且预测结果也是猫,这属于把正预测成正 为TP;3
  • 蓝色框中 实际上是猫但预测结果不是猫,这属于把正预测成负 为FN;2
    在这里插入图片描述

准确率(accuracy):

所有预测正确的样本(包含正例或负例均预测正确,即正例预测为正TP或负例预测为负TN)占总样本的比例。
在这里插入图片描述
由图例上可知总样本(10个)中预测正确的有七个,准确率为7/10=70%。

虽然准确率能够判断总的正确率,但是在样本不均衡的情况下,并不能作为很好的指标来衡量结果。在样本不平衡的情况下,得到的高准确率没有任何意义,此时准确率就会失效。

精确率(也叫查准率,precision)

预测为正的正例样本与全部预测为正例的样本 (对于预测而言,包括真正例TP,假正例FP)的比值。即正确预测为正的占全部预测为正的比例,(真正正确的占所有预测为正的比例)
在这里插入图片描述
由上图例可知预测为正的样本中(4个)实际为正的由3个,精确率为3/4 = 75%。

我们关心的主要部分是正例,所以查准率就是相对正例的预测结果而言,正例预测的准确度。直白的意思就是模型预测为正例的样本中,其中真正的正例占预测为正例样本的比例,用此标准来评估预测正例的准确度。精确率代表对正样本结果中的预测准确程度,准确率则代表整体的预测准确程度,包括正样本和负样本。

即Precision是针对预测结果而言的。预测结果中,预测为正的样本中预测正确的概率。**类似于一个考生在考卷上写出来的答案中,正确了多少。**体现模型的精准度,模型说:我说哪个对哪个就是对的。

召回率(也叫查全率,recall)

预测为正的正例占全部实际为正例的样本 (可能将实际正例预测为正例即真正例TP,也可能实际正例预测为负例即假负例FN)的比例(真正正确的占所有实际为正的比例)
以实际样本为判断依据,实际为正例的样本中,被预测正确的正例占总实际正例样本的比例。
在这里插入图片描述
由上图例知实际为正的样本(5个)中预测为正的正样本为3个,召回率:3/5 = 60%。

Recall是针对数据样本而言的。数据样本中,正样本中预测正确的概率。**类似于一个考生在考卷上回答了多少题。**体现一个模型的全面性,模型说:所有对的我都能找出来。

F1-score

F-score 是一种用于评估二分类模型性能的指标,分别从两个角度,结合了模型的精确度(Precision)和召回率(Recall),主观(Predicted)和客观(Actual)上去综合的分析TP够不够大,帮助我们综合考虑模型的预测准确性和对正样本的捕捉能力。

  • FP/TP影响的是主观判断上TP够不够分量,也就是主观上TP这个值到底够不够大
  • FN/TP影响的是客观判断上TP够不够分量,也就是客观上TP这个值到底够不够大
精确率和召回率互相影响,理想状态下肯定追求两个都高,但是实际情况是两者相互“制约”:
追求精确率高,则召回率就低;追求召回率高,则通常会影响精确率。
我们当然希望预测的结果精确率越高越好,召回率越高越好, 但事实上这两者在某些情况下是矛盾的。
这样就需要综合考虑它们,最常见的方法就是F-score。 也可以绘制出P-R曲线图,观察它们的分布情况。
F1值为算数平均数除以几何平均数,且越大越好,将Precision和Recall的上述公式带入会发现,
当F1值小时,True Positive相对增加,而false相对减少,
即Precision和Recall都相对增加,即F1对Precision和Recall都进行了加权。

可以思考F1什么时候趋近于1,什么时候趋近于0?
在这里插入图片描述
由上图例可知F1= (23) / (23 + 1 + 2) = 66.6%。

F1的核心思想在于,在尽可能的提高Precision和Recall的同时,也希望两者之间的差异尽可能小。F1-score适用于二分类问题,对于多分类问题,将二分类的F1-score推广,有Micro-F1和Macro-F1两种度量。

结论: F-score的值 只有在Precision 和 Recall 都大的时候 才会大。

更一般的
在这里插入图片描述除了F1分数之外,F0.5分数和F2分数,在统计学中也得到了大量应用,其中,F2分数中,召回率的权重高于精确率,而F0.5分数中,精确率的权重高于召回率。

Macro-F1和Micro-F1

  • Macro-F1和Micro-F1是相对于多标签分类而言的。
  • Micro-F1,计算出所有类别总的Precision和Recall,然后计算F1。
  • Macro-F1,计算出每一个类的Precison和Recall后计算F1,最后将F1平均。

思考题:

下图中TN、FN、TP、FP、准确率、精确率、召回率、F1-score分别为多少?
在这里插入图片描述

参考1
参考2混淆矩阵五分钟入门
参考3

答案:

  • F-score = 0 (实际上是无限趋近于0)
    主观上TP很小 OR 客观上TP很小
    即 FP 或 FN 远大于TP,这里做极限假设我们可以知道F-score趋近于0
  • F-score = 1
    主观上和客观上来说TP都很大,也就是FP和FN都等于0(下限)。
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/875472.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

九五从零开始的运维之路(其三十一)

文章目录 前言一、什么是计划任务1.一次性任务2.周期性任务(一)在/etc/crontab文件中写入计划任务(二)使用crontab命令编辑计划任务 二、用户提权1.什么是用户提权2.su与su -3.sudo提权 总结 前言 本篇将简述的内容:L…

1+X 综合布线系统安装与维护职业技能等级证书实训室建设方案

一、1X 综合布线系统安装与维护职业技能等级证书建设方案系统概述 "1X 综合布线系统安装与维护职业技能等级证书系统"是中国职业教育改革的一项举措,旨在为综合布线系统安装与维护领域的从业人员提供职业技能评价和认证的体系。 该证书系统采用了"…

浪涌保护器中SPD防雷模块的主要应用方案

浪涌保护器(Surge Protective Device,SPD)是一种用于限制瞬态过电压和导引泄放电涌电流的非线性防护器件,用以保护耐压水平低的电器或电子系统免遭雷击及雷击电磁脉冲或操作过电压的损害。SPD可以将过电压泄放到地线或限制过电压到…

如何高效地进行事件降噪

在事件处理方面,一般我们会遇到两个痛点,一个是告警事件太多,被过度打扰,另一个是重要告警疏漏,无法闭环处理。 告警太多的常见原因 最常见的原因,是告警规则设置得不合理。比如很多规则触发了告警之后&a…

5.内置构造函数

在JavaScript中最主要的数据类型有6种: 1.基本数据类型: 字符串、数值、布尔、undefined、 null 2.引用类型:对象 但是,我们会发现有些特殊情况: //普通字符串 const str andy console.1og(str.length) // 4其实字符串、数值、布尔、等基本类型也都有…

【MySQL--->表的操作】

文章目录 [TOC](文章目录) 一、创建表二、查看表三、修改表四、删除表drop table 表名; ![在这里插入图片描述](https://img-blog.csdnimg.cn/15227b8335364d41bd01b4b4dd83ee55.png) 一、创建表 语句格式:create table 表名(列名 类型,…)字符集 校验规则 存储引擎;字符集和校…

一盏茶的时间,带你轻松上手Pinia

🎬 岸边的风:个人主页 🔥 个人专栏 :《 VUE 》 《 javaScript 》 ⛺️ 生活的理想,就是为了理想的生活 ! 目录 📚 前言 📘 创建 Pinia 📘 Option Store 📘 Pinia 提供多种选项配…

JavaEE——网络编程(UDP套接字编程)

文章目录 一、简单理解Socket 套接字二、UDP 数据报套接字编程三、编写简单的 UDP 版本服务器客户端1. 编写 UDP 版本的回显服务器回显服务器整体代码罗列 2. 编写 UDP 版本的回显客户端回显客户端整体代码罗列 四、总结与代码运行结果解释 一、简单理解Socket 套接字 概念&am…

实践-传统深度学习

简介与安装 2 训练自己的数据集整体流程3 数据加载与预处理4 搭建网络模型5 学习率对结果的影响6 Drop-out操作7 权重初始化方法对比8 初始化标准差对结果的影响9 正则化对结果的影响10 加载模型进行测试 TensorFlow:每一步都需要自己做。 Keras:做起来更…

Redis_缓存2_缓存删除和淘汰策略

14.5 缓存数据的删除和替换 14.5.1 过期数据 可以使用ttl查看key的状态。已过期的数据,redis并未马上删除。优先去执行读写数据操作,删除操作延后执行。 14.5.2 删除策略 redis中每一个value对应一个内存地址,在expires,一个内…

关于海外应用ASO优化的一些热知识

应用程序市场挤满了人,我们不能依靠运气来帮助应用程序在全球应用市场上被发现,其中大约有 500 万个应用程序争夺相同的客户。ASO是应用营销活动的重要组成部分,其目的是提高应用程序在Google Play Store和Apple App Store中的可见度。 1、为…

怎么截取视频制成GIF?教你简单的GIF制作方法

怎么将一段视频截取片段制作成GIF动图呢?很多小伙伴在看到一段视频中的搞笑片段,想要将其制作成GIF表情包来在社交平台上发送、交流,那样会非常有趣,GIF动图能够很好的表达我们的情绪,因此该怎么制作呢?教大…

安利5个:在线帮助文档协同与团队知识库管理工具!

在线帮助文档协同与团队知识库管理工具是帮助团队共享和管理知识的重要工具。下面是我推荐的五个工具,并对它们的优点和缺点进行了简要描述。其中,我特别推荐Baklib这个工具。 Confluence: 优点:Confluence是Atlassian公司的产品&#xff0…

OLED透明屏批发:解读未来显示技术的创新与机遇

在数字化时代,OLED透明屏作为一种创新的显示技术,吸引了广泛的关注和应用。本文将深入探讨OLED透明屏的优势和应用领域,分析其在批发市场中的需求和机遇。 一、OLED透明屏的优势和应用领域 OLED透明屏的定义和原理: OLED透明屏采…

KU Leuven TU Berlin 推出“RobBERT”,一款荷兰索塔 BERT

荷兰语是大约24万人的第一语言,也是近5万人的第二语言,是继英语和德语之后第三大日耳曼语言。来自比利时鲁汶大学和柏林工业大学的一组研究人员最近推出了基于荷兰RoBERTa的语言模型RobBERT。 谷歌的BERT(来自Transformers的B idirectional …

搞什么副业可以月入过万?

现在的社会发展非常快,因此出现了许多非常有用而充满娱乐性的兼职职位。这些兼职职位可以让你放松自己的身心,同时还能获得高额报酬。下面兼职网将提供一些正规的兼职职位,可以助你月入数万。 第一种:网络直播主播 网络直播现在非…

redis — 基于Spring Boot实现redis延迟队列

1. 业务场景 延时队列场景在我们日常业务开发中经常遇到,它是一种特殊类型的消息队列,它允许把消息发送到队列中,但不立即投递给消费者,而是在一定时间后再将消息投递给消费者。延迟队列的常见使用场景有以下几种: 在…

Linux目录结构(快速了解)

linux目录结构 核心 1.Linux一切皆文件 2.只有一个顶级目录,而windows分C盘、D盘等 目录结构 目录含义(与windows进行比对) Linux含义windows/bin所有用户可用的基本命令存放的位置windows无固定的命令存放目录/bootlinux系统启动的时候需要…

JaCoCo助您毁灭线上僵尸代码 | 京东物流技术团队

一. 现状问题 随着需求不断迭代,业务系统的业务代码突飞猛进,在你自豪于自己的代码量产出很高时,有没有回头看看线上真正的客户使用量又有多少呢? 费事费力耗费大量人力,成本上线的功能,可能一年没人使用…

一文讲透!请收下这份“完美”地图贴图的制作攻略

3D渲染中,我们称传入材质的纹理为贴图。贴图一词强调其用途,当某个纹理用于在材质中实现法线效果时,我们称之为法线贴图。而在EasyV中,我们地图组件填充样式中的自定义上传的图片称之为「地图贴图」,主要用于地图表面/…