机器学习之查准率、查全率与F1

news2024/9/24 17:13:12

文章目录

  • 查准率(Precision):
  • 查全率(Recall):
  • F1分数(F1 Score):
  • 实例
  • P-R曲线
  • F1度量
  • python实现

查准率(Precision):

定义: 查准率是指在所有被分类为正类别的样本中,有多少比例的样本实际上是正类别的。它强调的是模型预测为正类别的样本中真正是正类别的比例。
应用场景: 当我们关心的是确保被模型预测为正类别的样本确实是正类别时,例如在医学诊断中,确保模型预测为患有某种疾病的患者确实患有该疾病。

查准率表示在所有被模型预测为正类别的样本中,有多少比例的样本实际上是正类别的。具体计算公式为:

在这里插入图片描述

查全率(Recall):

定义: 查全率是指在所有实际正类别的样本中,有多少比例的样本被模型成功地预测为了正类别。它强调的是模型能够捕捉到实际正类别样本的能力。
应用场景: 当我们关心的是确保所有真实正类别的样本都被模型找出来时,例如在安全检查中,确保所有危险品都被检测出来。
查全率表示在所有实际正类别的样本中,有多少比例的样本被模型成功地预测为了正类别。具体计算公式为:
在这里插入图片描述

F1分数(F1 Score):

定义: F1分数是查准率和查全率的调和平均数,它综合了查准率和查全率的信息,可以帮助我们在精度和召回率之间找到一个平衡点。
应用场景: 当我们需要综合考虑查准率和查全率时,避免查准率和查全率出现明显的不平衡时,例如在信息检索中,需要同时考虑搜索结果的准确性和完整性。

实例

这里写一个二分类的问题来展示什么是查准率查全率

在这里插入图片描述
在这里插入图片描述
为什么我们要关注全差率,和查准率呢?

挑出来的西瓜有多少西瓜是好瓜
挑出来的西瓜有多少是坏瓜
这个就要看自己关系什么了

这里的表2.1 的混淆矩阵(代码实现不是二分类)可以用Python实现:

from sklearn.metrics import confusion_matrix
import numpy as np

# 示例的真实标签和预测标签
y_true = np.array([1, 0, 1, 2, 0, 1, 2, 3, 2])
y_pred = np.array([1, 0, 1, 2, 0, 2, 1, 3, 2])

# 计算混淆矩阵
conf_matrix = confusion_matrix(y_true, y_pred)

# 输出混淆矩阵
print("Confusion Matrix:")
print(conf_matrix)

P-R曲线

关于全查率,和查准率的 P-R曲线
在这里插入图片描述
在图中 A曲线 包含C 曲线,所有一般来说A曲线优于C曲线,
在A曲线与B曲线当中,有交叉则需要看他们所围成的面积。但是这个面积通常不容易计算,所有找了平衡点(Break-Event Point)来评价 他是 全差率=查准率的点。

F1度量

但是平衡点还是过于简单所以有了F1度量。
在这里插入图片描述

P:查准率
R:查全率
TP:真正列
TN:真反列
注意看:上面的表2.1

注意: 在某些应用中 查全率和查准率的重视程度不一致。
比如说在:

  • (1)商品推销当中,为了尽量打扰用户,更喜欢退出的是用户感兴趣的此时查准率比较重要。
  • (2)在抓捕逃犯信息当中,希望尽可能减少漏掉逃犯则这个时候查全率比较重要。

为了更好的确定度量,表达出查全率\查准率的偏好我们将定义F为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


多次训练测试时取平均的F1(宏F1- mocro-F1)
在这里插入图片描述
在这里插入图片描述

python实现

P-R(Precision-Recall)曲线是一种用于可视化分类模型在不同阈值下查准率(Precision)和查全率(Recall)之间权衡关系的图形。以下是绘制P-R曲线的一般步骤:

  1. 计算不同阈值下的查准率和查全率: 使用不同的阈值将模型的预测概率转换为类别标签,然后计算每个阈值下的查准率和查全率。

  2. 绘制P-R曲线: 将计算得到的查准率和查全率值组成的点按照阈值的顺序绘制在二维坐标系上,横轴为查全率(Recall),纵轴为查准率(Precision)。

以下是一个Python示例代码,演示如何绘制P-R曲线,其中假设y_true为真实标签,y_scores为模型的预测概率。
= 这里也有阈值,就是thresholds ===

from sklearn.metrics import precision_recall_curve
import matplotlib.pyplot as plt

# 示例的真实标签和模型预测概率
y_true = [1, 1, 0, 1, 0, 1, 1, 0, 0, 1]
y_scores = [0.8, 0.7, 0.4, 0.6, 0.3, 0.9, 0.5, 0.2, 0.1, 0.75]

# 计算P-R曲线的查准率、查全率和阈值
precision, recall, thresholds = precision_recall_curve(y_true, y_scores)

# 绘制P-R曲线
plt.figure(figsize=(8, 6))
plt.plot(recall, precision, marker='.')
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('P-R Curve')
plt.grid(True)
plt.show()

在这个例子中,precision_recall_curve函数会返回在所有可能阈值下的查准率、查全率和相应的阈值。然后,通过plt.plot()函数绘制这些点,就得到了P-R曲线。曲线上的每个点对应于一个特定的阈值,展示了在该阈值下模型的查准率和查全率。通常,P-R曲线越靠近右上角,表示模型在不同阈值下的性能越好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1134176.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ORB-SLAM安装过程遇到问题记录整理

一、ORB-SLAM2 1.c error: ‘decay_t’ is not a member of ‘std’ 如下图所示: 解决方法: 修改 ORB_SLAM的 CMAKELIST.txt文件, 将set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -stdc11") 修改为 set(CMAKE_CXX_STANDARD 14) 2…

R语言的极值统计学、分位数回归、机器学习方法

受到气候变化、温室效应以及人类活动等因素的影响,自然界中极端高温、极端环境污染、大洪水和大暴雨等现象的发生日益频繁;在人类社会中,股市崩溃、金融危机等极端情况也时有发生;今年的新冠疫情就是非常典型的极端现象。研究此类…

2017年亚太杯APMCM数学建模大赛B题喷雾轨迹规划问题求解全过程文档及程序

2017年亚太杯APMCM数学建模大赛 B题 喷雾轨迹规划问题 原题再现 喷釉工艺用喷釉枪或喷釉机在压缩空气下将釉喷入雾中,使釉附着在泥体上。这是陶瓷生产过程中一个容易实现自动化的过程。由于不均匀的釉料在烧制过程中会产生裂纹,导致工件报废&#xff0…

065:mapboxGL在一个图层中随机添加100个标记(marker)

第065个 点击查看专栏目录 本示例的目的是演示如何在vue+mapbox中在一个图层上随机添加100个标记(marker)。要添加多个标记,或者向交互式 Web 或移动地图添加标记,通常必须提供 GeoJSON 格式或矢量切片集的点数据。 您可以在运行之前将数据添加到地图样式,方法是使用 Mapb…

python html(文件/url/html字符串)转pdf

安装库 pip install pdfkit第二步 下载程序wkhtmltopdf https://wkhtmltopdf.org/downloads.html 下载7z压缩包 解压即可, 无需安装 解压后结构应该是这样, 我喜欢放在项目里, 相对路径引用(也可以使用绝对路径, 放其他地方) import pdfkit# 将 wkhtmltopdf.exe程序 路径 p…

STM32F4VGT6-DISCOVERY:uart1驱动

对于这款板子&#xff0c;官方并没有提供串口例程&#xff0c;只能自行添加。 一、PA9/PA10复用成串口1功能不可用 驱动测试代码如下&#xff1a; main.c: #include "main.h" #include <stdio.h>void usart1_init(void) {GPIO_InitTypeDef GPIO_InitStruct…

题目 1120: C语言训练-“水仙花数“问题2python详解)——练气三层后期

✨博主&#xff1a;命运之光 &#x1f984;专栏&#xff1a;算法修炼之练气篇&#xff08;C\C版&#xff09; &#x1f353;专栏&#xff1a;算法修炼之筑基篇&#xff08;C\C版&#xff09; &#x1f352;专栏&#xff1a;算法修炼之练气篇&#xff08;Python版&#xff09; ✨…

基于 nodejs+vue城市轨道交通线路查询系统mysql

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性&#xff1a;…

.NET、VUE利用RSA加密完成登录并且发放JWT令牌设置权限访问

后端生成公钥私钥 使用RSA.ToXmlString(Boolean) 方法生成公钥以及私钥。 RSACryptoServiceProvider rSA new(); string pubKey rSA.ToXmlString(false);//公钥 string priKey rSA.ToXmlString(true);//私钥 后端将生成的公钥发送给前端 创建一个get请求&#xff0c;将…

关于网络安全运营工作与安全建设工作的一些思考

以下内容是个人成长过程中对于网络安全运营工作的理解和思考&#xff0c;希望通过这篇文章帮助大家更好的去做安全运营体系化建设&#xff0c;开始吧&#xff01; 文章目录 一、网络安全运营是什么&#xff1f;二、网络安全运营建设阶段第一阶段&#xff1a;设备限制阶段第二阶…

思维导图软件 ConceptDraw MINDMAP mac中文特色介绍

ConceptDraw MINDMAP mac是一款思维导图绘制软件&#xff0c;它可以帮助用户快速创建各种类型的思维导图&#xff0c;如组织结构图、流程图、概念图和UML图等。该软件具有直观的界面和简单易用的操作方式&#xff0c;使得用户能够轻松地创建复杂的思维导图。此外&#xff0c;它…

【Java集合类面试二十六】、介绍一下ArrayList的数据结构?

文章底部有个人公众号&#xff1a;热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享&#xff1f; 踩过的坑没必要让别人在再踩&#xff0c;自己复盘也能加深记忆。利己利人、所谓双赢。 面试官&#xff1a;介绍一下ArrayList的数据…

C++ list 模拟实现

目录 1. 基本结构的实现 2. list() 3. void push_back(const T& val) 4. 非 const 迭代器 4.1 基本结构 4.2 构造函数 4.3 T& operator*() 4.4 __list_iterator& operator() 4.5 bool operator!(const __list_iterator& it) 4.6 T* operator->…

douyin ios 六神参数学习记录

玩那么久安卓了&#xff0c;也终于换一换ios终端分析分析&#xff0c;还是熟悉的x-gorgon&#xff0c;x-argus&#xff0c;x-medusa那些参数。 随便抓个抖音 ios版本的接口&#xff1a; 像评论接口&#xff1a; https://api26-normal-hl.amemv.com/aweme/v2/comment/list/?…

Unsatisfied dependency expressed through bean property ‘sqlSessionTemplate‘;

代码没有问题&#xff0c;但是启动运行报错 2023-10-25 16:59:38.165 INFO 228964 --- [ main] c.h.h.HailiaowenanApplication : Starting HailiaowenanApplication on ganluhua with PID 228964 (D:\ganluhua\code\java\hailiao-java\target\classes …

mysql 基础知识

MySQL 是一种关系型数据库&#xff0c;在Java企业级开发中非常常用&#xff0c;因为 MySQL 是开源免费的&#xff0c;并且方便扩展。阿里巴巴数据库系统也大量用到了 MySQL&#xff0c;因此它的稳定性是有保障的。MySQL是开放源代码的&#xff0c;因此任何人都可以在 GPL(Gener…

HarmonyOS鸿蒙原生应用开发设计- 华为分享图标

HarmonyOS设计文档中&#xff0c;为大家提供了独特的华为分享图标&#xff0c;开发者可以根据需要直接引用。 开发者直接使用官方提供的华为分享图标内容&#xff0c;既可以符合HarmonyOS原生应用的开发上架运营规范&#xff0c;又可以防止使用别人的内容产生的侵权意外情况等&…

大型应用的架构演进--spring家族在其中的作用

01 大型应用的架构演进 带来的挑战&#xff1a; 运维与监控 分布式带来的复杂性 接口的调整成本 测试成本 依赖管理成本 02 Spring家族 在我看来&#xff0c;springboot的3大特点(我常用的)&#xff1a;内置的web容器&#xff1b;开箱即用的starter模版&#xff1b;自动配置&…

什么是光学字符识别 (Optical Character Recognition)?

人工智能如何推动光学字符识别OCR的发展 人工智能正在不断改变着光学字符识别&#xff08;Optical Character Recognition&#xff09;工具的功能。作为计算机视觉的一个分支领域&#xff0c;OCR主要用于处理文本图像&#xff0c;将图像中的文本转换为机器可读的形式。换言之&…

JS小数运算精度丢失的问题

工作中会不会经常会碰到一些数据指标的计算&#xff0c;比如百分比转化&#xff0c;保留几位小数等&#xff0c;就会出现计算不准确&#xff0c;数据精度丢失的情况。通过这篇分享借助第三方库能够轻松解决数据精度丢失的问题。 一、场景复现 JS数字精度丢失的一些常见问题 /…