11. 机器学习 - 评价指标2

news2025/1/11 14:25:13

文章目录

    • 混淆矩阵
    • F-score
    • AUC-ROC

在这里插入图片描述

更多内容: 茶桁的AI秘籍

Hi, 你好。我是茶桁。

上一节课,咱们讲到了评测指标,并且在文章的最后提到了一个矩阵,我们就从这里开始。

混淆矩阵

在我们实际的工作中,会有一个矩阵,这个矩阵是分析结果常用的。

Image 2023-10-18 192838.png

我们来看看具体是什么意思。

所谓的True condition, 指的是真实值, Predicted condition,指的是预测值。

其中行表示,Predicted condition positive表示预测值是1,Predicted condition negative表示预测值是0。

列表示则为:Condition positive表示真实值是1, Condition negative表示真实值是0。

这样行列交叉就组成了这样一个矩阵。这个矩阵叫做混淆矩阵, 英文名字叫做Confusion Matrix.

这个混淆矩阵是什么意思呢?

True Positive 意思就是预测值是1, 预测对了,True negative意思是预测值是0, 预测对了。那相对的, False positive意思就是预测值是1, 预测错了, False negative意思就是预测值是0, 预测错了。

混淆矩阵在常见的机器学习里边是一个很重要的分析工具:

from sklearn.metrics import confusion_matrix
confusion_matrix(true_labels, predicated_labels)

—
array([[59,  6],
       [ 6, 29]])

我们可以直接看看这个方法的源码里有相关说明:

??confusion_matrix

---
def confusion_matrix(
    ...
    the count of true negatives is :math:`C_{0,0}`, 
    false negatives is :math:`C_{1,0}`, 
    true positives is :math:`C_{1,1}` 
    false positives is :math:`C_{0,1}`.
    ...

tp实际上是1预测值是1,tn实际是0预测是0, fp实际是0预测是1 fn实际是1预测是0

這個時候我們再回頭來看上节课结尾处的那个公式:

P r e c i s i o n = t p t p + f p R e c a l l = t p t p + f n \begin{align*} Precision & = \frac{tp}{ tp + fp} \\ Recall & = \frac{tp}{tp + fn} \end{align*} PrecisionRecall=tp+fptp=tp+fntp

很多人看到这个就有点晕, 其实很简单. 切换成我们刚才查看源码时查询到的就就成了这样:

P r e c i s i o n = C ( 0 , 0 ) C ( 0 , 0 ) + C ( 1 , 0 ) R e c a l l = C ( 0 , 0 ) C ( 0 , 0 ) + C ( 0 , 1 ) \begin{align*} Precision & = \frac{C(0, 0)}{ C(0, 0) + C(1, 0)} \\ Recall & = \frac{C(0, 0)}{C(0, 0)+ C(0, 1)} \end{align*} PrecisionRecall=C(0,0)+C(1,0)C(0,0)=C(0,0)+C(0,1)C(0,0)

tp是实际上是positive, 预测也是positive. fp就是实际上并不是positive,但是预测的值是positive. 那么tp+fp就是所有预测为positive的值. 所以precision就是预测对的positive比上所有预测的positive.

fn指的是实际上是positive, 但是预测值并不是positive的值. 所以tp+fn就是所有实际的positive值, recall就是预测对的positive比上所有实际的positive值.

我们这样对比着矩阵和公式来理解Precision和Recall是不是就清晰了很多? 这就是position和recall根据混淆矩阵的一种定义方式.

刚刚讲了baseline, baseline是在做评估的时候要知道结果一定要比什么好才行.如果是个二分类问题, 基本上是一半一半, 准确度是50%, 那基本上就没用.

Precision和recall这两个是针对于分类问题进行评价, 那我们怎么解决回归问题的评价呢?

回归问题,它也有一个accuracy如下:

a c c ( y , y ^ ) = ∑ i ∈ N ∣ y i − y ^ i ∣ a c c ( y , y ^ ) = ∑ i ∈ N ∣ y i − y ^ i ∣ 2 a c c ( y , y ^ ) = ∑ i ∈ N ∣ y i − y i ^ ∣ ∣ y i ∣ acc(y, \hat y) = \sum_{i \in N}|y_i - \hat y_i| \\ acc(y, \hat y) = \sum_{i \in N}|y_i - \hat y_i|^2 \\ acc(y, \hat y) = \sum_{i \in N} \frac{|y_i - \hat{y_i}|}{|y_i|} acc(y,y^)=iNyiy^iacc(y,y^)=iNyiy^i2acc(y,y^)=iNyiyiyi^

除此之外, regression问题里面有一个比较重要的评价方式叫做R2-scoree:

R 2 ( y , y ^ ) = 1 − ∑ i = 1 n ( y i − y ^ i ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 R^2(y, \hat y) = 1 - \frac{\sum_{i=1}^n(y_i - \hat y_i)^2}{\sum_{i=1}^n(y_i - \bar y)^2} R2(y,y^)=1i=1n(yiyˉ)2i=1n(yiy^i)2

  • 第一种情况: 如果所有的y_i和yhat_i的值都相等, 那么R2(y, yhat) = 1
  • 第二种情况: 如果所有的yhat_i是y_i的平均值, 那么R2(y, yhat) = 0
  • 第三种情况: 如果R2的值比0还小, 就意味着它还不如我们做统计求平均值,瞎猜的结果. 也就是连baseline都没达到.

R2-scoree之所以常常会被用于进行回归问题的评测, 主要的原因就是它防止了机器作弊.

比方说我们现在有一组数据, 这组数据实际都是0.99, 0.97, 0.98…, 这些数字都很小, 而且都很密集. 那么给机器使用的时候随便做一个平均值, 感觉到准确度还挺高, 那就被骗了.

F-score

在precision和recall之外, 还有一个比较重要的内容, 叫做F-score.

首先我们要知道, precision和recall这两个值在实际工作中往往是相互冲突的. 为了做个均衡, 就有了F-score.

F − s c o r e = ( 1 + β 2 ) ∗ p r e c i s i o n × r e c a l l β 2 ∗ p r e c i s i o n + r e c a l l \begin{align*} F-score & = \frac{(1+\beta^2) * precision \times recall}{\beta^2 * precision + recall} \end{align*} Fscore=β2precision+recall(1+β2)precision×recall

β \beta β是自行定义的参数,由这个式子可见F-score能同时考虑precision和recall这两种数值。分子为precision和recall相乘,根据式子,只要precision或recall趋近于0,F-score就会趋近于0,代表着这个算法的精确度非常低。一个好的算法,最好能够平衡recall和precision,且尽量让两种指标都很高。所以有一套判断方式可以同时考虑recall和precision。当 β → 0 \beta \to 0 β0, F-score就会退化为precision, 反之, 当 β → ∞ \beta \to \infty β, F-socre就会退化为recall.

我们一般说起来, F-score没有特别定义的话, 就是说 β \beta β为1, 一般我们写成F1-score.

F 1 − s c o r e = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l \begin{align*} F1-score & = 2 \times \frac{precision \times recall}{precision + recall} \end{align*} F1score=2×precision+recallprecision×recall

F1-score是仅当precision和recall都为1的时候,其值才等于1. 而如果这两个值中任意一个不为1时,其值都不能等于1. 也就是说,当2*1/2 = 1时, F1-score=100%, 代表该算法有着最佳的精确度.

AUC-ROC

除了F-score之外,还有比较重要的一个概念: AUC-ROC. 这个也是为了解决样本不均衡提出来的一个解决方案.

Alt text

首先我们要先了解ROC曲线(receiveroperating characteristic), ROC曲线上的每一个点反映着对同一信号刺激的感受. AOC(Area under Curve), 是ROC曲线下的面积, 取值是在0.1 ~ 1 之间.

我们直接来看看,它在实际场景下是怎么用的.

还记得咱们在之前设定的阈值decision_boundary = 0.5, 我们就拿这个阈值来看. threshold:0.5. 在我们二分类问题中, 当预测值大于0.5的时候,也就等于1了. 也就是说,只要超过0.5, 我们就判定为positive值.

好,现在还是的请我们劳烦了无数次的警察a同志来帮帮我们. 当警察a去抓罪犯的时候,盘但一个人是不是犯了罪, 他的决策很重要. 在事实清晰之前,警察a的决策只有超过0.5的时候,才能判定这个人是positive,也就是罪犯. 这个时候呢,我们假设precision是0.7.

现在又需要警察b出场了, 这个警察b的threshold为0.1的时候, 其precision就为0.7. 也就是说,他预计出的值,只要大于0.1, 就判定为positive, 这种情况下, 警察b判定的precision为0.7.

别急,这次需要的演员有点多,所以,警察c登场了. 那么警察c的threshold为0.9. 也就是说,警察c比较谨慎, 只有非常确定的时候, 才能判定positive. 警察c的情况,判定的precision也是0.7.

好,现在我们来用脑子思考下, 这三个警察哪个警察能力最强?

必须是警察b最厉害.

就如我们上面的那四个坐标轴, X轴代表threshold, Y轴表实positive, 当threshold轴上的取值还很小的时候, positive已经很大了.那明显紫色线条和threshold轴圈住的区域面积越大, 这个面积就是越大越好.

这就是AUC for ROC curves, 这个主要就是为了解决那些样本及其不均衡的问题. 因为样本非常不均衡的时候, position和recall你有可能都会很低, 这个时候就不好对比. AUC曲线对于这种情况就比较好用一些.

其实在真实情况下, 绝大多数问题都不是很均衡的问题. 比方说预测病, 找消费者, 找高潜力用户. 换句话说, 如果高潜用户多就不用找了.

我们在研究ROC曲线实际应用的时候,依然会用到上面给大家所讲的tp, fp, fn, tn. 这里会引出另外两个东西, TPR和FPR, 如下:

T P R = t p t p + f n F P R = f p f p + t n \begin{align*} TPR & = \frac{tp}{tp+fn} \\ FPR & = \frac{fp}{fp+tn} \end{align*} TPRFPR=tp+fntp=fp+tnfp

我们来看看咱们之前的这组数据的AUC值:

from sklearn.metrics import roc_curve, auc

fpr, tpr, thresholds = roc_curve(true_labels, losses)

roc_auc = auc(fpr, tpr)
print('AUC: {}'.format(roc_auc))

---
AUC: 0.9300356506238858

Alt text

下一节课,咱们来说一个非常重要的概念:拟合和欠拟合.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1112706.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计算机网络笔记】OSI参考模型基本概念

系列文章目录 什么是计算机网络? 什么是网络协议? 计算机网络的结构 数据交换之电路交换 数据交换之报文交换和分组交换 分组交换 vs 电路交换 计算机网络性能(1)——速率、带宽、延迟 计算机网络性能(2)…

分布式存储 vs. 全闪集中式存储:金融数据仓库场景下的性能对比

作者:深耕行业的 SmartX 金融团队 张德敏 近年来随着金融行业的高速发展,经营决策者及监管机构对信息时效性的要求越来越高,科技部门面临诸多挑战。例如,不少金融机构使用数仓业务系统,为公司高层提供日常经营报表&am…

阿里云服务器x86计算架构ECS规格大全

阿里云企业级服务器基于X86架构的实例规格,每一个vCPU都对应一个处理器核心的超线程,基于ARM架构的实例规格,每一个vCPU都对应一个处理器的物理核心,具有性能稳定且资源独享的特点。阿里云服务器网aliyunfuwuqi.com分享阿里云企业…

InitializeComponent报错(提示不存在)

我是c#新手。为了解决这个问题,需要按照以下步骤进行。、 WPF应用(.NET Framework) 解决问题 首先,确保项目的类型为WPF应用(.NET Framework); 然后,代码的位置应正确处于项目的MainWindow.xaml.cs; 最后&#xff0c…

Deno 快速入门

目录 1、简介 2、安装Deno MacOS下安装 Windows下安装 Linux 下安装 3、创建并运行TypeScript程序 4、内置Web API和Deno命名空间 5、运行时安全 6、导入JavaScript模块 7、远程模块和Deno标准库 8、使用deno.json配置您的项目 9、Node.js API和npm包 10、配置IDE…

宏(预编译)详解

目录 一、程序的编译环境 二、运行环境 三、预编译详解 3.1预定义符号 3.2.1 #define 定义标识符 3.2.2 #define 定义宏 3.2.3#define替换规则 3.2.4 #和## 2)##的作用: 3.2.5宏和函数的对比 3.2.6宏的命名约定和#undef指令 一、命名约定: …

CCC数字钥匙设计【NFC】--通过NFC进行车主配对Phase3

1、车主配对流程介绍 车主配对可以通过车内NFC进行,若支持UWB测距,也可以通过蓝牙/UWB进行。通过NFC进行车主配对总共有5个Phase。本文档主要对Phase3进行介绍。 1) Phase0:准备阶段; 2) Phase1:启动流程&#xff1…

C语言中的3种注释方法

C语言中的3种注释方法 2021年8月28日星期六席锦 在用C语言编程时,常用的注释方式有如下几种: (1)单行注释 // … (2)多行注释 /* … */ (3)条件编译注释 #if 0…#endif (1)(2)在入门教程中比较常见。 对于(1) 【单行注释 // …】,注释只能显示…

将输入对象转换为数组数组的维度大于等于1numpy.atleast_1d()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 将输入对象转换为数组 数组的维度大于等于1 numpy.atleast_1d() 选择题 使用numpy.atleast_1d()函数,下列正确的是? import numpy as np a1 1 a2 ((1,2,3),(4,5,6)) print("…

Dev-C++ 软件安装教程(附安装包下载)

Dev-C(123网盘)提取码:EoF8https://www.123pan.com/s/JRpSVv-dKnjv.html (软件包下载后,右键解压) 一、打开文件夹,双击“Dev-C” 二、软件安装,点击“OK” 三、点击“I Agree” 四、点击“Ne…

计算机视觉基础(5)——特征点及其描述子

前言 本文我们将学习到特征点及其描述子。在特征点检测中,我们将学习角点检测和SIFT关键点检测器,角点检测以哈里斯角点检测器为例进行说明,SIFT将从高斯拉普拉斯算子和高斯差分算子展开。在描述子部分,我们将分别学习SIFT描述子和…

49数码论坛系统设计与实现

大家好✌!我是CZ淡陌。一名专注以理论为基础实战为主的技术博主,将再这里为大家分享优质的实战项目,本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目,希望你能有所收获,少走一些弯路…

浅析限流式保护器在低压配电系统中电气火灾的应用

安科瑞 华楠 【摘要】文章分析了低压配电系统短路的类型、原因及火灾危险性,并提出改善措施。 【关键词】:低压配电系统; 短路; 措施 0引言 随着人类进入现代文明社会,电气的普及深入千家万户,广泛应用于…

npm ERR! exited with error code: 128

1.遇到的问题 报错信息:npm ERR! E:\tools\Gitt\Git\cmd\git.EXE ls-remote -h -t https://github.com/nhn/raphael.git npm ERR! npm ERR! fatal: unable to access https://github.com/nhn/raphael.git/: OpenSSL SSL_read: Connection was reset, errno 10054 …

FPGA project : IIC_wr_eeprom

简介: 简单双向二线制,同步串行总线。 scl:串行时钟线,用于同步通讯数据。 sda:双向串行数据线。 物理层: 1,支持挂载多设备。 2,二线制。 3,每个设备有其单独的地…

【已解决】java的gradle项目报错org.gradle .api.plugins .MavenPlugin

我的java的gradle项目经常报错org.gradle .api.plugins .MavenPlugin。报错这个问题是因为依赖起冲突了,我在网上试了很多方法都没有效果,折让小编我很是苦恼,不过还好到最后问题还是解决了。 首先要知道你的项目所使用的gradle版本&#xf…

Webpack十大缺点:当过度工程化遇上简单的静态页面

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

React-Router路由

1.React Router的基本使用 安装:安装时,选择react-router-dom,react-router会包含一些react-native的内容,web开发并不需要; npm install react-router-dom 路径模式 BrowserRouter使用history模式; Hash…

【六:(mock数据)spring boot+mybatis+yml】

目录 1.1、代码编写Demo类User类启动类 APplication 1.2、配置类查询语句的配置 mysql.ymlspringboot的配置 application.yml日志的配置 logback.xml数据库的配置 mybatis-config.xml 1.3、测试:1.3.1、测试获取用户数1.3.2、添加用户1.3.3、数据的更新1.3.4、数据的…

【八:(调springboot+testng+mybatis+数据校验】

目录 1、代码结构configcontrollermodelspringboot启动类 2、配置资源mysql.xmlapplication.ymllogback.xmlmybatis-config.xml数据库配置 3、测试验证 1、代码结构 config package com.course.config; import org.springframework.context.annotation.Bean; import org.sprin…