【Maching Learning】深度学习常用评价指标（分类+回归）

【Maching Learning】深度学习常用评价指标（分类+回归）

news2025/7/8 8:07:57

深度学习分类、回归问题评价指标

- 一、分类评价指标
- - 1.1混淆矩阵
  - 1.2准确率（Accuracy）
  - 1.3精确率（Precision）
  - 1.4召回率（Recall）
  - 1.5 ${F}_{1}$ 分数（F-Score，调和平均）和 ${F}_{β}$ （加权调和平均）
  - 1.6 P-R曲线与AP、mAP
  - 1.7 ROC-AUC
- 二、回归评价指标
- - 2.1 MAE平均绝对误差
  - 2.2 MSE均方误差
  - 2.3 RMSE根均方误差
  - 2.4 MAPE平均绝对百分别误差
  - 2.6 SMAPE对称平均绝对百分比误差
  - 2.7 ${R}^{2}$ 决定系数
- 三、Python代码实现

在评估不同的机器学习模型的好坏时，需要用到一些评价和指标。其中有监督学习主要包括两类：分类问题和回归问题。可以根据两者输出类型不同，进行简单区别。

Classification 分类: 给定类别选项，函数输出正确选项，单选或者多选。输出是类别，离散值。
Regression 回归：函数的output是数字（scalar），可以选择线性模型，或者非线性模型。输出是数字，连续值。

一、分类评价指标

1.1混淆矩阵

混淆矩阵一般不会直接作为评价指标，但是他定义了常用指标中的一些符合的含义，以二分类问题为例，矩阵表现形式如下：

在这里插入图片描述

P(Positive) 和 N(Negative)代表模型的判断结果；T(True) 和 F(False)评价模型的判断结果是否正确。

混淆矩阵的对角线表示判断正确，其余表示判断错误。

假设待检测事件为是否会发生故障：（故障为正样本）

TP (True Positive）：正确识别出故障；（T：结果正确，P：故障发生）
FP（False Positive）：检测出故障，实际未发生故障（错误检测）；
FN（False Negative）：有故障，但未识别出；
TN（True Negative）：正确检测出未发生故障

模型训练的目标是降低FP和FN，至于具体是哪一个，需要看具体的需求。

降低假正例（FP）：假设在垃圾邮件分类任务中，垃圾邮件为正样本。如果我们收到一个正常的邮件，比如某个公司或学校的offer，模型却识别为垃圾邮件（FP），那将损失非常大。所以在这种任务中，需要尽可能降低假正例。
降低假负数例（FN）：假设在一个癌症检测问题中，每100个人中就有5个人患有癌症。在这种情况下，即使是一个非常差的模型也可以为我们提供95％的准确度。但是，为了捕获所有癌症病例，当一个人实际上没有患癌症时，我们可能最终将其归类为癌症。因为它比不识别为癌症患者的危险要小，因为我们可以进一步检查。但是，错过癌症患者将是一个巨大的错误，因为不会对其进行进一步检查。

1.2准确率（Accuracy）

准确率（Accuracy）：在所有样本中，有多少样本被正确检测

在这里插入图片描述

注：Accuracy适合样本类别均衡的情况，在样本不平衡的情况下，产生效果较差。假设我们的训练数据中只有2%的正样本，98%的负样本，那么如果模型全部预测为负样本，准确率便是98%,。分类的准确率指标很高，呈现出模型很好的假象。

1.3精确率（Precision）

Precision（精准率）：又称查准率，预测为正例的样本中有多少实际为正。即你认为的正样本，有多少是猜对的。

在这里插入图片描述

注：准确率可以反映一个类别的预测正确率。

1.4召回率（Recall）

Recall（召回率）：又称查全率，实际为正例的样本有多少被预测为正。即正样本有多少被找出来了（召回了多少），召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。

在这里插入图片描述

注：召回率可以衡量模型找到所有相关目标的能力，即模型给出的预测结果最多能覆盖多少真实目标。召回率和精确率都只能衡量检索性能的一个方面，是一对矛盾的指标，当召回率高的时候，精确率一般很低；精确率高时，召回率一般很低。

1.5 ${F}_{1}$ 分数（F-Score，调和平均）和 ${F}_{β}$ （加权调和平均）

F1是基于精确率和召回率的调和平均，又称为F-Score

在这里插入图片描述

β>1：召回率（Recall）影响更大，eg. ${F}_{2}$
β<1：精确率（Precision）影响更大，eg. ${F}_{0.5}$

β=1时，得到F1如下：

在这里插入图片描述

1.6 P-R曲线与AP、mAP

P-R曲线：通过选择不同的阈值，得到Recall和Precision，以Recall为横坐标，Precision为纵坐标得到的曲线图。

在这里插入图片描述

PR曲线性质：

如果一个学习器的P-R曲线被另一个学习器的曲线完全包住，后者性能优于前者;
如果两个学习器的曲线相交，可以通过平衡点（如上图所示）来度量性能；
如果有个划分点可以把正负样本完全区分开，那么P-R曲线面积是1*1；

阈值下降：

Recall：不断增加，因为越来越多的样本被划分为正例，假设阈值为0.，全都划分为正样本了，此时recall为1；
Precision：正例被判为正例的变多，但负例被判为正例的也变多了，因此precision会振荡下降，不是严格递减；

AP（average precision）：Precision-recall 曲线下围成的面积，一般一个分类器性能越好，AP值越高。
mAP（mean average precision）：多个类别AP的平均值。

1.7 ROC-AUC

ROC（Receiver Operating Characteristic）曲线：曲线的横坐标为假正例率（FPR），即实际为负的样本有多少被预测为正；纵坐标为TPR(真正例率)，即实际为正的样本多少被预测为正。

在这里插入图片描述

TPR和FPR的范围均是[0,1]，通过选择不同的阈值得到TPR和FPR，然后绘制ROC曲线。

在这里插入图片描述

AUC (Area under Curve)：即ROC曲线下的面积，介于0.1和1之间，作为数值可以直观的评价分类器的好坏，值越大越好。

二、回归评价指标

2.1 MAE平均绝对误差

MAE（Mean Absolute Error）：计算每一个样本的预测值和真实值的差的绝对值，然后求和再取平均值。

在这里插入图片描述

其中， ${y}_{i}$ 为真实值， $\hat{y}$ 和 $f{(x}_{i})$ 为为模型的预测值。

2.2 MSE均方误差

MSE（Mean Square Error）：计算每一个样本的预测值与真实值差的平方，然后求和再取平均值

在这里插入图片描述

2.3 RMSE根均方误差

RMSE（Root Mean Square Error）：在均方误差MSE的基础上开方

在这里插入图片描述
注：取均方误差的平方根可以使得量纲一致，这对于描述和表示是有意义的

2.4 MAPE平均绝对百分别误差

MAPE（Mean Absolute Percentage Error）：计算对相对误差损失的预期。所谓相对误差，就是绝对误差和真值的百分比

在这里插入图片描述

注：当真实值有数据等于0时，存在分母0除问题，该公式不可用！

2.6 SMAPE对称平均绝对百分比误差

SMAPE（Symmetric Mean Absolute Percentage Error）：

在这里插入图片描述
注：真实值、预测值均等于0时，存在分母为0，该公式不可用！

2.7 ${R}^{2}$ 决定系数

${R}^{2}$ 决定系数（Coefficient of determination）: 被称为最好的衡量线性回归法的指标。

在这里插入图片描述

关于公式：

分母代表baseline（平均值）的误差，分子代表模型的预测结果产生的误差；
预测结果越大越好， ${R}^{2}$ 为1说明完美拟合， ${R}^{2}$ 为0说明和baseline一致；

使用同一个算法模型，解决不同的问题时，由于不同的数据集的量纲不同，MSE、RMSE等指标不能体现此模型针对不同问题所表现的优劣，无法判断模型更适合预测哪个问题。 ${R}^{2}$ 得到的性能度量都在[0, 1]之间，可以判断此模型更适合预测哪个问题。

三、Python代码实现

暂时空着，实践整理后完善 ~~~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/366952.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

vue实现预览、下载和打印后端返回的pdf文件流

vue实现预览、下载和打印后端返回的pdf文件流

需求：后端返回pdf文件流，前端能够预览、下载打印。后端返回的文件流部分截图需要实现的效果图前面第1步只是为了展示后台返回数据流，完成功能的时候，不需要调用接口的，只需要利用调用接口的url。实现步骤&am…

阅读更多...

Aspose.Imaging for .NET V23

Aspose.Imaging for .NET V23

Aspose.Imaging for .NET V23 Aspose.Imaging for.NET是帮助开发人员在自己的应用程序中创建、编辑、绘制或转换图像的类库。它包括在不安装Photoshop或任何其他图像编辑器的情况下以Adobe Photoshop原生格式保存的功能。Aspose.Imaging for.NET是一个灵活稳定的API&#xff0c…

阅读更多...

frp内网穿透容器化快速部署

frp内网穿透容器化快速部署

关于frp frp可以作为一个流量代理代发，可以将公网的流量转发到内网访问，从而实现访问公网即可访问到内网。使用例子：两个不同局域网之间ssh访问 GitHub官网见：frp 详细使用见：frp详细使用机器选择为便于快速部署…

阅读更多...

（考研湖科大教书匠计算机网络）第六章应用层-第六节：电子邮件

（考研湖科大教书匠计算机网络）第六章应用层-第六节：电子邮件

获取pdf：密码7281专栏目录首页：【专栏必读】考研湖科大教书匠计算机网络笔记导航文章目录一：电子邮件（1）概述（2）举例二：简单邮件传送协议SMTP（1）SMTP基本工作…

阅读更多...

震撼！阿里首次开源 Java 10万字题库，Github仅一天星标就超60K

震撼！阿里首次开源 Java 10万字题库，Github仅一天星标就超60K

程序员面试现在是程序员找工作、跳槽最重要的月份。随着行业的发展程序员面试也越来越难，面试中都是7分的能力，再加上3分的技巧； 对于应聘者，重中之重的就是简历，面试前一定要将最拿手和最能吸引面试官的技能在简历…

阅读更多...

Liunx常用命令行

Liunx常用命令行

Liunx常用命令行大全文件与目录创建删除mkdir命令rm命令touch命令跳转查看cd命令ls命令文本编辑工具VIM进程展示正在运行进程进程管理文件与目录创建删除 mkdir命令 mkdir weiweiPractice：创建weiweiPractice目录 rm命令 rm -r weiweiPractice：删除…

阅读更多...

【Leedcode】数据结构中链表必备的面试题（第三期）

【Leedcode】数据结构中链表必备的面试题（第三期）

【Leedcode】数据结构中链表必备的面试题（第三期） 文章目录【Leedcode】数据结构中链表必备的面试题（第三期）一、第一题1.题目2.思路3.源代码二、第二题1.题目2.思路(1)第一种情况：偶数个链表(2)第二种情况&#xff1a…

阅读更多...

达梦数据库闪回查询

达梦数据库闪回查询

当用户操作不慎导致错误的删改数据时，非常希望有一种简单快捷的方式可以恢复数据。闪回技术，就是为了用户可以迅速处理这种数据逻辑损坏的情况而产生的。闪回技术主要是通过回滚段存储的 UNDO 记录来完成历史记录的还原。如果提交了，还没有…

阅读更多...

钉钉微应用 - - - - 如何本地开发调试

钉钉微应用 - - - - 如何本地开发调试

关于钉钉微应用开发，真的尝尽了苦头。要么是因为非钉钉环境报错，要么是发版到钉钉之后看不到日志的难受。之前写过一个钉钉微应用 - - - - 如何本地开发调试？算是解决了一部分问题，但还是很不方便。最近才发现，钉…

阅读更多...

编写NodeJs脚本实现接口请求

编写NodeJs脚本实现接口请求

要编写运行脚本，需要先搭建开发环境环境搭建 nodeJs脚本运行，当然需要先安装nodejs环境官方地址在这里: nodejs官网打开官网地址，可以看到下面一句话： Node.js is an open-source, cross-platform JavaScript runtime environment. 在打开的页面，可以直接下载最新的…

阅读更多...

测试员，如果未来5年你不想失业……你得学会自动化测试

测试员，如果未来5年你不想失业……你得学会自动化测试

工作中总会遇到各种各样的无常，这边测试工具的工作你刚刚接手，那边又临时紧急插播一个接口测试任务，这对于测试老鸟来说已然是常态，但对新手来说却是个挑战。不得不承认，工作就是在无限的变化和挑战中不断的磨炼我们…

阅读更多...

anchor box只是先验知识，bounding box是一种过程，ground truth才是标准答案，

anchor box只是先验知识，bounding box是一种过程，ground truth才是标准答案，

anchor boxes是一组提前预定义的边框，这些框的宽高和数据集中目标物体的宽高大体是一致的，换句话说，数据集中的绝大多数物体都能找到与其大小一致的anchor box。举例来说，如果数据集中包含苹果、猫，那么这组anchor bo…

阅读更多...

Python|Leetcode刷题日寄Part03

Python|Leetcode刷题日寄Part03

Python|Leetcode刷题日寄Part0301：买卖股票的最佳时机02：合并两个有序数组03：三数之和04：找出字符串中第一个匹配项的下标05：全排列06：用队列实现栈07：加一08：电话号码的字母组合09&…

阅读更多...

ubuntu 20.04 虚拟机和物理机之间无法拖动文件

ubuntu 20.04 虚拟机和物理机之间无法拖动文件

相信kali大家总用过吧，在主机和虚拟机之间畅通无阻的拖动文件是一件很舒服的事情。但是ubuntu不能这样很麻烦。第一种方法这是网上最多的方法，就是修改VMtools，但是这种方法不好用，只能让文件进来，而且还是比较麻烦…

阅读更多...

HMM隐马尔可夫模型 | 关键原理+面试知识点

HMM隐马尔可夫模型 | 关键原理+面试知识点

😄 HMM之前跟人生导师：李航学习过，这里结合自己的理解，精简一波HMM，总结一下面试中高频出现的要点。文章目录 1、何为HMM？2、HMM三要素：3、HMM两大强假设4、HMM三个基本问题：5、HMM中涉及的算法6、HMM缺点7、面试高频题7.1、HMM中为何引入维特比算法作为预测算法？…

阅读更多...

嵌入式开发：在嵌入式应用程序中混合C和C++

嵌入式开发：在嵌入式应用程序中混合C和C++

许多嵌入式应用程序仍使用c语言编写，但越来越多的嵌入式开发人员现在使用C语言编写程序。某些应用程序甚至共享这两种语言。这有意义吗?C是嵌入式应用中最常用的编程语言。多年来，人们一直期待着向C过渡，但过渡速度相当缓慢。但是&#xff0…

阅读更多...

【项目精选】JSP企业电子投票系统（视频+论文+源码）

【项目精选】JSP企业电子投票系统（视频+论文+源码）

点击下载源码 javaEE健康管理系统主要功能包括：投票、查看投票结果、隐藏/公布投票结果、编辑投票主题等等。本系统结构如下： 1.普通用户模块： 1).实现登录功能 2).实现用户登录的退出 3).投票用户可以对已经开放的主题投票 4).查看投票结果…

阅读更多...

Unity中画2D图表（5）——给定一系列散点，拟合出一条曲线

Unity中画2D图表（5）——给定一系列散点，拟合出一条曲线

一、散点数据、拟合直线、拟合曲线蓝色圆点是数据样本直线为拟合的直线曲线是拟合出来的曲线二、C#中曲线拟合的实现 0、曲线拟合的一般步骤（以平面坐标XY为例） 【1】给定计算拟合的阶数k，k的取值最大为【样本个数-1】【2】计算出拟合…

阅读更多...

GoLang 协程池

GoLang 协程池

Goroutine 1.Goroutine 是 Golang 提供的一种轻量级线程，我们通常称之为「协程」，相比较线程，创建一个协程的成本是很低的。所以你会经常看到 Golang 开发的应用出现上千个协程并发的场景。 Goroutine 的优势： 与线程相比&#xf…

阅读更多...

Spring Security+jwt+redis+自定义认证逻辑权限控制

Spring Security+jwt+redis+自定义认证逻辑权限控制

Spring Securityjwtredis自定义认证逻辑权限控制 1.拦截访问基本思路 2.创建数据库表：角色表（应该6个表，这里只用用户表代替角色表）、权限表、路径表、角色-权限表、权限-路径表 /* SQLyog Professional v12.14 (64 bit) MySQL…

阅读更多...

推荐文章

最新文章