卷积神经网络评价指标

news2024/10/26 17:01:34

1.评价指标的作用

1. 性能评估:评价指标提供了一种量化的方式来衡量CNN模型的性能。通过这些指标,我们可以了解模型在特定任务上的表现,比如图像分类、目标检测或图像分割等。

2. 模型比较:不同的模型架构或训练策略可能会产生不同的性能结果。评价指标允许我们在同一标准下比较不同模型的性能,从而选择最适合特定任务的模型。

3. 超参数调优:在模型训练过程中,评价指标可以帮助我们选择最佳的超参数设置。例如,通过调整学习率、批量大小、网络深度等超参数,我们可以观察到评价指标的变化,从而找到最优的模型配置。

4. 模型选择:在有多个预训练模型可供选择时,评价指标可以帮助我们决定哪个模型最适合我们的特定任务。例如,在迁移学习中,我们可能会根据评价指标来选择一个预训练的CNN模型作为特征提取器。

5. 问题诊断:评价指标可以帮助我们识别模型在训练过程中可能遇到的问题,如过拟合或欠拟合。例如,如果模型在训练集上表现很好,但在验证集上表现不佳,这可能表明模型过拟合了。

6. 平衡性能:在多分类问题中,不同的类别可能具有不同的样本数量,这可能导致模型对某些类别的预测性能较好,而对其他类别的预测性能较差。评价指标如F1-Score和mIOU可以帮助我们平衡不同类别的性能,确保模型对所有类别都有良好的预测能力。

7. 泛化能力评估:评价指标不仅可以用来评估模型在训练集上的表现,还可以用来评估模型在未见过的数据上的泛化能力。通过在独立的测试集上计算评价指标,我们可以了解模型在实际应用中可能的表现。

8. 研究进展跟踪:在学术研究和工业应用中,评价指标是跟踪技术进步的重要工具。通过比较不同研究或产品中报告的评价指标,我们可以了解领域内的最新进展和趋势

评价指标按任务类型分类有两大部分 一部分是分类任务 一部分是回归任务

2.分类任务


分类任务又可以分为两部分: 单项分类问题和多项分类问题

它们的主要区别在于输出类别的数量和处理方式:

1. 输出类别的数量:
   - 单项分类问题:只有两个可能的输出类别,通常标记为正类(Positive)和负类(Negative),或者1和0。例如,判断一封邮件是否为垃圾邮件,一个人是否患有某种疾病等。
   - 多项分类问题:有三个或更多的可能输出类别。例如,识别图片中的物体是猫、狗还是鸟,或者对新闻文章进行分类到不同的主题类别。

2. 模型输出:
   - 单项分类问题:模型通常输出一个概率值,表示输入样本属于正类的概率,或者直接输出一个二元标签(0或1)。
   - 多项分类问题:模型输出一个概率分布,每个类别对应一个概率值,表示输入样本属于该类别的概率。通常使用softmax函数来生成这个概率分布。

3. 损失函数:
   - 单项分类问题:常用的损失函数是二元交叉熵损失(Binary Cross-Entropy Loss)。
   - 多项分类问题:常用的损失函数是多类别交叉熵损失(Categorical Cross-Entropy Loss)。

4. 评价指标:
   - 单项分类问题:常用的评价指标包括准确率、精确率、召回率、F1-Score、ROC曲线和AUC值等。
   - 多项分类问题:除了上述指标外,还可以使用混淆矩阵(Confusion Matrix)来更详细地评估模型在各个类别上的性能。

5. 数据不平衡问题:
   - 单项分类问题:在数据不平衡的情况下,可能需要特别关注精确率和召回率的平衡,以及使用一些技术如重采样或调整类权重来处理不平衡问题。
   - 多项分类问题:当类别不平衡时,同样需要关注数据不平衡问题,可能需要使用类似的技术来提高模型在少数类别上的性能。

6. 模型复杂度:
   - 单项分类问题:模型通常较简单,因为只需要区分两个类别。
   - 多项分类问题:模型可能更复杂,因为需要区分多个类别,并且可能需要更多的数据来训练模型以获得良好的性能。

7. 应用场景:
   - 单项分类问题:适用于需要二元决策的场景,如垃圾邮件检测、信用评分等。
   - 多项分类问题:适用于需要多类别决策的场景,如图像识别、文本分类等。

TP:正样本被正确的分类成正样本 实际上是正样本数

FN:正样本被错误的分类成负样本 实际上是负样本数

FP:负样本被错误的分类成正样本 实际上是负样本数

TN:负样本被正确的分类成负样本 实际上是负样本数

1.单项分类问题

1.准确率(accuracy)

     

TP + TN:被正确分类的样本数

P + N:全部样本数

2.错误率(error rate)

FP + FN:被错误分类的样本数

P + N:全部样本数

3.精度(precision)

TP:被正确分类的正样本数

TP + FP:被正确分类的正样本数和被错误分类成正样本的负样本数

4.召回率(recall)

 TP:被正确分类的正样本数

TP + FN:被正确的分类的正样本数和被错误分类的正样本数(就是实际上的正样本数)

2.多项分类问题

1.F1分数(F1 score)

F1分数(F1 Score)是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的准确率(Precision)和召回率(Recall)。F1分数可以看作是模型准确率和召回率的一种加权平均,其最大值是1,最小值是0,值越大意味着模型的精确度越高

F1分数的计算公式是: 

其中:

  • Precision(精确率)是指预测为正类别中实际为正类别的比例,计算公式为:

  • 其中TP是真正例(True Positive),FP是假正例(False Positive)。

  • Recall(召回率)是指所有实际为正类别中被预测为正类别的比例,计算公式为:

  • 其中FN是假负例(False Negative)。

F1分数特别适用于那些正负样本数量不均衡的情况,因为它不像准确率那样容易受到样本数量分布的影响。

2.ROC曲线

ROC曲线(Receiver Operating Characteristic Curve)是一种用于评估分类模型性能的工具,尤其在二分类问题中非常常见。它通过不同的阈值设置,展示了模型的真正率(TPR)与假正率(FPR)之间的关系。ROC曲线的横轴是假正例率(False Positive Rate, FPR),纵轴是真正例率(True Positive Rate, TPR)。

ROC曲线的关键属性包括:
1. 真正率(TPR):又称召回率,是指模型正确预测的正样本数与所有实际为正的样本数的比例。TPR: TP / (TP+FN)
2. 假正率(FPR):又称误报率,是指模型错误预测为正的负样本数与所有实际为负的样本数的比例。 FP / (FP+TN)
3. AUC值:ROC曲线下面积的大小,介于0.5到1.0之间,用于衡量模型的整体性能。AUC值越高,表示模型的分类性能越好。

AUC为1时,表示模型具有完美的分类能力

AUC介于1与0.5之间时,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值

AUC为0.5时,表示模型的性能与随机猜测相同

AUC介于0.5与0之间时,比随机猜测还差;但只要总是反预测而行,就优于随机猜测

ROC曲线与模型性能的关系如下:
- 理想模型:理想的模型会在ROC曲线的左上角有一个点,表示TPR接近1而FPR接近0。
- 随机猜测:如果模型的预测完全是随机的,那么ROC曲线将接近于从左下角到右上角的对角线。
- 性能比较:通过比较不同模型的ROC曲线,可以判断哪个模型的性能更好。曲线越接近左上角,模型的性能越好。

在实际应用中,ROC曲线不仅可以用来比较不同模型的性能,还可以用来选择最佳的分类阈值,以及在类别不平衡的情况下评估模型的稳定性和有效性。


 

3.回归任务

1.MAE(平均绝对误差)

MAE(Mean Absolute Error),即平均绝对误差,是衡量预测值与实际值之间差异的一种常用指标。它通过计算预测值和实际值之间差的绝对值的平均数来得出。MAE的优点在于它对异常值(outliers)不敏感,并且其结果的单位与原始数据一致,这使得结果更容易解释。

MAE的计算公式 是:

yi是实际值,y尖i是预测值

其中:

  • n是样本数量。
  • yi是第 i 个样本的实际值。
  • yi​尖是第 i 个样本的预测值。

MAE的特点 包括:
1. 它是一个非负值,MAE越小表示模型的预测准确性越高。
2. 它对异常值的影响较小,因此更加稳健。

MAE的应用场景 包括:
- 异常值敏感度较低的应用,如金融市场预测、气象预报等。
- 简单性和可解释性重要的领域,如商业分析和社会科学。
- 实时系统和快速反馈环境,如实时交易系统或在线学习环境。

MAE的局限性 包括:
- 在对大误差敏感的场景中,如安全关键系统,MAE可能不是最佳选择。
- 在分布极度不平衡的数据中,MAE可能无法提供充分的信息。
 

总的来说,MAE是一个广泛应用的误差度量方法,适用于各种需要准确反映预测误差且对异常值有一定抵抗力的应用场景。然而,在需要对大误差敏感、处理极不平衡数据或强调异常值的情况下,不适合运用MAE

2.MSE(均方误差)

MSE,即均方误差(Mean Squared Error),是一种常用的评价指标,用于衡量模型预测值与实际值之间的差异。MSE 通过计算预测值与实际值之差的平方的平均值来衡量误差,其公式如下:

其中:

  • n是样本数量。
  • yi是第 i 个样本的实际值。
  • yi​尖是第 i 个样本的预测值。

MSE 的特点包括:

  1. 敏感性:MSE 对较大的误差给予更大的惩罚,因为它对误差进行了平方处理。这意味着一个较大的预测误差会对 MSE 产生较大的影响。
  2. 非负性:MSE 总是非负的,MSE 为 0 表示预测完全准确。
  3. 可解释性:MSE 的单位是预测值单位的平方,这可能使得其数值难以直观理解。

MSE 的应用场景包括:

  • 在回归分析中,MSE 是一种常用的损失函数,用于衡量模型的预测性能。
  • 在机器学习中,MSE 常用于训练模型,特别是在最小化损失函数的过程中。

MSE 的局限性:

  • MSE 对异常值(outliers)非常敏感,因为异常值会导致 MSE 显著增加。
  • 在某些情况下,MSE 可能不是最佳选择,特别是当数据中存在异常值或者我们希望对所有误差给予相同权重时。

MSE 与其他MAE的比较:

  • 与 MAE(平均绝对误差)相比,MSE 对大误差更敏感,因为误差被平方了。

在选择评价指标时,应根据具体问题的需求和数据的特性来决定是否使用 MSE。例如,如果异常值不是问题,或者我们希望模型对大误差给予更多关注,那么 MSE 可能是一个合适的选择。

3.MAE与MSE的比较

MAE的图像:

其中目标值是100,预测值的范围从-10000到10000,Y轴代表的MSE取值范围是从0到正无穷,并且在预测值为100处达到最小。

MSE的图像:

其中目标值是100,预测值的范围从-10000到10000,Y轴代表的MSE取值范围是从0到正无穷,并且在预测值为100处达到最小。

观察MAE和RMSE(即MSE的平方根,同MAE在同一量级中)在两个例子中的计算结果。第一个例子中,预测值和真实值很接近,而且误差的方差也较小。第二个例子中,因为存在一个异常点,而导致误差非常大

如果训练数据被异常点所污染,那么MAE损失就更好用(比如,在训练数据中存在大量错误的反例和正例标记,但是在测试集中没有这个问题)。

MAE存在一个严重的问题(特别是对于神经网络):更新的梯度始终相同,也就是说,即使对于很小的损失值,梯度也很大。这样不利于模型的学习。为了解决这个缺陷,我们可以使用变化的学习率,在损失接近最小值时降低学习率。
而MSE在这种情况下的表现就很好,即便使用固定的学习率也可以有效收敛。MSE损失的梯度随损失增大而增大,而损失趋于0时则会减小。这使得在训练结束时,使用MSE模型的结果会更精确。


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2224085.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Pytest-Bdd-Playwright 系列教程(2):支持在多浏览器、多环境中执行测试

Pytest-Bdd-Playwright 系列教程(2):支持在多浏览器、多环境中执行测试 前言一、 修改 conftest.py 文件二、创建配置文件三、修改search_steps.py文件四、运行测试 前言 学会本文教程内容后,你将掌握: 通过本文的学…

重构案例:将纯HTML/JS项目迁移到Webpack

我们已经了解了许多关于 Webpack 的知识,但要完全熟练掌握它并非易事。一个很好的学习方法是通过实际项目练习。当我们对 Webpack 的配置有了足够的理解后,就可以尝试重构一些项目。本次我选择了一个纯HTML/JS的PC项目进行重构,项目位于 GitH…

深度学习案例:带有一个隐藏层的平面数据分类

该案例来自吴恩达深度学习系列课程一《神经网络和深度学习》第三周编程作业,作业内容是设计带有一个隐藏层的平面数据分类。作业提供的资料包括测试实例(testCases.py)和任务功能包(planar_utils.py),下载请…

Jetpack架构组件_LiveData组件

1.LiveData初识 LiveData:ViewModel管理要展示的数据(VM层类似于原MVP中的P层),处理业务逻辑,比如调用服务器的登陆接口业务。通过LiveData观察者模式,只要数据的值发生了改变,就会自动通知VIEW层&#xf…

Flutter TextField和Button组件开发登录页面案例

In this section, we’ll go through building a basic login screen using the Button and TextField widgets. We’ll follow a step-bystep approach, allowing you to code along and understand each part of the process. Let’s get started! 在本节中,我们…

【Python爬虫系列】_031.Scrapy_模拟登陆中间件

课 程 推 荐我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)教程合集 👈👈…

ArcGIS001:ArcGIS10.2安装教程

摘要:本文详细介绍arcgis10.2的安装、破解、汉化过程。 一、软件下载 安装包链接:https://pan.baidu.com/s/1T3UJ7t_ELZ73TH2wGOcfpg?pwd08zk 提取码:08zk 二、安装NET Framework 3.5 双击打开控制面板,点击【卸载程序】&…

World of Warcraft [CLASSIC][80][the Ulduar]

Ulduar 奥杜尔副本介绍 奥杜尔共计14个BOSS,通常说的10H就是10个苦难模式就是全通,9H就是除了【观察者奥尔加隆】,特别说明开启【观察者奥尔加隆】,是需要打掉困难模式4个守护者的。 所以人们经常说的类似“10H 观察者”、“10H…

Python开发日记 -- 实现bin文件的签名

目录 1.数据的不同表现形式签名值不一样? 2.Binascii模块简介 3.问题定位 4.问题总结 1.数据的不同表现形式签名值不一样? Happy Muscle试运行了一段时间,组内同事再一次提出了新的需求:需要对bin文件签名。 PS:服…

react18中的函数组件底层渲染原理分析

react 中的函数组件底层渲染原理 react组件没有局部与全局之分,它是一个整体。这点跟vue的组件化是不同的。要实现 react 中的全局组件,可以将组件挂在react上,这样只要引入了react,就可以直接使用该组件。 函数式组件的创建 …

Kafka之消费者客户端

1、历史上的二个版本 与生产者客户端一样,在Kafka的发展过程当中,消费者客户端主要有两个大的版本: 旧消费者客户端(Old Consumer):基于Scala语言开发的版本,又称为Scala消费者客户端。新消费…

【力扣】GO解决子序列相关问题

文章目录 一、引言二、动态规划方法论深度提炼子序列问题的通用解法模式 三、通用方法论应用示例:最长递增子序列(LeetCode题目300)Go 语言代码实现 四、最长连续递增序列(LeetCode题目674)Go 语言代码实现 五、最长重…

ffmpeg视频滤镜:定向模糊-dblur

滤镜简述 dblur 官网链接 > https://ffmpeg.org/ffmpeg-filters.html#dblur 有一个模糊滤镜&#xff0c;我试了一下&#xff0c;没有感觉到它的特殊之处, 这里简单介绍一下。 滤镜使用 滤镜的参数 angle <float> ..FV.....T. set angle (from 0 t…

找不到包的老版本???scikit-learn,numpy,scipy等等!!

废话不多说 直接上链接了&#xff1a; https://pypi.tuna.tsinghua.edu.cn/simple/https://pypi.tuna.tsinghua.edu.cn/simple/https://pypi.tuna.tsinghua.edu.cn/simple/xxx/ 后面的这个xxx就是包的名字 大家需要什么包的版本&#xff0c;直接输进去就可以啦 举个栗子&#…

零基础Java第十期:类和对象(一)

目录 一、拜访对象村 1.1. 什么是面向对象 1.2. 面向对象与面向过程 二、类定义和使用 2.1. 类的定义格式 2.2. 类的定义练习 三、类的实例化 3.1. 什么是实例化 3.2. 类和对象的说明 四、this引用 4.1. 什么是this引用 4.2. this引用的特性 一、拜访对象村 在…

<项目代码>YOLOv8路面病害识别<目标检测>

YOLOv8是一种单阶段&#xff08;one-stage&#xff09;检测算法&#xff0c;它将目标检测问题转化为一个回归问题&#xff0c;能够在一次前向传播过程中同时完成目标的分类和定位任务。相较于两阶段检测算法&#xff08;如Faster R-CNN&#xff09;&#xff0c;YOLOv8具有更高的…

STMicroelectronics意法半导体车规芯片系列--亿配芯城(ICgoodFind)

在汽车电子领域&#xff0c;意法半导体的车规级芯片系列一直备受瞩目。亿配芯城作为电子元器件领域的可靠供应商&#xff0c;为大家介绍意法半导体车规级芯片系列的卓越之处。 意法半导体在车规级芯片领域拥有深厚的技术积累和丰富的经验。 其车规级芯片涵盖了多个关键领域&am…

8.three.js相机详解

8.three.js相机详解 1、 认识相机 在Threejs中相机的表示是THREE.Camera&#xff0c;它是相机的抽象基类&#xff0c;其子类有两种相机&#xff0c;分别是正投影相机THREE.OrthographicCamera和透视投影相机THREE.PerspectiveCamera&#xff1a; 正投影和透视投影的区别是&am…

【Java】常用方法合集

以 DemoVo 为实体 import lombok.Data; import com.alibaba.excel.annotation.ExcelProperty; import com.alibaba.excel.annotation.ExcelIgnoreUnannotated;Data ExcelIgnoreUnannotated public class ExportPromoteUnitResult {private String id;ExcelProperty(value &qu…

贪心算法记录 - 下

135. 分发糖果 困难 n 个孩子站成一排。给你一个整数数组 ratings 表示每个孩子的评分。 你需要按照以下要求&#xff0c;给这些孩子分发糖果&#xff1a; 每个孩子至少分配到 1 个糖果。相邻两个孩子评分更高的孩子会获得更多的糖果。 请你给每个孩子分发糖果&#xff0c…