【笔记】深度学习模型评估指标

news2025/2/28 15:48:30

推荐链接:
(0)多分类器的评价指标

(1)泛化误差的评价方法:【机器学习】模型评估与选择(留出法、交叉验证法、查全率、查准率、偏差、方差)

(2)机器学习:数据分布的漂移问题及应对方案

(3)机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

0.背景+名词解释

在这里插入图片描述名词解释:
(1)过拟合:是指学习模型对训练样本预测得很好,但对新样本预测很差的现象。这通常是由于学习模型能力过于强大,以至于把训练样本自身的一些特点当做了一般性质。过拟合是无法彻底避免的,只能缓解。模型选择就是要旨在避免过拟合并提高模型的预测能力。
(2) 准确性:模型在训练数据集上的性能。
(3)泛化能力:模型在新数据集上的性能。
(4)过拟合:模型在训练数据集上表现良好,但在新数据集上表现差。
(5)欠拟合:模型在训练数据集和新数据集上表现差。
(6)验证集:用于评估模型性能的数据集,与训练集和测试集不同。
(7)交叉验证:在多个子集上进行验证,以减少验证集的随机性。

1.训练效果(泛化能力)评价指标

在这里插入图片描述

机器学习模型评估指标(有大量错误,需核对)

1.1.名词解释

  • 损失函数(Loss Function):深度学习模型在训练过程中使用损失函数来衡量预测值与真实值之间的差异。通常,通过优化算法(如梯度下降)最小化损失函数来调整模型的权重和参数。较低的损失值通常表示模型在训练数据上的拟合程度较好。
  • 准确率(Accuracy):准确率是评估深度学习模型分类性能的常见指标。它衡量模型在所有样本中正确分类的比例。准确率可以通过在测试集上计算正确分类的样本数除以总样本数得到。
  • 验证集(Validation Set):在训练过程中,可以将一部分数据集分离出来作为验证集,用于评估模型在未见过的数据上的性能。通过在验证集上计算损失和准确率等指标,可以判断模型的泛化能力。
  • 混淆矩阵(Confusion Matrix):混淆矩阵是用于评估分类模型性能的工具。它展示了模型在不同类别上的分类结果,包括真正例(True Positive,TP)、真负例(True Negative,TN)、假正例(False Positive,FP)和假负例(False Negative,FN)。基于混淆矩阵,可以计算出精确度(Precision)、召回率(Recall)和F1值等指标。
  • ROC曲线和AUC值:ROC曲线和AUC是用于评估二分类模型性能的指标。ROC曲线是以不同阈值下真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,FPR)为横纵轴绘制的曲线。AUC(Area Under Curve)是ROC曲线下的面积,用于衡量模型在所有可能阈值下的平均性能。
  • 平均精确度(Average Precision):平均精确度是用于评估目标检测和图像分割等任务的指标。它基于不同阈值下的精确度-召回率曲线,计算出曲线下的平均精确度。特定任务的指标:对于特定任务,可以选择适合的指标来评估模型的性能。例如,对于语言生成任务,可以使用BLEU(Bilingual Evaluation Understudy)指标来衡量生成文本的质量。

1.2.名词解释

  • 准确性(Accuracy):准确性是最常用的性能指标之一,用于衡量模型在整体数据集上的预测准确率。它可以通过计算正确预测的样本数量与总样本数量的比例来得到。

  • 损失函数(Loss Function):损失函数衡量了模型的预测输出与实际标签之间的差异。常见的损失函数包括均方误差(Mean Squared Error,MSE)、交叉熵损失(Cross-Entropy Loss)等。较低的损失函数值表示模型的预测与真实标签之间的差异较小。

  • 精确率(Precision)和召回率(Recall):精确率和召回率是用于评价二分类问题的性能指标。精确率表示被正确预测为正类的样本数量占所有被预测为正类的样本数量的比例,而召回率表示被正确预测为正类的样本数量占真实正类样本数量的比例。

  • F1分数(F1 Score):F1分数综合考虑了精确率和召回率,是一个综合评价指标。它是精确率和召回率的调和平均值,可以帮助综合评估模型的性能。

  • ROC曲线(Receiver Operating Characteristic Curve)和AUC(Area Under the Curve):ROC曲线是以真阳性率(True Positive Rate)为纵轴,假阳性率(False Positive Rate)为横轴绘制的曲线。AUC表示ROC曲线下的面积,用于衡量模型在不同阈值下的分类性能。

  • 交叉验证(Cross-Validation):交叉验证是一种用于评估模型性能的技术。它将数据集分成多个子集,每次使用其中一个子集作为验证集,其余子集作为训练集,多次重复训练和验证,计算模型在不同子集上的性能指标的平均值。

  • 超参数调优(Hyperparameter Tuning):深度学习模型通常有许多超参数,例如学习率、批量大小、正则化参数等。通过尝试不同的超参数组合,并使用评估指标来比较它们的性能,可以找到最佳的超参数配置。

1.3.多分类器训练效果示例

在这里插入图片描述在这里插入图片描述

kappa一致性评价

链接

p0被称为观测精确性或一致性单元的比例;pc被称为偶然性一致或期望的偶然一致的单元的比例。kappa计算结果为-1到1,但通常kappa是落在 0到1 间,可分为五组来表示不同级别的一致性:0.0到0.20极低的一致性(slight)、0.21到0.40一般的一致性(fair)、0.41到0.60 中等的一致性(moderate)、0.61到0.80 高度的一致性(substantial)和0.81到1几乎完全一致(almost perfect)。

例子:

混淆矩阵
在这里插入图片描述在这里插入图片描述k即kappa值,为0.8228,说明一致性良好

2.训练数据评价指标

目标类别分布是指训练数据中不同目标类别的比例。均衡的目标类别分布可以促进模型的泛化能力,使其能够有效地检测各种目标。不均衡的目标类别分布可能会导致模型对某些类别目标的检测精度较低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2263083.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux性能监控命令_nmon 安装与使用以及生成分析Excel图表

文章目录 Linux性能监控命令_nmon 安装与使用安装解压创建nmono目录解压到nmono目录当中切换到sources目录下解压 配置环境变量创建软链接到 /usr/bin/ 目录下打开 配置文件 配置环境变量在底部增加如下注册 使用使用说明监控监控CPU监控内存监控磁盘监控网络监控文件系统 后台…

串口通信控制LED灯

做这个东西的目的是锻炼一下自己的编程能力以及系统思维能力 首先,清楚自己要干什么,正点原子大家应该都看过,系统框图是一个比较重要的东西,引导我们去设计和思考。 下面先给出系统框图: 模块划分好后,结构…

WPF+MVVM案例实战与特效(四十五)- 打造优雅交互:ListBox 的高级定制与行为触发(侧边菜单交互面板)

文章目录 1、引言2、案例效果3、案例实现1、依赖安装2、文件创建3、代码实现1、依赖引用与上下文2、个性化视觉效果:自定义 ItemContainerStyle3、页面样式与布局完整代码4、ViewModel 逻辑实现5、子界面代码:3、实现效果4、源代码获取5、总结1、引言 在WPF应用程序开发中,…

分享两个爬虫练习网站+一个python游戏网站

目录 第一个网站第二个Python游戏网站 第一个网站 网站一 第二个 网站二 Python游戏网站 网站三

空天地遥感数据识别与计算--数据分析如何助力农林牧渔、城市发展、地质灾害监测等行业革新

在科技飞速发展的时代,遥感数据的精准分析已经成为推动各行业智能决策的关键工具。从无人机监测农田到卫星数据支持气候研究,空天地遥感数据正以前所未有的方式为科研和商业带来深刻变革。然而,对于许多专业人士而言,如何高效地处…

C++中的进程虚拟内存布局

进程虚拟内存布局 进程虚拟内存布局: .text(代码段):存放的是程序源代码编译后的机器指令,是只读的。 .rodata(只读数据段):存放的是程序中的只读数据,一般是程序里面的…

鸿蒙开发-ArkTS 创建自定义组件

在 ArkTS 中创建自定义组件是一个相对简单但功能强大的过程。以下是如何在 ArkTS 中创建和使用自定义组件的详细步骤: 一、定义自定义组件 使用Component注解:为了注册一个组件,使其能够在其他文件中被引用,你需要使用Component…

计算机网络B重修班-期末复习

[TOC] (计算机网络B重修班-期末复习) 一、单选 (20题,1分/题,共20分) 二、判断 (10题,1分/题,共10分) 三、填空 (10题,1分/题,共10…

SSH连接成功,但VSCode连接不成功

环境 在实验室PC上连接服务器234 解决方案:在VSCode中重新添加远程主机 删除旧的VSCode Server 在远程主机上,VSCode会安装一个‘vscode-server’服务来支持远程开发,有时旧的‘vscode-server’文件可能会导致问题,删除旧的&am…

揭开 Choerodon UI 拖拽功能的神秘面纱

01 引言 系统的交互方式主要由点击、选择等组成。为了提升 HZERO 系统的用户体验、减少部分操作步骤,组件库集成了卓越的拖拽功能,让用户可以更高效流畅的操作系统。 例如:表格支持多行拖拽排序、跨表数据调整、个性化调整列顺序&#xff1…

面试题整理9----谈谈对k8s的理解1

谈谈对k8s的理解 1. Kubernetes 概念 1.1 Kubernetes是什么 Kubernetes 是一个可移植、可扩展的开源平台,用于管理容器化的工作负载和服务,方便进行声明式配置和自动化。Kubernetes 拥有一个庞大且快速增长的生态系统,其服务、支持和工具的…

Elasticsearch:什么是信息检索?

信息检索定义 信息检索 (IR) 是一种有助于从大量非结构化或半结构化数据中有效、高效地检索相关信息的过程。信息(IR)检索系统有助于搜索、定位和呈现与用户的搜索查询或信息需求相匹配的信息。 作为信息访问的主要形式,信息检索是每天使用…

【深度学习】 零基础介绍卷积神经网络(CNN)

CNN学习 零基础介绍写个CNN最简单的代码一. 概述二. 搭建CNN1. 输入层2. 卷积层3. 激活层4. 池化层5. 全连接层6. 网络搭建小结7. 损失函数8. 梯度下降9. 反向传播10. 模型评估与正则化11. 尝试搭建自己的第一个CNN 三. 经典CNN结构四. 猫狗识别项目实践1. Paddle实现版本&…

flutter 使用dio 请求go语言后台数据接口展示瀑布流图片

添加依赖 dependencies:flutter:sdk: flutterdio: ^5.0.0 # 请检查最新版本flutter_staggered_grid_view: ^0.4.0 添加网络权限 <uses-permission android:name"android.permission.INTERNET" /> go后端代码 图片存放目录 // main.go package mainimport (&q…

ZYNQ初识2(zynq_7010)基于vivado,从PL端调用PS端的时钟

由于需要进行一些FPGA的简单开发&#xff0c;但板载PL端没有焊接晶振&#xff0c;所以需要从PS端借用时钟到PL端使用。 首先新建项目&#xff0c;根据自己的板载选择芯片&#xff0c;我的板载芯片是zynq_7010。 一路next&#xff0c;在自己的vivado的工作文档新建文件夹并给自…

Go语言启动独立进程

文章目录 问题解决方案1. **将 npc.exe 启动为独立的进程**2. **修改 exec.Command 函数**示例代码解释为什么这样有效注意 问题 在你当前的代码中&#xff0c;调用 exec.Command("XXX.exe") 启动 XXX.exe 程序时&#xff0c;这个程序是由 Go 程序直接启动的。如果 …

oracle client linux服务器安装教程

p13390677_112040_Linux-x86-64_4of7.zip 安装前&#xff0c;确认/etc/hosts文件已配置正确 cat /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 10.2…

strongswan构建测试环境

make-testing脚本文件负责构建strongswan的虚拟化测试系统。位于目录strongswan-5.9.14/testing/&#xff0c;需要以管理员身份运行make-testing。生成测试用到的虚拟客户机镜像&#xff0c;KVM虚拟机和虚拟网络的配置文件位于目录:config/kvm。 ~/strongswan-5.9.14/testing$…

页面无滚动条,里面div各自有滚动条

一、双滚动条左右布局 实现效果 实现代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>Doc…

踩准智能汽车+机器人两大风口,速腾聚创AI+机器人应用双线爆发

日前&#xff0c;RoboSense速腾聚创交出了一份亮眼的Q3财报。受到多重利好消息影响&#xff0c;其股价也应势连续大涨。截止12月9日发稿前&#xff0c;速腾聚创股价近一个月内累计涨幅已超88%。 财务数据方面&#xff0c;速腾聚创在今年前三季度实现总收入约11.3亿元&#xff0…