【机器学习合集】优化目标与评估指标合集 ->(个人学习记录笔记)

news2025/1/12 10:40:30

文章目录

  • 优化目标与评估指标
    • 1. 优化目标
      • 1.1 两类基础任务与常见优化目标
      • 1.2 分类任务损失
        • 0-1损失
        • 交叉熵损失与KL散度
        • softmax损失的理解与改进
        • Hinge损失
      • 1.3 回归任务损失
        • L1/L2距离
        • L1/L2距离的改进 Huber loss
    • 2. 评测指标
      • 2.1 分类任务中评测指标
        • 准确率(查准率)/召回率(查全率)/精确度/PR曲线
        • ROC曲线/AUC面积
        • 混淆矩阵
      • 2.2 回归任务中的评测指标
        • IoU(Intersection-over-Union)
        • AP(Average Precision)/mAP
        • 峰值信噪比PSNR
        • 结构一致性相似SSIM

优化目标与评估指标

1. 优化目标

在这里插入图片描述

1.1 两类基础任务与常见优化目标

在这里插入图片描述

1.2 分类任务损失

在分类任务中,常见的损失函数包括交叉熵损失(Cross-Entropy Loss)、均方误差(Mean Squared Error, MSE)、Hinge损失(Hinge Loss)、对比损失(Contrastive Loss)、以及多类别对数损失(Multi-Class Log Loss)等。这些损失函数有不同的特点和用途,下面将简要介绍它们的区别:

  1. 交叉熵损失(Cross-Entropy Loss)

    • 用于多类别分类任务。
    • 计算模型的输出与真实标签之间的差异,鼓励模型为正确的类别分配更高的概率。
    • 常见的变体包括二元交叉熵和多类别对数损失。
  2. 均方误差(Mean Squared Error, MSE)

    • 通常用于回归任务,但也可以用于二元分类。
    • 计算模型的输出和真实标签之间的平方误差,不适用于多类别分类。
  3. Hinge损失(Hinge Loss)

    • 通常用于支持向量机(SVM)等模型,也用于二元分类任务。
    • 鼓励模型使正确类别的分数高于其他类别的分数,以增加分类的边际。
  4. 对比损失(Contrastive Loss)

    • 用于度量学习和相似度学习任务。
    • 鼓励相似样本之间的距离小于不相似样本之间的距离。
  5. 多类别对数损失(Multi-Class Log Loss)

    • 类似于交叉熵损失,用于多类别分类任务。
    • 计算模型对每个类别的对数概率,鼓励正确类别的概率高,常用于多标签分类任务。
  • 这些损失函数的选择通常取决于任务的性质和所使用的模型。交叉熵损失在深度学习中应用最广泛,因为它在多类别分类任务中效果良好,且容易优化。但对于其他任务,不同的损失函数可能更为合适。根据任务的具体要求和数据类型,选择合适的损失函数非常重要。
0-1损失

在这里插入图片描述

交叉熵损失与KL散度

在这里插入图片描述
在这里插入图片描述

softmax损失的理解与改进

在这里插入图片描述

Hinge损失

在这里插入图片描述

1.3 回归任务损失

在回归任务中,常见的损失函数包括均方误差(Mean Squared Error, MSE)、平均绝对误差(Mean Absolute Error, MAE)、L1损失(L1 Loss)、L2损失(L2 Loss),以及 Huber损失。以下是它们的主要区别:

  1. 均方误差(MSE)

    • 计算模型的预测值与真实标签之间的平方差,然后取平均。
    • MSE对异常值敏感,因为平方差会放大异常值的影响。
    • MSE通常用于普通的线性回归任务。
  2. 平均绝对误差(MAE)

    • 计算模型的预测值与真实标签之间的绝对差,然后取平均。
    • MAE鲁棒性更好,不太受异常值的影响。
    • MAE适用于对异常值敏感的任务,如金融风险评估。
  3. L1损失(L1 Loss)

    • 也称为绝对损失或L1范数损失,计算模型的预测值与真实标签之间的绝对差的总和。
    • 类似于MAE,L1损失对异常值鲁棒性更好。
    • L1损失通常用于稀疏建模和特征选择。
  4. L2损失(L2 Loss)

    • 也称为均方损失或L2范数损失,计算模型的预测值与真实标签之间的平方差的总和。
    • L2损失对异常值敏感,因为平方会放大异常值的影响。
    • L2损失通常用于正则化线性回归或神经网络。
  5. Huber损失

    • 一种折中方法,结合了L1和L2损失的特性。
    • 在接近真实值时使用平方损失,远离真实值时使用线性损失,从而在一定程度上抵抗异常值。

总的来说,MSE和MAE分别度量了平方差和绝对差的平均值,对异常值的敏感性不同。L1损失和L2损失分别度量了绝对差和平方差的总和。Huber损失是这些损失函数的折中,既有MSE的平滑性,又有MAE的鲁棒性。损失函数的选择通常取决于任务的性质和数据的特点,以及对异常值的处理需求。

L1/L2距离

在这里插入图片描述

L1/L2距离的改进 Huber loss

在这里插入图片描述

2. 评测指标

在机器学习和深度学习任务中,有多种常见的评测指标用于度量模型的性能。这些指标根据任务类型和需求的不同而有所变化。以下是一些常见的评测指标:

1. 分类任务评测指标:

  • 准确度(Accuracy):分类正确的样本数占总样本数的比例。
  • 精确度(Precision):真正例(True Positives)占真正例和假正例(False Positives)之和的比例。用于度量模型预测正例的准确性。
  • 召回率(Recall):真正例占真正例和假负例(False Negatives)之和的比例。用于度量模型检测正例的能力。
  • F1分数(F1 Score):精确度和召回率的调和平均值,用于综合评估模型性能。
  • ROC曲线(Receiver Operating Characteristic Curve):以不同的分类阈值绘制真正例率(True Positive Rate)和假正例率(False Positive Rate)之间的曲线。AUC(Area Under the Curve)用于度量ROC曲线下的面积。
  • PR曲线(Precision-Recall Curve):以不同的分类阈值绘制精确度和召回率之间的曲线。AP(Average Precision)用于度量PR曲线下的平均精确度。

2. 回归任务评测指标:

  • 均方误差(Mean Squared Error, MSE):预测值与真实值之间的平方差的平均值。
  • 平均绝对误差(Mean Absolute Error, MAE):预测值与真实值之间的绝对差的平均值。
  • 均方根误差(Root Mean Squared Error, RMSE):MSE的平方根,以与原始单位一致的方式度量误差。
  • R平方(R-squared):用于度量模型对总方差的解释比例,值范围在0到1之间。
  • 相关系数(Correlation Coefficient):用于度量模型预测值与真实值之间的线性关系。

3. 聚类任务评测指标:

  • 轮廓系数(Silhouette Score):用于度量聚类的紧凑性和分离度,值范围在-1到1之间。
  • Calinski-Harabasz指数:用于度量聚类的紧凑性和分离度,值越大表示聚类效果越好。
  • Davies-Bouldin指数:用于度量聚类之间的平均相似性,值越小表示聚类效果越好。
  • 这些评测指标根据任务类型和需求的不同,可以帮助您评估模型的性能和效果。选择适当的评测指标取决于具体任务的性质和目标。

在这里插入图片描述

2.1 分类任务中评测指标

准确率(查准率)/召回率(查全率)/精确度/PR曲线

这些指标是用于评估分类模型性能的重要工具:

  1. 准确率(Accuracy)

    • 准确率是指模型正确分类的样本数量与总样本数量的比例。
    • 公式:准确率 = (真正例 + 真负例) / (总样本数)。
    • 准确率度量了模型在所有类别上的分类正确性。然而,当类别分布不平衡时,准确率可能不是一个很好的度量标准。
  2. 召回率(Recall)(也称为查全率):

    • 召回率是指模型成功检测到的真正例的数量与真正例的总数量之比。
    • 公式:召回率 = 真正例 / (真正例 + 假负例)。
    • 召回率度量了模型检测正例的能力。高召回率意味着模型能够捕捉更多的正例,但可能伴随着更多的假正例。
  3. 精确度(Precision)

    • 精确度是指模型正确分类为正例的样本数量与所有分类为正例的样本数量之比。
    • 公式:精确度 = 真正例 / (真正例 + 假正例)。
    • 精确度度量了模型的预测中正例的准确性。高精确度意味着模型的正例预测更可信,但可能伴随着较低的召回率。
  4. PR曲线(Precision-Recall Curve)

    • PR曲线是一个图形表示,描述了不同分类阈值下精确度和召回率之间的关系。
    • 横轴是召回率,纵轴是精确度。通过在不同阈值下计算精确度和召回率,可以绘制PR曲线。
    • PR曲线可以帮助选择适当的分类阈值,以平衡精确度和召回率。面积下面积(AP)是PR曲线下的平均精确度,用于综合评估模型性能。

准确率、召回率和精确度是常见的二元分类评测指标,用于评估模型在正例和负例的分类中的表现。PR曲线则提供了精确度和召回率之间的权衡关系,有助于根据任务需求选择合适的分类阈值。这些指标对于不平衡数据集和不同任务的评估都非常重要。

真正例、真负例、假正例、假负例的区分

在二元分类问题中,混淆矩阵(Confusion Matrix)用于度量模型的分类性能,它包括四个主要元素,分别是真正例、真负例、假正例和假负例:

  1. 真正例(True Positives, TP)

    • 真正例是指模型正确地将正例(Positive)样本分类为正例的情况。
    • 换句话说,模型正确地检测到了正例。
  2. 真负例(True Negatives, TN)

    • 真负例是指模型正确地将负例(Negative)样本分类为负例的情况。
    • 换句话说,模型正确地识别了负例。
  3. 假正例(False Positives, FP)

    • 假正例是指模型错误地将负例样本分类为正例的情况。
    • 这种情况也被称为“误报”或“假阳性”。
  4. 假负例(False Negatives, FN)

    • 假负例是指模型错误地将正例样本分类为负例的情况。
    • 这种情况也被称为“漏报”或“假阴性”。

混淆矩阵的构成是为了帮助评估二元分类模型的性能,这四个元素允许您了解模型对正例和负例的分类准确性。基于这些元素,可以计算各种评测指标,如准确率、召回率、精确度等,以更全面地评估模型的性能。

看个样例:

让我们通过一个二元分类问题的示例来说明准确率、召回率、精确度和PR曲线的计算和解释。

假设我们正在解决一个垃圾邮件分类任务,其中模型的任务是将电子邮件标记为垃圾邮件(正例)或非垃圾邮件(负例)。

假设我们有以下混淆矩阵(Confusion Matrix):

 True Positives (TP): 100
 False Positives (FP): 20
 False Negatives (FN): 10
 True Negatives (TN): 300

基于这个混淆矩阵,我们可以计算以下指标:

  1. 准确率(Accuracy)

    • 准确率表示模型正确分类的样本占总样本数量的比例。
    • 准确率 = (TP + TN) / (TP + FP + FN + TN) = (100 + 300) / (100 + 20 + 10 + 300) = 400 / 430 ≈ 0.9302(约为93.02%)。
  2. 召回率(Recall)

    • 召回率表示模型成功检测到的垃圾邮件(真正例)的数量与所有垃圾邮件的数量之比。
    • 召回率 = TP / (TP + FN) = 100 / (100 + 10) = 100 / 110 ≈ 0.9091(约为90.91%)。
  3. 精确度(Precision)

    • 精确度表示模型正确分类为垃圾邮件的样本数量与所有分类为垃圾邮件的样本数量之比。
    • 精确度 = TP / (TP + FP) = 100 / (100 + 20) = 100 / 120 ≈ 0.8333(约为83.33%)。
  4. PR曲线(Precision-Recall Curve)

    • PR曲线通过在不同分类阈值下计算精确度和召回率来绘制。这里提供示例数据,而不是真正的PR曲线。
    • 根据不同分类阈值,可以绘制不同点,然后连接这些点以获得PR曲线。

这些指标可以帮助您了解模型在分类任务中的性能。在这个示例中,模型的准确率为93.02%,召回率为90.91%,精确度为83.33%。通过PR曲线,您可以选择适当的分类阈值,以在精确度和召回率之间进行权衡,具体取决于任务需求。

在这里插入图片描述

ROC曲线/AUC面积

在这里插入图片描述

混淆矩阵

在这里插入图片描述

2.2 回归任务中的评测指标

IoU(Intersection-over-Union)

在这里插入图片描述

AP(Average Precision)/mAP

在这里插入图片描述

峰值信噪比PSNR
  • PSNR越高,则代表图片质量越高
  • 255表示灰度范围
  • 在人眼感知的指标,表现不是很好
    在这里插入图片描述
结构一致性相似SSIM

在这里插入图片描述

注: 部分内容来自阿里云天池

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1134695.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

应急响应-网站入侵篡改指南_Webshell内存马查杀_漏洞排查_时间分析

1. 前言 一般安服在做项目的时候,经常会遇到需要做应急响应的工作,所谓应急响应就是当网站出现异常的时候,根据相关的问题对其进行溯源分析,发现问题,解决问题。 2. 网络安全异常特征 这里大概汇总一下网络安全异常的…

二叉树相关问题细谈递归

大家好,我是Dark Flame Master,今天给大家带来的介绍的是递归的思想,然后利用递归的方法实现建树的各个函数,例如节点个数,前中后序遍历,判断一棵二叉树是否为完全二叉树等,看完本文相信你会对递…

基于情感词典的情感分析方法

计算用户情绪强弱性,对于每一个文本都可以得到一个情感分值,以情感分值的正负性表示情感极性,大于0为积极情绪,小于0反之,绝对值越大情绪越强烈。 基于情感词典的情感分析方法主要思路: 1、对文本进行分词…

【1】zabbix6.4监控windows电脑操作教程

实验目标: 1.客户端(windows)安装zabbix agent 并添加到zabbix服务端; 2.可视化常用指标方便快速监控,及时了解客户端情况。 实施1: 步骤1:下载zabbix windows端安装包 官网下载传送门>D…

Android 10.0 Launcher3定制化之动态日历图标功能实现

1.概述 在10.0的系统产品rom开发中,在Launcher3中的相关定制化功能中,对于一些产品要求需要动态日历图标功能,在日期改变的时候,日历图标也需要跟着改变 所以需要自定义日历图标,监听日历改变的广播,收到日期改变的广播后,刷新日历图标,接下来就来分析关于动态日历图标…

5G与无人驾驶:引领未来交通的新潮流

5G与无人驾驶:引领未来交通的新潮流 随着5G技术的快速发展和普及,无人驾驶技术也日益受到人们的关注。5G技术为无人驾驶提供了更高效、更准确、更及时的通信方式,从而改变了我们对交通出行的认知和使用方式。本文将探讨5G技术在无人驾驶领域的…

大数据软件系统的交付流程

大数据软件系统的开发和交付流程通常涉及多个阶段,需要按照一定的计划和方法进行。以下是一个一般性的大数据软件系统开发和交付流程,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1.需求…

查找算法-顺序查找法(Sequential Search)

目录 查找算法-顺序查找法(Sequential Search) 1、说明 2、算法分析 3、C代码 查找算法-顺序查找法(Sequential Search) 1、说明 顺序查找法又称线性查找法,是一种比较简单的查找法。它是将数据一项一项地按顺序…

硬件知识积累 PCIE 接口

1. PCIE 是什么 中文名称:高速串行计算机扩展总线标准 PCI-Express(peripheral component interconnect express)是一种高速串行计算机扩展总线标准,它原来的名称为“3GIO”,是由英特尔在2001年提出的,旨在替代旧的PCI&#xff0c…

nexus 快速搭建-本地私有仓库 -maven

场景: 需要上传打包starer本地、局域网内 jar包上传、下载搭建后本地有层代理,可节省代宽,无网可拉包等… 下载: https://help.sonatype.com/repomanager3/product-information/download 基本说明: proxy 用来代理远程…

ChatGPT AIGC 快速合并Excel工作薄 Vlookup+INDIRECT

在职场中进行数据处理,数据分析汇报与统计的过程中,经常会遇到这样的一个问题,那就是需要统计的数据源在多个文件中,多个工作薄中,如果要进行数据处理,汇总的时候会很不方便。 如果要汇总6个月的数据可能就得需要手动复制了。 再或者用其它方法来进行数据合并。 例如我…

高效的文件管理方法:如何批量在文件名中间插入特定内容

在高效的文件管理中,批量操作是一项非常重要的技能。通过批量操作,我们可以同时处理多个文件,节省时间和精力。本文将介绍一种实用的方法,即云炫文件管理器如何在文件名中间批量插入特定内容,以实现高效的文件管理。现…

力扣刷题 day55:10-25

1.数组异或操作 给你两个整数,n 和 start 。 数组 nums 定义为:nums[i] start 2*i(下标从 0 开始)且 n nums.length 。 请返回 nums 中所有元素按位异或(XOR)后得到的结果。 方法一:位运…

Go学习第九章——面向“对象”编程(三大特性与接口和断言)

Go面向“对象”编程(三大特性与接口和断言) 1. 封装1.1 介绍1.2 快速入门 2.继承2.1 介绍2.2 快速入门2.3 深入学习 3.接口3.1 接口特点和语法说明3.2 快速入门3.3 注意事项和细节说明3.4 接口和继承关系 4. 多态4.1 基本概念4.2 快速入门4.3 使用场景 5…

大数据调度最佳实践 | 从Airflow迁移到Apache DolphinScheduler

迁移背景 有部分用户原来是使用 Airflow 作为调度系统的,但是由于 Airflow 只能通过代码来定义工作流,并且没有对资源、项目的粒度划分,导致在部分需要较强权限控制的场景下不能很好的贴合客户需求,所以部分用户需要将调度系统从…

ROS笔记之visualization_msgs-Marker学习

ROS笔记之visualization_msgs-Marker学习 code review! 文章目录 ROS笔记之visualization_msgs-Marker学习一.line_strip例程二.line_list例程一二.line_list例程二二.TEXT_VIEW_FACING例程三.附CMakeLists.txt和package.xml五.关于odom、base_link和map坐标系六.关于visualiz…

工作:三菱伺服驱动器连接参数及其电机钢性参数配置与调整

工作:三菱伺服驱动器参数及电机钢性参数配置与调整 一、三菱PLC与伺服驱动器连接参数的设置 1. 伺服配置 单个JET伺服从站链接侧占用点数:Rx/Ry占用64点、RWw/RWr占用32点 图中配置了22个JET伺服从站,占用点数:Rx/Ry占用64222048‬点、RWw/RWr占用322…

薛定谔的猫重出江湖?法国初创公司AliceBob研发猫态量子比特

总部位于巴黎的初创公司Alice&Bob使用超导芯片的两个相反的量子态(他们称之为“猫态量子比特”芯片)来帮助开发量子计算的不同自旋方式。(图片来源:网络) 有的人认为,构建量子计算机的模块模仿了著名的…

安科瑞剩余电流继电器在智能建筑中的应用

安科瑞 华楠 【摘 要】 分析了智能建筑应用剩余电流继电器的必要性,介绍了ASJ剩余电流继电器的主要功能、工作原理、分类情况和提出了在选择剩余电流保护断路器时的原则和注意事项。 【关键词】 ASJ剩余电流继电器;智能建筑;应用 一、前言…

SQL sever中函数(2)

目录 一、函数分类及应用 1.1标量函数(Scalar Functions): 1.1.1格式 1.1.2示例 1.1.3作用 1.2表值函数(Table-Valued Functions): 1.2.1内联表值函数(Inline Table-Valued Functions&am…