吴恩达《机器学习》11-3-11-5:类偏斜的误差度量、查准率和查全率之间的权衡、机器学习的数据

news2025/1/20 19:25:46

一、类偏斜的误差度量

误差度量的关键性

之前的课程中已经提到了误差分析和设定误差度量值的重要性。评估学习算法并衡量其表现需要使用一个实数,这就是误差度量值。然而,在某些情况下,特别是当处理偏斜类时,选择正确的误差度量值可能会对算法的性能产生微妙但重要的影响。

偏斜类的问题

偏斜类的情况发生在训练集中某一类实例数量非常多,而其他类的实例数量很少或没有的情况下。举例来说,如果希望用算法来预测肿瘤是否是恶性的,而在训练集中只有0.5%的实例是恶性肿瘤,就会面临偏斜类的问题。

查准率和查全率

为了解决偏斜类问题,我们引入了两个重要的概念:查准率(Precision)和查全率(Recall)。

  • 查准率:表示在所有预测为正例的样本中,实际为正例的比例。计算方式为查准率=TP/(TP+FP)。在肿瘤预测中,查准率高表示在我们预测为恶性的病人中,实际上有恶性肿瘤的比例高。

  • 查全率:表示在所有实际为正例的样本中,成功预测为正例的比例。计算方式为查全率=TP/(TP+FN)。在肿瘤预测中,查全率高表示在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的比例高。

混淆矩阵

为了更清晰地理解查准率和查全率,引入了混淆矩阵。混淆矩阵以预测值和实际值的正负情况为基础,划分为True Positive(真正例)、True Negative(真负例)、False Positive(假正例)、False Negative(假负例)四个部分。

二、查准率和查全率之间的权衡

重温查准率和查全率

在之前的课程中,我们已经了解了查准率(Precision)和查全率(Recall)的概念。查准率表示在所有预测为正例的样本中,实际为正例的比例,而查全率表示在所有实际为正例的样本中,成功预测为正例的比例。

  • 查准率(Precision):Precision = TP/(TP+FP),在所有我们预测有恶性肿瘤的病人中,实际上有恶性肿瘤的病人的百分比,越高越好。

  • 查全率(Recall):Recall = TP/(TP+FN),在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的病人的百分比,越高越好。

权衡查准率和查全率

假设我们的算法输出的结果在 0-1 之间,使用阀值 0.5 来预测真和假。我们可以通过调整阀值来平衡查准率和查全率。如果我们希望提高查准率,可以使用比 0.5 更大的阀值,如 0.7 或 0.9。反之,如果希望提高查全率,可以使用比 0.5 更小的阀值,如 0.3。

F1 值的引入

为了更有效地权衡查准率和查全率,引入了 F1 值(F1 Score)。F1 值是查准率和查全率的调和平均数,计算公式为:

F1 值的范围在 0 到 1 之间,取得最高值的阀值即为我们选择的阀值。通过计算 F1 值,我们可以在查准率和查全率之间找到一个平衡,选择一个适当的阀值来优化算法性能。

三、机器学习的数据

在这段视频中,我们探讨了机器学习系统设计中一个重要的方面,即训练数据的数量对算法性能的影响。在研究中,研究人员Michele Banko和Eric Brill进行了一项实验,通过使用不同大小的训练数据集来比较不同学习算法的性能。

他们发现,随着训练数据集的增大,大多数算法表现出相似的性能提升趋势。即使是一些算法可能被认为是“劣等”的,但通过提供更多的训练数据,它们的性能可能超越一些被认为是“优等”的算法。这引发了一个普遍的共识:“在机器学习中取得成功的关键不在于拥有最好的算法,而在于拥有最多的数据。”

这个结论的前提条件是:首先,特征值𝑥包含足够的信息,使得人类专家能够准确预测𝑦值。其次,有大量的训练数据,且训练的学习算法具有足够多的参数,例如逻辑回归、线性回归或神经网络等。

这样的研究结果表明,大量的训练数据可以弥补算法的一些不足,甚至在某些情况下,数据的重要性可能超过选择算法的重要性。因此,在实践中,获取更多的训练数据可能是提高机器学习算法性能的有效途径。

请注意,这个结论并不适用于所有情况,而是在特定条件下成立。如果特定问题中特征包含足够信息,而且有足够的训练数据,那么增加数据量可能是改善算法性能的一种方法。

参考资料

[中英字幕]吴恩达机器学习系列课程

黄海广博士 - 吴恩达机器学习个人笔记

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1290467.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

kafka学习笔记--基础知识概述

本文内容来自尚硅谷B站公开教学视频,仅做个人总结、学习、复习使用,任何对此文章的引用,应当说明源出处为尚硅谷,不得用于商业用途。 如有侵权、联系速删 视频教程链接:【尚硅谷】Kafka3.x教程(从入门到调优…

学习极市开发平台

这是官网的链接:极市开发者平台-计算机视觉算法开发落地平台-极市科技 (cvmart.net) 第一次用这个平台有很多问题,首先在使用这个平台之前,我大部分时候使用的是百度的飞浆平台,也就是BML,去训练一些深度学习的模型。 …

Mac端 DevEco Preview 窗口无法展示,提示文件中的node.dir错误

语雀知识库地址:语雀HarmonyOS知识库 飞书知识库地址:飞书HarmonyOS知识库 DevEco版本:Build Version: 3.1.0.501, built on June 20, 2023 环境信息 问题描述 打开 Preview 标签窗口后,提示Preview failed。 Run窗口提示如下 F…

vue2 echarts饼状图,柱状图,折线图,简单封装以及使用

vue2 echarts饼状图,柱状图,折线图,简单封装以及使用 1. 直接上代码(复制可直接用,请根据自己的文件修改引用地址,图表只是简单封装,可根据自身功能,进行进一步配置。) …

C#网络应用程序(Web页面浏览器、局域网聊天程序)

目录 一、创建Web页面浏览器 1.示例源码 2.生成效果 二、局域网聊天程序 1.类 2.服务器端 3.客户端 一、创建Web页面浏览器 TextBox 控件用来输入要浏览的网页地址,Button控件用来执行浏览网页操作, WebBrowser控件用来显示要浏览的网页。这个控…

图像处理中的角点检测Python-OpenCV 中的实现

马丁亚当斯 (Martin Adams)在Unsplash上拍摄的照片 一、说明 在图像处理的背景下,“特征”可以直观地理解为图像中易于识别并用于表示图像的独特或独特的部分。将特征视为图像中使其可区分的“地标”或“焦点”。为了使这一点更具关联性,请考虑一下您如…

gitLab 和Idea分支合并

以下二选1即可完成分支合并建议第一种简单有效 Idea合并方式 切换到被合并的分支,如我想把0701的内容合并到dev,切换到dev分支,然后再点击merge然后选择要合并的分支,即可,此时git上的代码没有更新只是把代码合到本地需要pull才…

使用Java网络编程,窗口,线程,IO,内部类等实现多人在线聊天1.0

1.整体思路 思路图 整体思路如上: 涉及知识点:线程网络编程集合IO等 TCP 协议 2.代码实现过程 服务端 import javax.swing.*; import java.awt.*; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import java.awt.event.KeyAdapter; import jav…

管理和监控CentOS上的HTTP服务

CentOS作为一款稳定的开源服务器操作系统,为各种网络服务提供了优秀的支持。其中,HTTP服务是互联网上最常用的服务之一,它为人们提供了便捷的信息访问和交互方式。在CentOS上管理和监控HTTP服务是一项重要的任务,下面我们将介绍一…

华为数通---BFD多跳检测示例

定义 双向转发检测BFD(Bidirectional Forwarding Detection)是一种全网统一的检测机制,用于快速检测、监控网络中链路或者IP路由的转发连通状况。 目的 为了减小设备故障对业务的影响,提高网络的可靠性,网络设备需要…

前端“量子纠缠”:multipleWindow3dScene 来了

最近前端实现的量子纠缠在网络上火了起来,作者bgstaal的推文:效果如下: 量子纠缠 那我们一起来看下什么是量子纠缠,以及前端是如何实现的。 什么是量子纠缠? 在量子力学里,当几个粒子在彼此相互作用后&…

【Java】实现顺序表基本的操作(数据结构)

文章目录 前言顺序表1、打印顺序表2、增加元素3、在任意位置增加元素4、判断是否包含某个元素5、查找某个元素对于的位置6、获取任意位置的元素7、将任意位置的元素设为value8、删除第一次出现的关键字9、获取顺序表长度10、清空顺序表总结 前言 在了解顺序表之前我们要先了解…

rust高级 异步编程 二 pin

文章目录 定海神针 Pin 和 Unpin为何需要 PinUnpin深入理解 PinPin 在实践中的运用固定到堆上将固定住的 Future 变为 Unpin总结 定海神针 Pin 和 Unpin 在 Rust 中,所有的类型可以分为两类: 类型的值可以在内存中安全地被移动,例如数值、字符串、布尔…

OpenCV图像相似性比对算法

背景 在做图像处理或者计算机视觉相关的项目的时候,很多时候需要我们对当前获得的图像和上一次的图像做相似性比对,从而找出当前图像针对上一次的图像的差异性和变化点,这需要用到OpenCV中的一些图像相似性和差异性的比对算法,在O…

华为数通---配置端口安全案例

端口安全简介 端口安全(Port Security)通过将接口学习到的动态MAC地址转换为安全MAC地址(包括安全动态MAC、安全静态MAC和Sticky MAC),阻止非法用户通过本接口和交换机通信,从而增强设备的安全性。 组网需…

二百一十三、Flume——Flume拓扑结构介绍

一、目的 最近在看尚硅谷的Flume资料,看到拓扑结构这一块,觉得蛮有意思,于是整理一下Flume的4种拓扑结构 二、拓扑结构 (一)简单串联 1、结构含义 这种模式是将多个flume顺序连接起来了,从最初的sourc…

一键抠图|3个智能AI抠图软件实现抠图自由!

听说你对如何利用AI抠图技术去除白色背景感兴趣?设想一下,你有一张某人站在白色背景前的照片,而你只希望能留下这个人物。在过去,你可能需要花费大量时间和精力手动进行抠图。但现在,AI技术来拯救你了!AI可…

计网实验7

解决:路由器用rip连接,主机通过域名访问,主机之间发送电子邮件 实验步骤 1.搞好部件 2.配好两台主机的ip,掩码,网关 3.连接一下两台主机,由于两台路由器没有连接,所以两台主机也无法连通,丢包率…

搭建个人网盘应用Nextcloud

使用DNF管理软件包 1 使用winscp工具将openeuler-20.03-LTS-x86_64-dvd.iso上传至openeuler虚拟机的/root目录下,然后执行如下命令挂载ISO [rootopenEuler ~]# mount -o loop /root/openEuler-20.03-LTS-everything-x86_64-dvd.iso /mnt/2 添加软件源 [rootope…

智能优化算法应用:基于社交网络算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于社交网络算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于社交网络算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.社交网络算法4.实验参数设定5.算法结果6.参考…