吴恩达机器学习全课程笔记第五篇

news2025/4/12 18:13:47

目录

前言

P80-P85

添加数据

迁移学习

机器学习项目的完整周期

公平、偏见与伦理

P86-P95

倾斜数据集的误差指标 

决策树模型

测量纯度

选择拆分方式增益

使用分类特征的一种独热编码

连续的有价值特征

回归树

前言

这是吴恩达机器学习笔记的第五篇,第四篇笔记请见:

吴恩达机器学习全课程笔记第四篇

完整的课程链接如下:

吴恩达机器学习教程(bilibili)

推荐网站:

scikit-learn中文社区

吴恩达机器学习资料(github)

P80-P85

机器学习的迭代发展:

以“垃圾邮箱分类器”为例,如何减少学习算法中可能出现的错误?

添加数据

有一种技术,特别是对于图像和音频数据,可以显著增加训练集大小,这种技术称为“数据增强

如图所示,改变x使之有相同的y,以达到数据增强的效果

除了图像数据,对于音频数据,也可以进行数据增强,如下所示:

在数据增强中,如果加入的扭曲(噪声)不合适,可能不会对增大数据集产生作用

除了使用数据增强去添加数据之外,还可以使用合成数据去添加数据

合成数据是基于计算机模拟或算法生成模仿现实世界观察的人造数据,简言之,合成数据是人工制造的模拟数据

以OCR照片为例,现在想要训练一个模型去提取图片中的文字:

下面是一个真实的数据:

为这项任务创建人工数据的一种方法是:转到计算机的文本编辑器,里面有很多不同的字体,使用这些字体在文本编辑器中键入随机文本,截图它们并使用不同颜色、不同对比度和不同的字体

迁移学习

对于一个没有那么多数据的应用程序,可以使用迁移学习,它允许使用来自不同任务的数据来帮助你的应用程序

如上图所示,对于一个数据集很小很小的网络,建议使用选项一,即仅仅训练输出层的参数,否则使用选项二

迁移学习的一个好处是:你可能不需要称为监督的执行人,许多神经网络的预训练已经有研究人员在大图像上训练了神经网络,会在网上发布一个经过训练的神经网络,免费授权给任何人下载和使用

迁移学习的总结如下:

机器学习项目的完整周期

确定项目的范围------->定义和收集数据<---------->训练模型、误差诊断、迭代优化------->部署、检测、维持模型系统

下面展示的是模型部署的一些细节

如图,开发的移动应用可以通过api进行调用

部署过程需要一定的软件工程技术,软件工程需要编写代码使得可靠准确的预测、扩大服务范围、保存数据、系统监控、模型更新

MLOps是一门工程学科,旨在统一 ML 系统开发(dev)和 ML 系统部署(ops),以标准化过程生产高性能模型的持续交付

公平、偏见与伦理

除了偏见之外,公平对待个人,机器学习也有一些负面用例

下面有一些让你工作更公平的建议,在部署可能造成伤害的系统之前,减少偏见,更道德

P86-P95

倾斜数据集的误差指标 

如果你正在开发机器学习应用程序,数据集的正面和负面例子非常不平衡,会发现,通常的误差度量如准确率不会那么有效

比如下面这个罕见疾病检测的问题,我们的学习算法成功诊断概率是99%,即误差1%,但如果全世界只有0.5%的人发生这种疾病,即使我写一个print("y=0")的程序,即永远告诉病人没有患病的误差0.5%都比上面那个1%低。因此单单看准确率去评判学习算法是不够的

精确率和召回率的定义如下:

提高输出标签1的门槛,即像下面一样把0.5改成0.7再改成0.9会提高准确率、降低召回率

下面展示如何权衡准确率和召回率

取平均值的方法并不是一个好的方法,而使用F1 score权衡可以强调两个指标中更小的那个

通过F1 score去权衡上述这两个指标从而选择学习算法

决策树模型

许多用来赢得机器学习比赛的应用程序是决策树和树的集合

以检测是否为猫的算法为例:

决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值

给定训练集构建决策树的过程有几个步骤

第一个步骤是:在每个节点上使用什么特征去划分

第一个步骤是:决定什么什么停止划分

测量纯度

通过熵函数可以测量一组数据的不纯度

熵函数真实的表达式如下所示:

选择拆分方式增益

在构建决策树时,我们将决定在结点上拆分什么特征,将决定根据什么特征在减少熵,学习熵的减少称为信息增益

如下图所示,计算每一种拆分方式的信息增益,就是用原来的熵减去新的熵

总结起来,信息增益的计算方式如下:

决策树构建过程总结

使用分类特征的一种独热编码

在刚才的例子中,对于耳朵这个特征不是圆的就是尖的,下面使用独热编码解决这个问题

也就是说:如果一个分类特征有k个值,那么就创造k个二进制数字(取值0或1)

 

连续的有价值特征

上面的特征都是离散的,当特征是连续值是会怎么样呢

比如在上面例子的基础上加一个体重的特征

选择不同的阈值,计算信息增益然后决定最终的拆分阈值

回归树

到目前为止,我们只把决策树作为分类算法来讨论,使用回归树可以将决策树推广为回归算法

比如对于体重的预测,可以通过决策树进行划分,最后求得每一种类的平均值

建立回归树时,如何选择一个划分呢?

在建立回归树时,不是去减少熵,相反的,我们应该去减少权重的方差,这是回归树的信息增益

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1483300.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis 的 介绍 及 使用

redis 简介 简单来说 redis 就是一个数据库&#xff0c;不过与传统数据库不同的是 redis 的数据是存在内存中的&#xff0c;所以读写速度非常快&#xff0c;因此 redis 被广泛应用于缓存方向。另外&#xff0c;redis 也经常用来做分布式锁。redis 提供了多种数据类型来支持不同…

springboot3.x 以上,官方不建议使用spring.factories

springboot2.7.x 以上,官方不建议使用spring.factories 最近公司项目升级.需要将springcloud/springboot版本升级到2.7.x以上,再升级的过程中遇到了太多的问题.总结在了如下文章中: springboot艰难版本升级之路!! springboot 2.3.x版本升级到2.7.x版本 这篇文章就重点是梳理一…

npm digital envelope routines::unsupported

问题描述&#xff1a;npm运行命令报错&#xff1a;digital envelope routines::unsupported 原因&#xff1a;node版本过高 解决方案&#xff1a;在运行命令之前加上 SET NODE_OPTIONS--openssl-legacy-provider && SET NODE_OPTIONS--openssl-legacy-provider &&a…

vSphere资源管理

一 内存、CPU、资源池和vApp 内存部分&#xff1a; 关联VM内存 我们可以超额的关联内存给VM。例如&#xff1a;ESXI物理主机内存只有8G&#xff0c;但我们可以给三个VM都分配4G内存。 2.ESXI四大高级内存控制技术 a.Page sharing&#xff08;透明的页面共享&#xff09; 虚…

PYTHON 自动化办公:压缩图片(PIL)

1、介绍 在办公还是学习过程中&#xff0c;难免会遇到上传照片的问题。然而照片的大小限制一直都是个问题&#xff0c;例如照片限制在200Kb之内&#xff0c;虽然有很多图像压缩技术可以实现&#xff0c;但从图像处理的专业来说&#xff0c;可以利用代码实现 这里使用的库函数是…

【深度学习笔记】5_4 池化层

注&#xff1a;本文为《动手学深度学习》开源内容&#xff0c;部分标注了个人理解&#xff0c;仅为个人学习记录&#xff0c;无抄袭搬运意图 5.4 池化层 回忆一下&#xff0c;在5.1节&#xff08;二维卷积层&#xff09;里介绍的图像物体边缘检测应用中&#xff0c;我们构造卷…

python 使用curl_cffi 绕过jax3指纹-Cloudflare 5s盾

现在越来越多的网站已经能够通过JA3或者其他指纹信息&#xff0c;来识别你是不是爬虫了。传统的方式比如换UA&#xff0c;加代理是没有任何意义了&#xff0c;所以这个时候我们就需要使用到curl_cffi 了。 1.TLS 指纹是啥&#xff1f; 在绝大多数的网站都已经使用了 HTTPS&am…

【YOLO v5 v7 v8 小目标改进】ODConv:在卷积核所有维度(数量、空间、输入、输出)上应用注意力机制来优化传统动态卷积

ODConv&#xff1a;在卷积核所有维度&#xff08;数量、空间、输入、输出&#xff09;上应用注意力机制来优化传统的动态卷积 提出背景传统动态卷积全维动态卷积效果 小目标涨点YOLO v5 魔改YOLO v7 魔改YOLO v8 魔改 论文&#xff1a;https://openreview.net/pdf?idDmpCfq6Mg…

电商小程序10分类管理

目录 1 分类数据源2 搭建功能3 创建变量读取数据4 绑定数据总结 本篇我们介绍一下电商小程序的分类管理功能的开发&#xff0c;先看我们的原型图&#xff1a; 在首页我们是展示了四个分类的内容&#xff0c;采用上边是图标&#xff0c;下边是文字的形式。使用低代码开发&#…

Redis大数据统计

文章目录 一. 相关面试题1. 面试题一2. 面试题二 二. 统计的类型1. 聚合统计2. 排序统计3. 二值统计4. 基数统计 三. Hyperloglog1. 专业名词2. Hyperloglog使用3. Hyperloglog原理4. Hyperloglog案例 四. GEO1. 面试题2. GEO使用3. GEO案例 五. BitMap1. 面试题2. BitMap使用 …

Java+SpringBoot+Vue:招生宣传的全栈解决方案

✍✍计算机毕业编程指导师 ⭐⭐个人介绍&#xff1a;自己非常喜欢研究技术问题&#xff01;专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目&#xff1a;有源码或者技术上的问题欢迎在评论区一起讨论交流&#xff01; ⚡⚡ Java、…

《汇编语言》- 读书笔记 - 第13章-int 指令

《汇编语言》- 读书笔记 - 第13章-int 指令 13.1 int 指令13.2 编写供应用程序调用的中断例程中断例程&#xff1a;求一 word 型数据的平方主程序中断处理程序执行效果 中断例程&#xff1a;将一个全是字母&#xff0c;以0结尾的字符串&#xff0c;转化为大写主程序中断处理程序…

中央处理器CPU中的技术

1 知识加油站 1.1 cpu 指令的执行过程 取指&#xff1a;cpu 获取 程序计数器 中存放的指令地址。读取内存中此地址对应指令并存入指令寄存器译码&#xff1a;指令译码器&#xff0c;解析指令运行&#xff1a;算数逻辑单元计算回写&#xff1a;将执行结果写入对应位置 2. cpu…

如何使用ShellSweep检测特定目录中潜在的webshell文件

关于ShellSweep ShellSweep是一款功能强大的webshell检测工具&#xff0c;该工具使用了PowerShell、Python和Lua语言进行开发&#xff0c;可以帮助广大研究人员在特定目录中检测潜在的webshell文件。 ShellSweep由多个脚本模块组成&#xff0c;能够通过计算文件内容的熵来评估…

xsslabs第四关

测试 "onclick"alert(1) 这与第三关的代码是一样的&#xff0c;但是每一关考的点是不一样的所以我们看一下源代码 <!DOCTYPE html><!--STATUS OK--><html> <head> <meta http-equiv"content-type" content"text/html;ch…

C++string类讲解

大家好鸭 见字如面&#xff0c;已经有好久没有写文章了&#xff0c;这段时间忙着学习&#xff0c;也忙着玩&#xff0c;所以停更了一段时间 今天让我们来谈一谈关于C中的string类 什么是string类&#xff1f; 在c语言中我们操作字符串往往采用指针&#xff0c;这样的访问方式并…

不看后悔的腾讯云优惠券领取入口指南,2024最新代金券

腾讯云代金券领取渠道有哪些&#xff1f;腾讯云官网可以领取、官方媒体账号可以领取代金券、完成任务可以领取代金券&#xff0c;大家也可以在腾讯云百科蹲守代金券&#xff0c;因为腾讯云代金券领取渠道比较分散&#xff0c;腾讯云百科txybk.com专注汇总优惠代金券领取页面&am…

二级医院云HIS系统,云HIS源码,支持分院HIS,集团HIS

云HIS具有可扩展、易共享、易协同、低成本、体验号、更便捷、易维护的优势&#xff0c;重新定义了数字化医院信息系统&#xff0c;实现数字化医院信息系统的转型升级。云 HIS 系统功能完善&#xff0c;涵盖临床各业务部门&#xff0c;采集、抽提、汇总、存贮、展现所有的临床诊…

FL Studio 21.2.3.3586 for Mac中文版新功能介绍及2024年最新更新日志

如果你正计划学习音乐制作&#xff0c;一款强大且易学的音乐制作软件是必不可少的。由于很多小伙伴对音乐制作软件没有实际体验过&#xff0c;到底选择哪一款软件最合适成为当下最纠结的问题。 这里为大家推荐一款功能强大且适合新手小伙伴的音乐编曲软件—FL Studio 21.2.3.35…

[物联网] OneNet 多协议TCP透传

[物联网] OneNet 多协议TCP透传 STM32物联网–ONENET云平台的多协议接入产品创建 : https://blog.csdn.net/qq_44942724/article/details/134492924 Onenet tcp 透传 : https://blog.csdn.net/flyme2010/article/details/107086001 tcp服务端测试工具 : http://tcp.xnkiot.com/…