机器学习—误差分析

news2024/11/20 9:34:01

帮助运行诊断的最重要的方法是选择下一步要尝试的内容,提高你的学习算法性能,偏差和方差可能是最重要的想法,然后是错误分析

假设Mcv=500,即有500个交叉验证示例,你的算法错误的分类了100个,错误分析过程只是指手动查看这100个例子,试图洞察算法哪里出了问题,首先找到一组算法错误分类的示例,来自交叉验证集的示例,把它们分成共同的主题、共同的属性或共同的特征,例如,如果你注意到相当多的错误分类垃圾邮件是药品销售,试图出售药品,通过这些例子用手数数,有多少错误分类的电子邮件是药品垃圾邮件,有两封,一封电子邮件药品垃圾邮件和你怀疑故意拼写错误可能会绊倒垃圾邮件分类器,数一数有多少错误分类的例子,故意拼写错误,假设我找到了100个中的3个,浏览电子邮件路由信息,发现7号有不寻常的电子邮件路由,18号是试图窃取密码或网络钓鱼电子邮件的电子邮件,垃圾邮件有时也代替在电子邮件正文中写垃圾邮件,相反,它们创建了一个图像,然后将垃圾信息写在电子邮件中出现的图像中,这让它变得有点难,对于一个学习算法来说,所以也许其中一些电子邮件是这些嵌入式图像垃圾邮件,如果最终得到这些计数,这就告意拼写错误诉你垃圾邮件以及试图窃取密码或网络钓鱼电子邮件的电子邮件似乎是个大问题,而故意拼写错误虽然是个问题,它是一个较小的,尤其是,这个分析告诉你的是,即使你要建立非常复杂的算法找出,它只能解决你100个错误分类的例子中的3个,因此,净影响似乎没有那么大,不意味着不值得去做,但是当你优先考虑做什么的时候,可能决定不将此作为高度优先事项。关于这个过程的注意事项,这些类别可能重叠,换句话说,它们并不相互排斥,例如,可能有一个药品垃圾邮件也有不寻常的路由或者故意拼写错误的密码,同时还试图实施钓鱼袭击,所以一封电子邮件可分为多个类别,在这个例子中,算法错误的分类了100个例子,我们会手动查看100个例子,如果你有一个较大的交叉验证集,假设你有5000个交叉验证的例子,如果算法错误分类1000个,那可能没有时间,取决于团队的规模和你在这个项目上工作的时间,可能根本没有时间手动查看,在这种情况下,算法错误分类的1000个例子,通常会随机抽取大约100个,也许有几百个例子,因为这是你可以在合理时间内浏览的数量,大概有100个例子将为你提供关于最常见错误类型的足够统计数据,因此,最有效的方法是把你的注意力集中,所以在这个分析之后,如果发现很多错误是药品垃圾邮件,然后这可能会给你一些想法或灵感,让你下一步做什么,例如,你可能会决定收集更多的数据,但不是任何更多的数据,但试着找到更多关于药品垃圾邮件的数据,让学习算法更好的发挥作用,识别这些药品垃圾邮件,或者你可能会决定想出一些与特征相符的具体的名称,或者垃圾邮件发送者试图出售的药品的具体名称,为了帮助你的学习算法更好的识别这种类型的制药垃圾邮件,这可能会启发你对算法进行特定的更改,与检测网络钓鱼电子邮件有关,例如,你可以查看电子邮件中的UPL,并编写带有额外功能的特殊代码,查看是否链接到可疑的URL,或可能会决定获取更多网络钓鱼电子邮件的数据,特别是为了帮助学习算法而更好的识别它们,所以这个错误分析的重点是通过手动检查一组示例,你的算法被错误分类或错误标记,通常,这将为下一步可能有用的尝试创造灵感,有时它还可以告诉你某些类型的错误是足够罕见的,不值得花太多时间去修复。

所以回到这个列表,偏差方差分析应该告诉你,根据我们的错误分析,收集更多的数据是否有帮助,在示例中,看起来更复杂的电子邮件功能可能会有所帮助,但只有一点点,而更多的特征需要检测,垃圾邮件或网络钓鱼电子邮件可以帮助很多,这种检测拼写错误的方法也没有那么大的帮助。

总的来说,偏差方差诊断以及进行这种形式的误差分析,对筛选或决定模型的哪些变化更有希望下一步尝试,错误分析的一个局限性是,它更容易为人类擅长的问题,所以你可以看着电子邮件,说你认为这是一封垃圾邮件,算法为何出错,对于连人类都不擅长的任务,错误分析可能会有点困难,例如,如果你想预测,有人会在网络上点击哪些广告,我无法预测有人会点击什么,所以那里的误差分析实际上更困难,但是当你将错误分析应用于问题时,这对你把注意力集中在更有希望尝试的事情上是非常有帮助的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2243960.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微知-如何查看BlueField DPU上的内存信息,包括内存主频和位宽?(dmidecode -t memory)

背景 在定位DPU上网卡性能的时候,可能涉及到查看内存的主频、位宽、电压等信息,如何快速查看? 命令 dmidecode -t memory实操 可以看到主频是 3200MT/s,另外还能看到位宽,大小,电压等信息。

【AI系统】AI系统架构的组成

AI 系统组成 如图所示,大致可以将 AI 系统分为以下几个具体的方向: AI 训练与推理框架 AI 框架不仅仅是指如 PyTorch 等训练框架,还包括推理框架。其负责提供用户前端的 AI 编程语言,接口和工具链。负责静态程序分析与计算图构建…

竞赛思享会 | 2024年第十届数维杯国际数学建模挑战赛D题【代码+演示】

Hello,这里是Easy数模!以下idea仅供参考,无偿分享! 题目背景 本题旨在通过对中国特定城市的房产、人口、经济、服务设施等数据进行分析,评估其在应对人口老龄化、负增长趋势和极端气候事件中的韧性与可持续发展能力。…

机器学习基础07

目录 1.逻辑回归 1.1原理 1.2API 2.K-Means 2.1算法过程 2.2API 3.SVM(支持向量机) 3.1算法原理​ 3.2API 1.逻辑回归 逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法。 1.1原理 逻辑回归的输…

基于python的在线投票系统小程序u9t2g.

目录 项目介绍开发技术具体实现截图微信开发者工具介绍技术路线开发语言以及框架介绍python-flask核心代码部分展示python-django核心代码部分展示详细视频演示源码获取 项目介绍 投票系统用户端是基于微信小程序,管理员端是基于web网页端, &#xff0c…

android 使用MediaPlayer实现音乐播放--权限请求

在Android应用中,获取本地音乐文件的权限是实现音乐扫描功能的关键步骤之一。随着Android版本的不断更新,从Android 6.0(API级别23)开始,应用需要动态请求权限,而到了android 13以上需要的权限又做了进一步…

向量数据库FAISS之五:原理(LSH、PQ、HNSW、IVF)

1.Locality Sensitive Hashing (LSH) 使用 Shingling MinHashing 进行查找 左侧是字典,右侧是 LSH。目的是把足够相似的索引放在同一个桶内。 LSH 有很多的版本,很灵活,这里先介绍第一个版本,也是原始版本 Shingling one-hot …

【SQL】E-R模型(实体-联系模型)

目录 一、介绍 1、实体集 定义和性质 属性 E-R图表示 2. 联系集 定义和性质 属性 E-R图表示 一、介绍 实体-联系数据模型(E-R数据模型)被开发来方便数据库的设计,它是通过允许定义代表数据库全局逻辑结构的企业模式&#xf…

SIMCom芯讯通A7680C在线升级:FTP升级成功;http升级腾讯云对象储存的文件失败;http升级私有服务器的文件成功

从事嵌入式单片机的工作算是符合我个人兴趣爱好的,当面对一个新的芯片我即想把芯片尽快搞懂完成项目赚钱,也想着能够把自己遇到的坑和注意事项记录下来,即方便自己后面查阅也可以分享给大家,这是一种冲动,但是这个或许并不是原厂希望的,尽管这样有可能会牺牲一些时间也有哪天原…

如何理解岭回归模型?(python)

1 何为岭回归? 岭参数k不是唯一确定的,其估计的回归系数是一个估计族。 2 何为岭迹分析? 1)定义 2)作用 k值的选取原则: 如下图所示,当kk0时,各回归系数的估计值基本都能相对稳…

Prometheus结合K8s(二)使用

上一篇介绍了如何搭建 Prometheus结合K8s(一)搭建-CSDN博客,这章介绍使用 页面访问 kubectl get svc -n prom 看promeheus和granfana的端口访问页面 Prometheus 点击status—target,可以看到metrics的数据来源,即各…

泷羽sec学习打卡-云技术基础2-捕获照片

声明 学习视频来自B站UP主 泷羽sec,如涉及侵权马上删除文章 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 关于云技术基础的那些事儿-捕获帅照 搭建网站的前提有哪些?搭建网站的流程有哪些&#xff1f…

常见的水位检测传感器及其特点

常见的水位检测传感器及其特点: 1. 浮球液位传感器: - 工作原理:利用浮力,使浮子上升,通过判断浮子上升来判断水位 -优点:便宜简单 - 缺点:精确度低,应用环境受限。靠液体的浮力…

Flink Lookup Join(维表 Join)

Lookup Join 定义(支持 Batch\Streaming) Lookup Join 其实就是维表 Join,比如拿离线数仓来说,常常会有用户画像,设备画像等数据,而对应到实时数仓场景中,这种实时获取外部缓存的 Join 就叫做维…

Azure Kubernetes Service (AKS)资源优化策略

针对Azure Kubernetes Service (AKS)的资源优化策略,可以从多个维度进行考虑和实施,以提升集群的性能、效率和资源利用率。以下是一些关键的优化策略: 一、 Pod资源请求和限制 设置Pod请求和限制:在YAML清单中为所有Pod设置CPU和…

RabbitMQ1:初识MQ

欢迎来到“雪碧聊技术”CSDN博客! 在这里,您将踏入一个专注于Java开发技术的知识殿堂。无论您是Java编程的初学者,还是具有一定经验的开发者,相信我的博客都能为您提供宝贵的学习资源和实用技巧。作为您的技术向导,我将…

AI 提示词(Prompt)入门 十:最佳实践|详细询问,提供细节!

1、原则解释 当与 ChatGPT 交流时,提供具体和详细的信息非常重要。 这样做可以帮助 ChatGPT 更准确地理解你的需求和上下文,从而生成更相关和有用的回答 明确的信息可以包括具体的问题背景、相关领域的说明、你所期望的答案类型等。 2、如何实践 明…

实验十三 生态安全评价

1 背景及目的 生态安全是生态系统完整性和健康性的整体反映,完整健康的生态系统具有调节气候净化污染、涵养水源、保持水土、防风固沙、减轻灾害、保护生物多样性等功能。维护生态安全对于人类生产、生活、健康及可持续发展至关重要。随着城市化进程的不断推进&…

怎样实现跨部门和跨地区的数据共享?

随着企业规模的扩大和业务的多样化,不同部门和地区之间的数据共享变得越来越重要。实时数据同步作为保证数据准确性和完整性的重要手段,被广泛应用于各行各业。那不同部门和不同地区怎么实现共享数据呢? 一、前期数据准备 前期数据上需要建…

国家工信安全中心:公共数据授权运营平台技术要求(附下载)

2023年11月23日,第二届全球数字贸易博览会“数据要素治理与市场化论坛”于杭州成功召开,国家数据局党组书记、局长刘烈宏,浙江省委常委、常务副省长徐文光出席会议并致辞。会上,国家工业信息安全发展研究中心(以下简称…