机器学习:监督学习

news2025/1/13 17:42:11

目前,在机器学习系统中,监督学习(Supervised Learning)占主导地位。由于监督学习的任务定义明确,例如识别垃圾邮件或预测降水,因此它比无监督学习具有更多潜在用例;而与强化学习相比,监督学习更好地利用历史数据。

监督机器学习基于以下核心概念:

  • 数据
  • 模型
  • 训练
  • 评估
  • 推理

目录

1.数据

1.1 数据集特征

2.模型

3.训练

4.评估

5.推理

6.参考文献


1.数据

数据是机器学习的驱动力。数据以单词和数字的形式存储在表格中,或者以图像和音频文件中捕获的像素值和波形的形式出现。我们将相关数据存储在数据集中。例如,我们可能有以下数据集:

  • 猫的图像
  • 房价
  • 天气信息

数据集由包含 特征 和 标签 的单个示例组成 。我们可以将示例简单地看作电子表格中的单行。特征是监督模型用来预测标签的值。标签是 “答案”,或者我们希望模型预测的值。在预测降雨的天气模型中,特征可以是 纬度经度温度、 湿度云量风向 气压,标签则是降雨量同时包含特征和标签的示例称为 带标签示例。

两个带标签的例子

相反,未标记的示例包含特征,但没有标签。创建模型后,模型会根据特征预测标签。

两个未标记的示例

1.1 数据集特征

数据集的特征在于其 大小多样性。大小表示示例的数量。多样性表明了这些例子所涵盖的范围。好的数据集既大又高度多样化。这很好理解,以刷题为例,刷的题数量越多、类型越丰富,考试的时候取得好成绩的可能性越大。

一些数据集既庞大又多样化。然而,有些数据集很大但多样性较低,有些数据集较小但多样性很高。换句话说,大数据集并不能保证足够的多样性,而高度多样化的数据集也不能保证有足够的示例。例如,数据集可能包含 100 年的数据,但仅包含 7 月份的数据。使用此数据集来预测一月份的降雨量会产生糟糕的预测。相反,数据集可能只涵盖几年,但包含每个月。该数据集可能会产生较差的预测,因为它没有包含足够的年份来解释变异性。

2.模型

在监督学习中,模型是复杂的数字集合,定义从特定 输入特征 模式到 特定输出标签值数学关系。该模型通过训练发现这些模式。

3.训练

在监督模型进行预测之前,必须对其进行训练。为了训练模型,我们为模型提供带有标记示例的数据集。该模型的目标是找出从特征预测标签的最佳解决方案。该模型通过将其预测值与标签的实际值进行比较来找到最佳解决方案。根据预测值和实际值之间的差异(定义为损失-Loss),模型逐渐更新其解决方案。换句话说,模型学习特征和标签之间的数学关系,以便可以对看不见的数据做出最佳预测。

例如,如果模型预测 1.15英寸会下雨,但实际值为 0.75 英寸,则模型会修改其解,使其预测更接近 0.75 英寸。在模型查看数据集中的每个示例(在某些情况下多次)后,它会得出一个解决方案,平均对每个示例做出最佳预测。下面演示了模型的训练:

        1.该模型采用单个标记示例并提供预测。

图1 根据标记示例进行预测的 ML 模型

        2.该模型将其预测值与实际值进行比较并更新其解决方案。

图2  更新其预测值的 ML 模型

        3.该模型对数据集中的每个标记示例重复此过程。

图3 机器学习模型更新其对训练数据集中每个标记示例的预测

如此一来,模型逐将会渐学习到 特征标签 之间的正确 关系。这种逐步的理解也是大型且多样化的数据集产生更好模型的原因。该模型看到了更多具有更广泛值的数据,并完善了对特征和标签之间关系的理解。

在训练期间,机器学习从业者可以对模型用于进行预测的配置和功能进行细微调整。例如,某些特征比其他特征具有更强的预测能力。因此,机器学习从业者可以选择模型在训练期间使用哪些特征。例如,假设天气数据集包含 “时间”特征,机器学习从业者可以在训练期间添加或删除 “时间”,以查看模型在使用或不使用它时是否能做出更好的预测。

4.评估

我们评估经过训练的模型以确定其学习效果。当我们评估模型时,我们使用带标签的数据集,但我们只为模型提供数据集的特征。然后,我们将模型的预测与标签的真实值进行比较。

图4 通过将预测与实际值进行比较来评估 ML 模型

根据模型的预测,在将模型部署到实际应用程序中之前,我们可能会进行更多的训练和评估。

5.推理

一旦我们对模型的评估结果感到满意,我们就可以使用该模型对未标记的示例进行预测,称为推断。在天气应用程序示例中,我们将为模型提供当前的天气条件(例如温度、大气压力和相对湿度),它会预测降雨量。

6.参考文献

本文部分内容翻译自英文资料(链接-https://developers.google.cn/machine-learning/intro-to-ml/supervised),感兴趣的读者可以通过链接查看原文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/684677.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

剑指offer(C++)-JZ51:数组中的逆序对(算法-排序)

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 题目描述: 在数组中的两个数字,如果前面一个数字大于后面的数字,则这两个数字组成一个逆序对…

Java IO 学习总结(四)BufferedReader 缓冲字符流

Java IO 学习总结(一)输入流/输出流 Java IO 学习总结(二)File 类 Java IO 学习总结(三)BufferedInputStream Java IO 学习总结(四)BufferedReader 缓冲字符流 前言: 学…

Kibana介绍安装

目录 Kibana入门配置和安装启动数据探索Metricbeat仪表盘Nginx指标仪表盘【Metricbeat】Nginx日志仪表盘查看集群数据 Kibana入门 Kibana 是一款开源的数据分析和可视化平台,它是 Elastic Stack 成员之一,设计用于和 Elasticsearch 协作。可以使用 Kiban…

2023上半年软考系统分析师科目一整理-03

2023上半年软考系统分析师科目一整理-03 1. 嵌入式 1. 嵌入式 嵌入式系统已被广泛应用到各行各业。嵌入式系统是一个内置于设备中,对设备的各种传感器进行管理与控制的系统。通常,根据系统对时间的敏感程度可将嵌入式系统划分为( A )两种,而…

netwox构建IP协议数据包【网络工程】(保姆级图文)

目录 netwox构建IP协议数据包1) 不指定选项,直接运行该模块。执行命令如下:2) 指定源 IP 地址为 192.168.43.95,目标 IP 地址为 192.168.43.97。执行命令如下:3) 通过抓包,验证构造的 IP 数据包。捕获到的数据包如图所…

管理类联考——英语——趣味篇——不择手段——b开头单词

第一部分 核心词汇趣讲 Unit 2 boom n./v.(发出)隆隆声;激增,繁荣 loom想象成:一百(100)米(m)外有个妹妹(m也可以想象成妹妹),你能看得清她吗?→(模糊之物)耸现。 boom:六百个妹…

低代码可视化拖拽编辑器实现方案

一、前言 随着业务不断发展,低代码、无代码平台越来越常见,它降低开发门槛、快速响应业务需求、提升开发效率。零开发经验的业务人员通过可视化拖拽等方式,即可快速搭建各种应用。本文主要是讲解低代码可视化拖拽平台前端展示层面的实现逻辑…

@Async使用什么线程池?

文章目录 前言一、前言1、ThreadPoolTaskExecutor2、SimpleAsyncTaskExecutor3、测试代码 二、各种情况模拟1、未配置线程池2、配置异步线程池3、配置1个或多个非异步线程池4、同时配置异步和非异步线程池 三、总结 前言 本文的目的,主要是看到网上各种说辞&#x…

JVM-类加载与运行区详细分析(一)

目录 一、为什么会有类加载机制 二、类加载机制原理是什么 1、什么是类加载器:宏观 2、类加载器工作原理 1、装载 2、链接 3、初始化 3、何为装载的机制:微观 4、上面既然我们已经知道了啥是双亲委派了,那么怎么去破坏呢?…

【设计模式】工厂模式(简单工厂模式、工厂方法模式、抽象工厂模式)详记

注:本文仅供学习参考,如有错漏还请指正! 参考文献/文章地址: https://zh.wikipedia.org/wiki/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F%EF%BC%9A%E5%8F%AF%E5%A4%8D%E7%94%A8%E9%9D%A2%E5%90%91%E5%AF%B9%E8%B1%A1%E8%BD%AF%E4%BB%B…

第20章:MySQL索引失效案例

1.全值匹配我最爱 当SQL查询 EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age30 AND classId4 AND NAMEabcd; 创建3个索引 idx_age,idx_age_classid,idx_age_classid_name 当前优化器会选择跟where条件匹配最高的idx_age_classid_name索引,直接查询出对…

[CVPR 2023] Imagic:使用扩散模型进行基于文本的真实图像编辑

[CVPR 2023] Imagic:使用扩散模型进行基于文本的真实图像编辑 Paper Title: Imagic: Text-Based Real Image Editing with Diffusion Models The first author performed this work as an intern at Google Research. Project page: https://imagic-editing.github.io/. 原文…

登出成功后token过期方案

目录 需求分析解决方案实现步骤登出成功相关逻辑改造携带token请求相关逻辑需求分析 登录成功后,系统会返回一个token给客户端使用,token可以用来获取登录后的一些资源或者进行一些操作。当用户在系统中注销或者退出登录时,需要对token进行过期处理,以保证系统的安全性和数…

校园网WiFi IPv6免流上网

ipv6的介绍 IPv6是国际协议的最新版本,用它来取代IPv4主要是为了解决IPv4网络地址枯竭的问题,也在其他很多方面对IPv4有所改进,比如网络的速度和安全性。 IPv4是一个32位的地址,随着用户的增加在2011年国家报道说IPv4的网络地址即…

基于前后端交互的论坛系统(课设高分必过)

目录 前言概述 一.前期准备 项目演示 用户注册 用户登录 主页面 发帖页面 个人信息及修改 用户主帖 站内信 需求分析 技术选型 二.建表分析 三.环境搭建 技术环境的检查与安装 检查JDK ​编辑 检查数据库 检查Maven 检查git ​编辑 项目启动的通用配置 新…

【系统架构】第五章-软件工程基础知识(需求工程和系统分析与设计)

软考-系统架构设计师知识点提炼-系统架构设计师教程(第2版) 需求工程 软件需求3个层次: 业务需求:反映了组织机构或客户对系统、产品高层次的目标要求用户需求:描述了用户使用产品必须要完成的任务,是用户…

rust abc(3): 布尔和字符类型的使用并与C/C++对比

文章目录 1. 目的2. 布尔类型2.1 只能赋值为小写的 true, false2.2 不能把数字赋值给bool类型变量2.3 正确写法汇总 3. 字符类型3.1 UTF-8 编码3.2 字符的意思是单个字符,多个字符不能用单引号 4. 总结 1. 目的 继续熟悉 rust 语言的基本数据类型, 感受 rust 编译期…

Redis【实战篇】---- 短信登录

Redis【实战篇】---- 短信登录 1. 导入黑马点评项目1. 导入SQL2. 有关当前模型3. 导入后端项目4. 导入前端项目5. 运行前端项目 2. 基于Session实现登录流程3. 实现发送短信验证码功能4. 实现登录拦截功能5. 隐藏用户敏感信息6. session共享问题7. Redis代替session业务1. 设计…

Spark10-11

10. 广播变量 10.1 广播变量的使用场景 在很多计算场景,经常会遇到两个RDD进行JOIN,如果一个RDD对应的数据比较大,一个RDD对应的数据比较小,如果使用JOIN,那么会shuffle,导致效率变低。广播变量就是将相对…

【C/C++】使用类和对象 练习EasyX图形库

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;c系列专栏&#xff1a;C/C零基础到精通 &#x1f525; 给大…