【人工智能 AI】机器学习快速入门教程(Google)

news2024/11/24 9:01:54

目录

机器学习术语 

标签

特性

示例

模型

回归与分类

深入了解机器学习:线性回归 

深入了解机器学习:训练和损失 


机器学习术语 

预计用时:8 分钟

什么是(监督式)机器学习?简而言之,如下所示:

  • 机器学习系统学习如何组合输入以对从未见过的数据生成有用的预测。

我们来探索一下机器学习的基本术语。

标签

标签是指我们要预测的内容,即简单线性回归中的 y 变量。标签可以是小麦的未来价格、图片中显示的动物类型、音频剪辑的含义,也可以是其他任何信息。

特性

特征是输入变量,即简单线性回归中的 x 变量。一个简单的机器学习项目可能会使用单个功能,而更复杂的机器学习项目可以使用数百万个功能,如下所示:

在垃圾邮件检测器示例中,这些功能可能包括:

  • 电子邮件文字中的字词
  • 发件人的地址
  • 发送电子邮件的时间
  • 电子邮件中包含词组“一种奇怪的技巧”。

示例

样本是指数据的特定实例:x。(我们将 x 显示为粗体,表示它是一个矢量。)我们将示例分为两类:

  • 有标签样本
  • 无标签样本

有标签样本同时包含特征和标签。具体来说:

  labeled examples: {features, label}: (x, y)

使用有标签样本来训练模型。在我们的垃圾邮件检测器示例中,有标签样本是指用户明确标记为“垃圾邮件”或“不是垃圾邮件”的个别电子邮件。

例如,下表显示了从包含加利福尼亚州房价信息的数据集中获取的 5 个有标签样本:

homeMedianAge
(功能)
会议室总数
(设施)
卧室总数
(设施)
medianHouseValue
(标签)
155612128366900
197650190180100
1772017485700
14150133773400
20145432665500

无标签样本包含特征,但不包含标签。具体来说:

  unlabeled examples: {features, ?}: (x, ?)

以下是来自同一住房数据集的 3 个无标签样本(不包括 medianHouseValue):

homeMedianAge
(功能)
会议室总数
(设施)
卧室总数
(设施)
421686361
341226180
331077271

使用有标签样本训练模型后,我们便会使用该模型来预测无标签样本的标签。在垃圾邮件检测器中,无标签样本是用户尚未添加标签的新电子邮件。

模型

模型定义了特征和标签之间的关系。例如,垃圾内容检测模型可能会将某些功能与“垃圾内容”紧密关联。我们重点介绍模型生命周期的两个阶段:

  • 训练是指创建或学习模型。也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。

  • 推断表示将经过训练的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测 (y')。例如,在推理期间,您可以针对新的无标签样本预测 medianHouseValue

回归与分类

回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:

  • 加利福尼亚州一栋房子的价值是多少?

  • 用户点击此广告的可能性有多大?

分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:

  • 指定的电子邮件是垃圾邮件还是非垃圾邮件?

  • 这是狗、猫还是仓鼠的图片?

关键术语

  • 分类模型
  • 示例
  • 功能
  • 推断
  • 标签
  • 模型
  • 回归模型
  • 训练

 

深入了解机器学习:线性回归 

预计用时:6 分钟

长久以来,人们都知道板球(昆虫物种)在天气炎热的日子里会比在更冷的日子里鸣叫。数十年来,专业和业余科学家一直在编制每分钟的鸣叫声和温度方面的数据。Ruth 大姨妈给您送上生日祝福,送上一份生日礼物,邀请您学习一个模型来预测这种关系。 您想利用这些数据来探索这种关系。

首先,通过绘制数据的方式检查数据:

 

图 1. 每分钟的鸣叫声与温度(以摄氏度为单位)。

如您所料,该图表显示了温度随着鸣叫声次数的增加而上升。 鸣叫声与温度之间的关系是线性关系吗?可以,您可以绘制一条直线来大致说明这种关系:

图 2. 一种线性关系。

关键术语

  • 偏差
  • 推断
  • 线性回归
  • 重量

深入了解机器学习:训练和损失 

 

预计用时:6 分钟

训练模型只需从有标签样本中学习(确定)所有权重和偏差的理想值。在监督式学习中,机器学习算法通过检查许多示例并尝试找到将损失降至最低的模型来构建模型;此过程称为经验风险最小化。

损失是错误预测的惩罚。也就是说,损失是一个表示模型在单个样本上的预测质量的数字。如果模型的预测完全准确,则损失为零,否则损失会更大。训练模型的目的是从所有样本中找到一组平均损失“较小”的权重和偏差。例如,图 3 左侧显示的是高损失模型,右侧显示的是低损失模型。对于该图,请注意以下几点:

  • 箭头表示损失。
  • 蓝线表示预测。

 

图 3. 左侧模型中的损失较高;右侧模型中的损失较低。

请注意,左侧曲线图中的箭头比右侧曲线图中的箭头长得多。显然,相较于左侧曲线图中的线条,右侧曲线图中的预测模型要好得多。

您可能想知道是否可以创建数学函数(损失函数),以有意义的方式汇总各个损失。

我们在此探讨的线性回归模型使用一种称为平方损失函数(也称为 L2 损失)的损失函数。单个样本的平方损失如下:

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

关键术语

  • 经验风险最小化
  • 损失
  • 均方误差
  • 平方损失函数
  • 训练

 

https://developers.google.com/machine-learning/crash-course/ml-intro?hl=zh-cn 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/385704.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

蚁群算法再优化:combine aco algorithm with Sarsa in RL

蚁群算法再优化:combine aco algorithm with Sarsa in RL蚁群算法、Sarsa介绍和TSP问题介绍TSP和Sarsaaco algorithm具体的改进和代码改进说明部分代码数值实验结论分析参考文献蚁群算法、Sarsa介绍和TSP问题介绍 在进行蚁群算法优化介绍之前,笔者先将涉…

Apache Pulsar 云原生消息中间件之王

一、简介 pulsar,消息中间件,是一个用于服务器到服务器的消息系统,具有多租户、高性能等优势。 pulsar采用发布-订阅的设计模式,producer发布消息到topic,consumer订阅这些topic处理流入的消息,并当处理完…

OIDC OAuth2.0 认证协议最佳实践系列 02 - 授权码模式(Authorization Code)接入 Authing

在上一篇文章OIDC & OAuth2.0 认证协议最佳实践系列 02 - 授权码模式(Authorization Code)接入 Authing中,我们整体介绍 OIDC / OAuth2.0 协议,本次我们将重点围绕授权码模式(Authorization Code)以及接…

RabbitMQ第一讲

目录 一、RabbitMQ-01 1.1 MQ概述 1.2 MQ的优势和劣势 1.2.1 优势 1.2.2 劣势 1.2.3 MQ应用场景 1.2.4 常用的MQ产品 1.3 RabbitMQ的基本介绍 1.3.1 AMQP介绍 1.3.2 RabbitMQ基础架构 1.3.3 RabbitMQ的6种工作模式 ​编辑 1.4 AMQP和JMS 1.4.1 AMQP 1.4.2 JMS …

00后跨专业学软件测试,斩获8.5K高薪逆袭职场

我想说的第一句:既然有梦想,就应该去拼搏还记得,我大学毕业前,就已经暗下决心到xxx培训机构接受培训。那个时候,没有任何海同公司的人主动找我或者联系过我,我是自己在网上发现了xxxx培训机构的&#xff01…

PLC实验—西门子S7 1200 PID控制步进电机转速

PLC实验—西门子S7 1200 PID控制步进电机转速 严格讲并不是PID控制,因为并不是并不研究这个方向,研二又比较忙,时间限制只加了比例系数 这里只是抛砖引玉,希望大家可以进一步完善补充 思路 大体思路如下,根据超声波…

三八节买什么数码好物?三八女神节实用不吃灰的数码好物推荐

三八节快到了,在这个小节日里,有哪些实用性强的数码好物值得入手呢?针对这个问题,我来给大家推荐几款实用性超强的数码好物,一起来看看吧。 一、蓝牙耳机 推荐产品:南卡小音舱 参考价:239 南…

Python中Opencv和PIL.Image读取图片的差异对比

近日,在进行深度学习进行推理的时候,发现不管怎么样都得不出正确的结果,再仔细和正确的代码进行对比了后发现原来是Python中不同的库读取的图片数组是有差异的。 image np.array(Image.open(image_file).convert(RGB)) image cv2.imread(…

【持续学习引导:pansharpening】

A continual learning-guided training framework for pansharpening (一种持续学习引导的全色锐化训练框架) 基于监督学习的全色锐化方法自出现以来一直受到批评,因为它们依赖于尺度移位假设,即这些方法在降低分辨率时的性能通…

IntelliJ IDEA如何整合Maven图文教程详解

Maven 1.Maven简述 Maven是一个构建工具,服务与构建.使用Maven配置好项目后,输入简单的命令,如:mvn clean install,Maven会帮我们处理那些繁琐的任务. Maven是跨平台的. Maven最大化的消除了构建的重复. Maven可以帮助我们标准化构建过程.所有的项目都是简单一致的,简化了学习…

ChatGPT能完全取代软件开发吗,看看它怎么回答?

最近网上一直疯传,ChatGPT 最可能取代的 10 种工作。具体包括①、技术类工作:程序员、软件工程师、数据分析师②、媒体类工作:广告、内容创作、技术写作、新闻③、法律类工作:法律或律师助理④、市场研究分析师⑤、教师⑥、金融类…

如何提高推广邮件的发送成功率?

随着经济的发展,国际之间的贸易往来越加频繁,很多外贸企业需要发送大量的商业推广邮件,来获得销售订单开拓公司业务市场。 随之而来的问题也是越来越多,给众多的外贸企业带来诸多的困扰。外贸企业在发送推广邮件中究竟会遇到什么问…

2.4G收发一体芯片NRF24L01P跟国产软硬件兼容 SI24R1对比

超低功耗高性能 2.4GHz GFSK 无线收发器芯片Si24R1,软硬件兼容NRF24L01P. Si24R1 是一颗工作在 2.4GHz ISM 频段,专为低功耗无线场合设计,集成嵌入式ARQ 基带协议引擎的无线收发器芯片。工作频率范围为 2400MHz-2525MHz,共有 126个…

Nginx网络服务

目录 1.Nginx基础 1.Nginx和Apache的差异 2.Nginx和Apache的优缺点比较 3.编译安装nginx服务 2.认识Nginx服务的主配置文件 nginx.conf 1.全局配置 2.I/O事件配置 3.HTTP设置 4.访问状态统计配置 5.基于授权密码的访问控制 6.基于客户端的访问控制 7.基于域名的ng…

SpringCloud简单介绍

文章目录1. 开源组件2. CAP原则1. 开源组件 功能springcloud netflixspringcloud alibabaspringcloud官方其他服务注册与发现eurekanacosconsulzookeeper负载均衡ribbondubbo服务调用openFeigndubbo服务容错hystrixsentinel服务网关zuulgateway服务配置的同一管理cofig-server…

图论初入门

目录 一、前言 二、图的概念 三、例题及相关概念 1、全球变暖(2018年省赛,lanqiao0J题号178) 2、欧拉路径 3、小例题 4、例题(洛谷P7771) 一、前言 本文主要讲了树与图的基本概念,图的存储、DFS遍历…

pytorch训练第一个项目VOC2007分割

一、环境 condapytorch1.2.0cuda10.0pycharm 二、训练内容 数据集:VOC2007 网络:U-net 功能:分割图像分类 三、步骤 安装软件、框架、包、cuda(不安用cpu跑也可以),下载数据集、代码、权重文件等。。…

测试外包干了5年,感觉自己已经废了····

前两天有读者想我资讯: 我是一名软件测试工程师,工作已经四年多快五年了。现在正在找工作,由于一直做的都是外包的项目。技术方面都不是很深入,现在找工作都是会问一些,测试框架,自动化测试,感…

Java Map和Set

目录1. 二叉排序树(二叉搜索树)1.1 二叉搜索树的查找1.2 二叉搜索树的插入1.3 二叉搜索树的删除(7种情况)1.4 二叉搜索树和TreeMap、TreeSet的关系2. Map和Set的区别与联系2.1 从接口框架的角度分析2.2 从存储的模型角度分析【2种模型】3. 关于Map3.1 Ma…

QML键盘事件

在QML中,当有一个按键按下或释放时,会产生一个键盘事件,将其传递给获得有焦点的QML项目(讲focus属性设置为true,则获得焦点)。 按键处理的基本流程: Qt接收密钥操作并生成密钥事件。如果 QQuic…