机器学习绪论

news2024/11/24 15:18:04

目录

第1关:什么是机器学习

相关知识

题目答案 

第2关:机器学习的常见术语

相关知识

假设空间

归纳偏好

题目答案

第3关:机器学习的主要任务

相关知识

分类

回归

聚类

题目答案


第1关:什么是机器学习

相关知识

相信大家一定都非常喜欢吃西瓜,有经验的同学都知道如果一个西瓜色泽青绿、根蒂蜷缩、敲声浊响,那么就能判断这是一个正熟的好瓜。那么,为什么通过色泽、根蒂、敲声,这几个特征就能帮我们做出相当好的判断呢?因为我们吃过,看过很多好瓜,累积了这方面很多的经验,而通过对经验的利用,就能对新的情况做出有效的决策

上面对经验的利用是靠我们人类自身来完成的,计算机能帮忙吗?

机器学习正是这么一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”的形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生的“模型”的算法,即“学习算法”。有了学习算法,我们就把经验数据提供给它,它就能基于这些数据产生模型,在面对新的情况时,模型会给我们提供相应的判断。

题目答案 

第2关:机器学习的常见术语

相关知识

我们已经知道了,机器学习是利用数据,从数据中归纳出规律,并用来对新事物进行预测。所以,机器学习首先要有数据,假设我们收集了一份关于西瓜的数据:

  • 我们把数据中的每一行称为一个示例或样本

  • 反映事件或对象在某方面的表现或性质的事项,如:色泽、根蒂、敲声,称为属性或特征

  • 属性上的取值,例如:青绿、乌黑。称为属性值或特征值

  • 我们把一个示例(样本)称为一个特征向量

一般地,令 D={x1​,x2​,..,xm​} 表示包含 m 个示例的数据集,每个示例由 d 个属性描述(例如上面的西瓜数据使用了三个属性),则每个示例:

xi​=(xi1​;xi2​;...;xid​),是 d 维样本空间X中的一个向量。

xi​∈X,其中xi​j是xi​在第 j 个属性上的取值。

d 称为样本xi​的维数

从数据中学得模型的过程称为“学习”或“训练,这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”,其中每个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”,学习过程就是为了找出或逼近真相。

假设空间

假设空间在已知属性和属性可能取值的情况下,对所有可能满足目标的情况的一种毫无遗漏的假设集合

接下来举个例子来说明什么是假设空间。在选择配偶时我们可能有以下几个指标:

  • 体型 : 肥胖,匀称,过瘦;

  • 财富 : 富有,一般,贫穷;

  • 性子 : 急,不急不慢,慢。

现在我们要构建一个合适的假设空间来构建一个择偶观:

  • 对于体型来说有肥胖均匀过瘦 3 种,也有可能价值观里认为这个无关紧要,所以有4种可能。
  • 对于财富来说有富有一般以及贫穷 3 种可能,也有可能价值观里认为这个无关紧要,所以有4种可能。
  • 对于性子来说有不急不慢以及 3 种可能,也有可能价值观里认为这个无关紧要,所以有4种可能。
  • 最后再加上一个极端的情况,也就是体型财富以及性子这 3 个评判准则选出来的都不是想要的配偶。

所以假设空间的规模大小为4*4*4+1=65。 

归纳偏好

归纳偏好是机器学习算法在学习过程中对某种类型假设的偏好。说白了就是“什么样的模型更好”这一问题。

以韦小宝的 7 个老婆为例,这 7 个老婆均满足小宝的要求,因此构成了大小为 7 的假设空间。(实际上,假设空间的大小一定是无穷大的。为了说明问题,我们暂时以 7 为大小)。那么,如何衡量哪一个假设空间中哪一个假设函数(老婆)最好呢?如果以温柔体贴为偏好来选,当然是小双;如果以小宝的迷恋为偏好来讲,假设函数就是阿珂。说白了,归纳偏好就是一个用于挑选假设函数的基准。

因此归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”

而在具体的现实问题中,学习算法本身所做的假设是否成立,也即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

题目答案

第3关:机器学习的主要任务

相关知识

  • 分类是机器学习的一项主要任务,主要是将实例数据划分到合适的分类中
  • 机器学习的另外一项任务是回归,主要是预测数值型的数据,比如通过数据值拟合曲线等。
  • 分类和回归属于监督学习,这类算法必须知道预测什么,即目标变量的分类信息。与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程称为“聚类”

分类

这是一系列关于西瓜的数据,这里的每个实体,或者每一行被称为一个样本或数据点,而每一列(用来描述这些实体的属性)则被称为特征。假如说,我们现在想通过色泽、根蒂、敲声这几个特征来区分一个西瓜是好瓜与不是好瓜,这就是一个分类问题。分类问题的目标是预测类别标签。在这个例子中,“是”与“否”则是预测类别的两个不同的标签。分类问题有时可分为二分类和多分类,西瓜的例子则是一个二分类问题,多分类指的是数据不止两个类别,它有多个类别。

回归

回归任务的目标是预测一个连续值,编程术语叫作浮点数。假如我们现在手里得到的是如下数据:

我们要通过色泽、根蒂、敲声来预测西瓜的价格,这就是一个回归问题。区分分类任务和回归任务有一个简单方法,就是看输出是否具有某种连续性。如果在可能的结果之间具有连续性,那么它就是一个回归问题,比如说价格。

聚类

聚类属于无监督学习,它是指我们的数据只有输入,没有输出,并需要从这些数据中提取知识。聚类算法将数据划分成不同的组,每组包含相似的样本。比如说:

我们现在手里的数据只有色泽、根蒂、敲声这几个特征,我们通过这三个特征,把性状相似的西瓜分到一个组,这就是一个聚类问题。聚类问题与分类问题的本质区别就是有没有标签

题目答案

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1100520.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

给你一个文件夹,统计其下面的文件数量,包括子文件夹下面的文件

对于统计一个文件夹下面的文件的数量,大家第一反应肯定是递归调用来实现,现在有这么一个目录结构:root1和root2下面各有一个文件file1.txt和file2.txt,所以最终统计出来的文件数量应该是3 我们先看看递归实现: public …

Plant Commun | 正交组、系统转录组和CUT-Tag发掘植物保守冷响应因子BBX29及其靶基因

植物以固着的方式生活,但它们并不完全被动,许多温带植物通过预暴露于非冻结低温来增加它们的抗冻性,这种适应性过程被称为冷驯化(CA)。越来越多的证据表明,低温下的许多生理和代谢变化是由于CA诱导的冷反应(COR)基因的表达。C-重复…

Android 远程调用服务之 AIDL

目录 一、AIDL 是什么?二、为什么要使用 AIDL? 1、使用 AIDL 是为了跨进程调用第三方服务? 2、使用 AIDL 是为了向第三方服务传输数据/参数? 3、使用 AIDL 是为了获取第三方服务直接或者异步返回的数据?三…

Linux性能优化--性能工具:磁盘I/O

6.0 概述 本章介绍的性能工具能帮助你评估磁盘I/O子系统的使用情况。这些工具可以展示哪些磁盘或分区已被使用,每个磁盘处理了多少I/O,发给这些磁盘的I/O请求要等多久才被处理。 阅读本章后,你将能够: 确定系统内磁盘I/O的总量和类型(读/写…

浅谈智能照明控制系统应用在城市轨道交通

叶根胜 江苏安科瑞电器制造有限公司 江苏江阴 214405 摘要:在传统的城市轨道交通设计方面,照明设计方案具有一定的弊端。随着计算机技术的发展,智能化技术渐渐步入人们的生活并成为主流,故在城市轨道交通中应用新型的照明控制设…

基于关联规则的多样化推荐技术应用研究

摘要 目录 第二章 相关理论介绍 2.2.1 当前常用推荐技术 关联规则推荐 2.3.1 关联规则相关概念

【java学习—七】Object类(36)

文章目录 1. 概念2. Object类中的主要方法 1. 概念 Object 类是所有 Java 类的根父类如果在类的声明中未使用 extends 关键字指明其父类,则默认父类为Object 类 public class Person {...}等价于:public class Person extends Object {...}例&#xff1…

新加坡服务器托管

新加坡是一个小而繁荣的国家,是东南亚唯一一个发达国家。它地理位置好,毗邻马来西亚和印度尼西亚,新加坡是一个拥有先进科技和强大经济的国家,主要以制造业、金融、旅游和航运为主,拥有先进的经济和现代化的基础设施&a…

计算机操作系统-第九天

1、虚拟机 传统计算机的特点:一台物理机器只能运行一个操作系统 虚拟机的特点: 使用虚拟化技术,将一台物理机器虚拟化为多台虚拟机器(Virtual Machine,简称VM)每个虚拟机都可以独立运行一个操作系统 虚拟…

大数据学习(12)-join优化common join

&&大数据学习&& 🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门 💖如果觉得博主的文章还不错的话,请点赞👍收藏⭐️留言📝支持一下博>主哦&#x…

数据结构知识点总结

一、常见的数据结构 数组,栈,队列,链表,散列表,二叉树,堆,跳表,图,树。 1. 数组: 数组的元素在内存中存储是连续存放的,占有连续的存储单元&am…

AWS S3加密

Hello大家好。 在本课时我们将讨论S3加密相关的内容。 S3加密相关是认证考试的一个重要的主题考点,您需要了解亚马逊S3的几种不同类型的加密方式。| 首先是静态数据的加密,静态数据加密是指数据存储在亚马逊S3 数据中心的磁盘上时&#xff0…

Excel文档名批量翻译不求人

在我们的日常工作中,经常需要处理大量的文件,包括Excel文档。有时候,我们需要对文件名进行修改或者翻译,以便更有效地进行文件管理和数据统计。那么,如何高效地翻译Excel文档名呢?下面是一个实用的方法。 首…

感测型离子风机在线实时监测

感测型离子风机在线实时监测静电是指通过安装静电监测器和数据采集设备,对离子风机所处环境的静电情况进行实时监测和数据采集,以便及时发现并解决静电问题。 感测型离子风机在线实时监测静电可以实现以下功能: 实时监测离子风机所处环境的静…

【FreeRTOS】【STM32】06.1 FreeRTOS的使用1(对06的补充)

前后台系统(裸机) 裸机又称前后台系统,在一个while中不停循环处理各个task。 中断服务函数作为前台程序 大循环while(1)作为后台程序 多任务系统 通过任务调度的方式,执行各个任务,优先级高的先执行,执行完了释放CPU使用权&am…

智慧工地管理系统(Smart site management system)源码

智慧工地管理系统是面向建筑工程施工企业提供的工地智能交互平台,基于云计算、物联网、人工智能等技术的应用,对现场人员、材料、机械、质量、安全等进行高效管控,以实现项目管理人员对现场的实时把控、及时预警、精准决策,从而为…

Golang学习:基础篇练习(二)—— 数组切片小实验

Golang学习:基础篇练习(二)—— 数组切片小实验 本次实验是对数组切片的,目的就是为了加深理解,一起来看看吧。 1、下面这段代码有问题吗?为什么 func main() {greeting : make([]string, 3, 5)// 3 is len…

FPGA基于1G/2.5G Ethernet PCS/PMA or SGMII实现 UDP 网络视频传输,提供工程和QT上位机源码加技术支持

目录 1、前言版本更新说明免责声明 2、我这里已有的以太网方案3、设计思路框架视频源选择OV5640摄像头配置及采集动态彩条UDP协议栈UDP视频数据组包UDP协议栈数据发送UDP协议栈数据缓冲IP地址、端口号的修改Tri Mode Ethernet MAC1G/2.5G Ethernet PCS/PMA or SGMIIQT上位机和源…

08-网络篇-一步步完成网络通信

上面的章节描述了Tcp/ip四层网络模型,并介绍了每一层的常见的协议,本章来讨论一下,一个主机是怎样与外网中的另一个主机通信。 假如网络结构如下 上图是一个典型的网络结构图,若主机1是电脑,主机4是服务器,…

申请者用Chat GPT写申请文书?国外大学纷纷采取措施

近来,人工智能聊天机器人ChatGPT实火。ChatGPT拥有强大的信息整合能力、自然语言处理能力,可谓是“上知天文,下知地理”,而且还能根据要求进行聊天、撰写文章等。 ChatGPT一经推出,便迅速在社交媒体上走红&#xff0c…