机器学习学习记录1:基本术语和假设空间

news2024/11/15 21:28:12

基本术语

机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经 验来玫善系统自身的性能在计算机系统中,"经验"通常以"数据"形式存 在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生"模 型"的算法,即"学习算法"。 有了学习算法,我 们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。

这组记录的集合称为一个"数据集" ,

其中每条记录是关于一 个事件或对象的描述,称为一个"示例" 或"样 本" ,

反映事件或对象在某方面的表现或性质的事项,称为"属性"或"特征", 属性上的取 值,称为"属性值",

属性张成的空 间称为"属性空间""样本空间" 或"输入 空间",

如果我们把三种属性作为三个坐标轴,则它们张成 一个用于描述XX的三维空间,每个XX都可在这个空间中找到自己的坐标位 置.由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个 "特征向量"

从数据中学得模型的过程称为"学习"或"训练" , 这个过程通过执行某个学习算法来完成,

训练过程中使用的数据称为"训练 数据" ,其中每个样本称为一个训练样本" ,

训练样本组成的集合称为"训练集"

学得模型对应了关于数据 的某种潜在的规律,因此亦称"假设"

这种潜在规律自身,则称 为"真相"或"真实" ,学习过程就是为了找出或逼近真相。

本 书有时将模型称为"学习器" ,可看作学习算法在给定数据和参数空 间上的实例化.

要建立这样的关于"预测" 模型,我们需获得训练样本的"结果"信息,例如" ((色泽=青绿;根蒂=蜷缩; 敲声=浊响),好瓜)"

这里关于示例结果的信息,例如"好瓜",称为"标 记"

拥有了标记信息的示例,则称为"样例"

一般地,用(xi yi) 表示第 i个样例 其中 yi∈Y 是示例 xi 的标记,Y是所有标记的集合, 亦称"标记空间" 或"输出空间"

若我们欲预测的是离散值,例如"好瓜" "坏瓜",此类学习任务称为 "分类" ;

若欲预测的是连续值,例如西瓜成熟度 0.95 0.37 此类学习任务称为"回归".

对只涉及两个类别的"二分 类"任务,通常称其中一个类为 "正类" ,另一个类为"反类";涉及多个类别时,则称为"多分 类"任务。

学得模型后,使用其母行预测的过程称为"测试" (testing) ,被预测的样本 称为"测试样本" "聚类",即将训练集中的西瓜分成若干 组,每组称为一个"簇" (cluster); 这些自动形成的簇可能对应一些潜在的概念 划分,例如"浅色瓜" "深色瓜 ",这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。需说明 的是,在聚类学习中,"浅色瓜" "本地瓜"这样的概念我们事先是不知道的, 而且学习过程中使用的训练样本通常不拥有标记信息。 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类"监督 学习""无监督学习",分类和回归是前者的代表,而聚类则是后者的代表。

学得模型适用于新样本的能力,称为"泛化" 能力.

通常假设样本空间中全 体样本服从一个未知"分布"D, 我们获得的每个样本都是独立 地从这个分布上采样获得的,即"独立同分布"。一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型.

假设空间

我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配" 的假设,即能够将训练集中的瓜判断正确的假设.假设的表示一旦确定,假设空间及其规模大小就确定了.

对于西瓜问题,这里我们的假设空间由形如"(色泽=?)^(根蒂=?) ^ (敲声=?)"的可能取值所形成的假设组成.

例如色泽有"青绿" "乌黑" "浅白"这三种可能取值;

还需考虑到,也许"色泽"无论取什么值都合适,我们用通符"*"来表示,例如"好瓜件(色泽= *) ^ (根蒂口蜷缩)八(敲声=浊响)" ,即"好瓜是根蒂蜷缩、敲声浊响的瓜,什么色泽都行"

此外,还需考虑极端情况:有可能"好瓜"这个概念根本就不成立,世界上没有"好瓜"这种东西;我们用∅表示这个假设.

这样,若"色泽" "根蒂" "敲声"分别有 3,3,2种可能取值,则我们面临的假设空间规模大小为4 x 3 x 3 + 1 = 37

(4,3,3分别代表"色泽" "根蒂" "敲声"的取值,除特征取值外,还可以取“*”,最后的1代表∅,即不存在好瓜)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/400785.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据仓库的设计思想

数据仓库设计 知识点01:设计大纲与学习目标 #内容大纲1、数据仓库基础知识(回顾)什么是数仓为什么有数仓数仓的特点是什么OLTP和OLAP系统区别(数据库和数仓的区别)2、数仓系统的架构与核心流程核心1:ETL核…

mybatis(二)

mybatis练习---2种方式 能够使用映射配置文件实现CRUD操作 能够使用注解实现CRUD操作 配置文件CRUD就是把sql语句写到配置文件中,注解CRUD就是吧sql语句写到注解上。 一、配置文件实现CRUD 如上图所示产品原型,里面包含了品牌数据的 查询 、 按条件查…

使用ControlNet 控制 Stable Diffusion

本文将要介绍整合HuggingFace的diffusers 包和ControlNet调节生成文本到图像,可以更好地控制文本到图像的生成 ControlNet是一种通过添加额外条件来控制扩散模型的神经网络结构。它提供了一种增强稳定扩散的方法,在文本到图像生成过程中使用条件输入&…

【工具使用】STM32CubeMX-基础使用篇

一、概述 无论是新手还是大佬,基于STM32单片机的开发,使用STM32CubeMX都是可以极大提升开发效率的,并且其界面化的开发,也大大降低了新手对STM32单片机的开发门槛。     本文主要面向初次接触STM32CubeMX的同学,大…

垃圾回收:垃圾数据如何自动回收

有些数据被使用之后,可能就不再需要了,我们把这种数据称为垃圾数据。如果这些垃圾数据一直保存在内存中,那么内存会越用越多,所以我们需要对这些垃圾数据进行回收,以释放有限的内存空间 不同语言的垃圾回收策略 通常…

「中华田园敏捷开发」,是老板无能还是程序员无力?

敏捷开发一直都是无数程序员的追求,也被被视为“开发者的福音”,但显然敏捷开发在中国落地的专业度还不够,以至于出现了“中华田园敏捷”的说法,什么叫“中华田园敏捷开发”? 简单点说:中华田园敏捷开发的…

异常(C++)

文章目录1. 概念1.1 C语言处理错误机制1.2 C异常机制throw表达式try...catch语句例子2. 抛出异常2.1 栈展开栈展开的例子2.2 栈展开过程中对象被自动销毁2.3 析构函数与异常内存泄漏2.4 异常对象3. 捕获异常3.1 捕获子类异常3.2 异常的重新抛出4. 异常安全4.2 例子不抛出异常保…

VIT(vision transformer)onnx模型解析

背景:transformer在CV领域的应用论文下载链接:https://arxiv.org/abs/2010.11929Pytorch实现代码: pytorch_classification/vision_transformer(太阳花的小绿豆博主实现的代码)有一些大神在研究关于CNNtransformer或者纯用transformer实现。原…

北邮22信通:你是不是在looking for……那串代码?(2)第三章单链表

相信有了第二章顺序表的基础,小伙伴们学习第三章链表应该会轻松一点吧 目录 类模板下的单链表 1.1书上干净完整代码(无增改、适合自己动手实验) 1.2对书上代码的完善和对一些问题的验证和解释代码 1.补全一个函数: 2.this指…

荧光染料IR 825叠氮IR825 N3,IR-825 azide,IR-825叠氮 科研试剂

产品描述:IR-825 N3含有叠氮基团,IR-825是一种近红外染料(NIR),IR-825在封装成纳米颗粒后,可能用于cancer光热和光动力 。叠氮化物基团可以参与铜催化的与炔部分的点击化学反应。西安凯新生物科技有限公司近…

基于多任务融合的圣女果采摘识别算法研究

基于多任务融合的圣女果采摘识别算法研究 1、简介 本文主要解决圣女果生产销售环节中,现有的流程是采摘成熟的圣女果,再对采摘下的果实进行单独的品质分级,不仅费时费力,而且多增加一个环节,也增加了对果实的二次伤害…

Oracle 19c之RPM安装

19c的RPM包下载链接, https://www.oracle.com/database/technologies/oracle19c-linux-downloads.html 可以看到,19c开始支持企业版本的RPM,容量是2.5GB, 使用手工方式,通过RPM安装19c数据库,只需要两步操…

汽车零部件行业MES解决方案,实现生产全过程监控

行业背景 汽车汽配行业是中国国民经济的支柱产业,涉及的工艺包括压铸、冲压、注塑、机加、焊接、电子、喷涂、电镀、热处理、检测、装配等。 公安部数据显示,平均每百户家庭拥有汽车达到60辆。广阔的市场为行业带来大量需求的同时也带来了激烈的市场竞…

【Linux】网络入门

🎇Linux: 博客主页:一起去看日落吗分享博主的在Linux中学习到的知识和遇到的问题博主的能力有限,出现错误希望大家不吝赐教分享给大家一句我很喜欢的话: 看似不起波澜的日复一日,一定会在某一天让你看见坚持…

栈和队列详细讲解+算法动画

栈和队列 栈stack 栈也是一种线性结构相比数组,栈对应的操作数数组的子集只能从一端添加元素,也只能从一端取出元素这一端称为栈顶 栈是一种后进先出的数据结构Last in Firt out(LIFO)在计算机的世界里,栈拥有者不可思议的作用 栈的应用 …

设计UI - Adobe xd对象介绍

矩形工具 新建矩形 操作步骤:选择矩形工具,快捷键R,鼠标在画板上拖出矩形即可。 拖动定界框周围圆形手柄,可快速调整矩形大小,也可以输入宽和高的参数对矩形大小进行改变。 移动矩形 操作步骤:选择选择工具…

AWS-解析mysql binlog同步数据方案

虽然是公有云的鼻祖,AWS在某些产品的实现却太不给力;可能是习惯了阿里云喂到嘴边的感觉,AWS很多方案需要自己折腾,蛋疼!比如这里要讲的mysql数据同步方案。阿里云产品DTS,点几下就OK了,AWS&…

06_01_Spark SQL

Spark SQL 课程目标 说出Spark Sql的相关概念说出DataFrame与RDD的联系独立实现Spark Sql对JSON数据的处理独立实现Spark Sql进行数据清洗 1、Spark SQL 概述 Spark SQL概念 Spark SQL is Apache Spark’s module for working with structured data. 它是spark中用于处理结…

百家号如何写文章赚钱,百家号写文章真的赚钱?

随着互联网的快速发展,越来越多的人开始关注到写文章赚钱这个领域。而在众多写作平台中,头条号无疑是最受欢迎的一个。那么,百家号写文章赚钱是真的吗?如何写文章赚钱呢?下面我们就来一一解答。 首先,百家号…

Javascript的ES6 class写法和ES5闭包写法性能对比

看到很多闭包写法的函数, 一直怀疑它对性能是否有影响. 还有就是备受推崇的React Hooks函数式写法中出现大量的闭包和临时函数, 我很担心这样会影响性能. 于是, 做了一个实验来做对比. 这个实验很简单, 用md5计算一百万次. 计算过程将结果再放回参数, 这样避免结果没被引用被…