机器学习: 绪论(基础概念)

news2024/12/29 16:00:39

文章目录

  • 一、机器学习做什么
  • 二、机器学习的基本术语
    • 2.1、数据相关
      • 2.1.1、数据集
      • 2.1.2、特征(Feature)
      • 2.1.3、样本空间(Sample Space)
    • 2.2、任务相关
      • 2.2.1、分类
      • 2.2.2、回归
      • 2.2.3、聚类
      • 2.2.4、监督学习和无监督学习
  • 三、机器学习思想
    • 3.1、泛化能力!
    • 3.2、假设空间和版本空间!
    • 3.3、归纳偏好!
      • 3.3.1、解释
  • 四、外话
    • 4.1、泛化
      • 4.1.2、泛化的关键
      • 4.1.3、提高泛化能力

若考虑所有潜在的问题,则所有学习算法都一样好.要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用.

一、机器学习做什么

  机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。机器学习所研究的主要内容是关于在计算机上从数据中产生“模型 " (model)的算法,即 “学习算法”(learning algorithm)。可以说机器学习是研究关于 “学习算法”的学问。

  • 通俗来讲,例如经过我们的百般阅历,我们可以从一个人的行为可以判断一个人的好坏,是否是学霸,是否是神经病,这是我们通过不断的学习,认识获得的能力。
  • 同样的,计算机通过数据 学习 产生 这种能够判断事物类别的模型,就属于一种机器学习。
  • 机器学习是研究关于 “学习算法” 的学问。这里的学习并不是动词,而是一个形容词。可以理解为,机器学习这一领域是一种研究 用什么样的算法 能更好的学习到已有数据中的规律,从而产生模型 的学问,而这些算法都是学习算法,也叫作机器学习算法。具有学习性质的算法。

用“模型”泛指从数据中学得的结果。

二、机器学习的基本术语

2.1、数据相关

  • 数据集
  • 示例/样本/特征向量(同一概念)
  • 属性/特征/属性空间/样本空间/输入空间
  • 标记/标签/标记空间/输出空间
    • 通俗来讲,数据集就是你所拥有的全部数据,即全部样本(特征向量);
    • 样本(特征向量)是这些数据中的某一项及其属性,比如这里的瓜1;
    • 属性(特征)是这些样本中的某一特征,比如这里的色泽属于瓜的某一个特征,每个特征上有一个值,称为属性值(特征值);
    • 而样本空间是所有属性可能取值构成的集合,张成的空间,这个空间上包含了瓜的所有可能性。就和随机数学里面的随机试验的样本空间差不多。
    • 在一些“预测”模型中,需要一些标记,即这些瓜的类别,好瓜还是坏瓜,好人还是坏人,神经病还是正常人。所有标记的集合是标记空间。
      在这里插入图片描述

2.1.1、数据集

  想象一下,我们站在一个充满各种西瓜的市场中:有的西瓜青绿色,有的乌黑;有的根蒂蜷缩,有的稍显蜷曲;敲击时,有的响声浑厚,有的则显得沉闷。如果我们将每一个西瓜的这些特征,连同我们对它是否为好瓜的评价或者价格,记录下来,那么这些记录的集合就构成了我们的数据集。在这个数据集中,每一条记录描述了一个西瓜的独特特征,称为一个样本。样本中关于是否是好瓜的判断,则是我们所说的标签,而所有可能的标签(如好瓜与不好瓜)构成了标签空间
  当我们把这些样本用来训练机器学习模型时,这些数据就被称为训练数据,而单个样本则成为一个训练样本。所有这些训练样本共同组成了我们的训练集

2.1.2、特征(Feature)

  在描述西瓜时,我们提到了“色泽”、“根蒂”和“敲声”。这些用来反映西瓜在某方面表现或性质的事项,就是所谓的特征。特征是我们用来描绘和区分每一个西瓜的工具,而特征的数量,即我们用来描述西瓜的属性数量,被称为样本(或特征向量)的维数

2.1.3、样本空间(Sample Space)

  如果我们将每个特征视为一维空间,那么所有的特征共同构成的空间,就是我们的样本空间。比方说,以“色泽”、“根蒂”和“敲声”为三个坐标轴,我们可以将它们想象成构建了一个三维空间,用以描述西瓜的世界。在这个空间中,每个西瓜都可以找到一个唯一的坐标位置,这个位置由其特征值组成的向量确定,我们称之为特征向量
  特征向量实际上就是将特征概念包含进去的样本,即样本实际上就是特征向量。

2.2、任务相关

2.2.1、分类

预测的是离散值的学习任务。

如果只涉及到两个类别,则称为二分类任务。两类一个称为正类,另一个称为负类(反类)。
如果涉及到多个类别,则称为多分类任务。

2.2.2、回归

预测的是连续值的学习任务。分类和回归的区别仅在此。
在这里插入图片描述

2.2.3、聚类

在这里插入图片描述

2.2.4、监督学习和无监督学习

根据是否有标记,机器学习大致划分为两大类:监督学习和无监督学习

  • 分类和回归监督学习的代表,因为它们都是提前有标记的。
  • 聚类无监督学习的代表,因为它通常是没有标记的,并且我们是通过不同特征向量之间特征的潜在规律进行划分成簇的,划分之后的类别,并不为我们事先知晓,而是机器自动学习出来的规律类别。
    在这里插入图片描述

三、机器学习思想

3.1、泛化能力!

  机器学习的目标是使学得的模型能很好地适用于新样本而不是仅仅在训练样本上工作得很好。 机器学习需要有从已有样本中归纳学习的能力,以此来适用于没有见过的样本。学习的目的是泛化。
  学得模型适用于新样本的能力,称为泛化能力。
在这里插入图片描述
  泛化(Generalization)是指模型对未见过的新数据的处理能力,即模型学习到的规律在新数据上的适用性。一个好的机器学习模型不仅能够在训练数据上表现良好,更重要的是能够在新的、未见过的数据上也能保持这种良好表现。泛化能力强的模型能够从训练数据中学习到普遍适用的规律,而不是仅仅记住训练数据的特点和噪声,后者的现象被称为过拟合(Overfitting)。

3.2、假设空间和版本空间!

  为了理解3.3,我们需要先理解假设,假设空间,版本空间的概念。

  • 假设(Hypothesis):在机器学习中,假设是根据训练集归纳出的一种规律或模式。这种规律是模型用来对新数据做出预测的依据。简单来说,假设就是模型认为最可能描述数据真实关系的规则。而这个特定问题真正潜在的规律称为真实,机器学习 从训练集中学习到的规律称为假设。
  • 假设空间(Hypothesis Space):假设空间包含了所有可能的假设。*这些假设是根据模型的结构和我们选择的特征而定义的,它包括了所有模型可能采用的规则或模式来解释数据。假设空间的大小和复杂度取决于模型的复杂性和特征的数量。这里的假设空间是抛开训练集不管的,所有可能数据集中存在的规律。
  • 版本空间(Version Space):是在假设空间中能够使得与训练集一致的规律集合,这里的规律抽象为一个假设。同一个训练集,可能不同机器学习算法可以学习出不同假设,也是因为同一个训练集存在一个版本空间。
    在这里插入图片描述

3.3、归纳偏好!

  既然同一个训练集可能有多种规律和它匹配,那我们该怎么做呢?
  对于一个具体的学习算法而言,它必须要产生一个模型.这时,学习算法本身的“偏好”就会起到关键的作用。 机器学习算法在学习过程中对某种类型假设的偏好,称为 “归纳偏好”(inductive bias),或简称为“偏好”。(之前说过归纳 即学习规律)。并且我们的学习算法必须有某种偏好,才能产出它认为“正确”的模型.
在这里插入图片描述

3.3.1、解释

  归纳偏好(Inductive Bias)是机器学习算法在面对同一个训练集时倾向于选择某种特定假设的倾向性或偏好。由于训练数据通常无法完全确定目标函数,所以机器学习算法必须利用归纳偏好来做出选择,决定它认为最可能的假设是什么。这种偏好影响着模型的泛化能力,即模型对未见过数据的预测能力。

  • 为什么存在归纳偏好? 因为在实践中,对于给定的训练数据集,可能有多个或者无数个假设与训练数据一致,但这些假设对于未见过的数据的预测可能完全不同。归纳偏好帮助算法在这些可能的假设中做出选择。

  • 归纳偏好的例子:假设我们有两种算法,一种是梯度提升树(Gradient Boosting),另一种是随机森林(Random Forest)。尽管两者都是决策树的集成方法,但它们的归纳偏好不同。梯度提升树通过逐步减少模型误差的方式构建树,倾向于更加关注错误分类的样本;而随机森林通过构建多个独立的树并对它们的结果进行平均或多数投票来工作,倾向于提高整体的稳定性和减少过拟合。这两种方法因其不同的偏好,在不同的数据集和问题上表现出不同的效果。

  • 归纳偏好的重要性:选择哪种机器学习算法,并不仅仅是技术上的选择,实际上也是基于对问题本身先验知识的一种假设。因为不同的算法由于其内在的归纳偏好,可能在某些类型的数据上表现更好,在其他数据上则不然。因此,理解并选择与你面对的问题相匹配的算法的归纳偏好,是提高模型性能的关键。

四、外话

4.1、泛化

  在机器学习领域,泛化(Generalization) 是指模型对未见过的新数据的处理能力,即模型学习到的规律在新数据上的适用性。一个好的机器学习模型不仅能够在训练数据上表现良好,更重要的是能够在新的、未见过的数据上也能保持这种良好表现。泛化能力强的模型能够从训练数据中学习到普遍适用的规律,而不是仅仅记住训练数据的特点和噪声,后者的现象被称为过拟合(Overfitting)

4.1.2、泛化的关键

  • 泛化误差(Generalization Error):通常指模型在新的数据集上的预测误差。理想情况下,我们希望模型的泛化误差尽可能小,这意味着模型对未知数据的预测能力较强。
  • 过拟合(Overfitting)欠拟合(Underfitting):过拟合是指模型在训练数据上表现异常良好,但在新数据上表现不佳的现象;而欠拟合则是指模型在训练数据上就表现不佳,导致在新数据上的表现也不理想。泛化的目标是在这两者之间找到平衡点。

4.1.3、提高泛化能力

为了提高模型的泛化能力,研究人员和工程师可能会采用以下一些策略:

  • 数据增强(Data Augmentation):通过对训练数据进行变换和扩充,增加模型训练过程中的数据多样性。
  • 正则化(Regularization):通过引入额外的信息(如权重的大小或复杂度)来限制模型的复杂度,防止过拟合。
  • 交叉验证(Cross-validation):通过将数据集分为多个小组,然后使用其中一部分进行训练、另一部分进行验证,可以更准确地评估模型的泛化能力。
  • 模型简化:简化模型的复杂度,例如减少网络层数或参数的数量,有时可以防止过拟合,从而提高泛化能力。
  • 集成学习(Ensemble Learning):通过组合多个模型的预测来提高整体模型的泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1561816.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在CentOS 8.5.2111下安装vncserver

# 参考: 如何在 CentOS 8/RHEL 8 上安装配置 VNC 服务器 安装CentOS 8.5.2111 及 vncserver # 标准安装步骤 安装GNOME桌面环境使用屏幕号:1。安装VNC服务器(tigervnc-server tigervnc)设置VNC密码设置VNC服务器配置文件开启vnc服务。开放防…

设计模式25--策略模式

定义 案例一 案例二 优缺点

火鸟门户系统—旅游度假模块

旅游度假 简介 旅游度假功能为用户提供一站式旅游度假服务,车站、酒店民宿、门票、跟团游、货运、签证等多个方面,满足用户多样化的旅游需求。 功能 订单:提供订单预订服务,用户可以根据自身需求选择合适的旅行产品。酒店民宿…

MySQL 表的增删改查

文章目录 一、什么是CRUD?二、新增(Create)1、单行数据 全列插入2、多行数据 指定列插入3、插入特殊类型 三、查询(Retrieve)1、全列查询2、指定列查询3、表达式查询4、指定别名5、去重6、排序7、条件查询基本查询&a…

网络基础——ISIS

名词 ISIS:中间系统到中间系统,优先级是15集成化ISIS:这是在优化后,可以使用在OSI模型上的NET地址:由区域ID、系统ID和SEL组成,一台设备上最多配置3个NET地址,条件是区域号要不一致,…

bugku-web-速度要快

发现phpsessid 从上述提示 提示发送post请求,并且带有参数margin 发送后发现报文头部有一个字段叫flag,但好像每一次flag都不一样 构建Python脚本 request requests.Session()data {margin:find, } for i in range(50):html request.post(urlhttp:/…

【战略前沿】与中国达成生产协议后,飞行汽车即将起飞

【原文】Flying cars edge towards takeoff after Chinese production deal 【作者】Thomas Macaulay 斯洛伐克公司KleinVision签署了一项协议,将大规模生产AirCar。 一辆获得航空认证的飞行汽车向商业化又迈出了一大步。 空中汽车的创造者KleinVision今天宣布出售…

CVE-2022-29405 Apache Archiva任意用户密码重置漏洞分析

Apache Archiva是一套可扩展的Artifact Repository管理系统。它能够与Maven,Continuum和ANT等构建工具完美结合。Archiva提供的功能包括:远程Repository代理,基于角色的安全访问管理,Artifact分发、维护、查询,生成使用…

【C语言】【Leetcode】409. 最长回文串

文章目录 题目思路代码呈现 题目 链接: link 思路 关于这道题,比起一般的回文数题,这题的区别的在给定的字符中任意排序直至形成一个最长的回文数,而且题目中跟我们提到,这里的字符串中只会出现字母,我们只需区分大…

HTTP和HTTPS谁传输数据更安全?

1.HTTP HTTP在传输数据时,通常都是明文传输,也就是传输的数据没有进行加密。在这种情况下,如果传输的是一些敏感数据,比如某银行卡密码,就很容易被别人截获到,这就对我们的个人利益产生了威胁。 HTTP传输数…

vsCode 刷 leetcode 使用 Cookie 登录

1. 安装插件 打开 vsCode,选择扩展,搜索 leetcode,选择第一个,带有中文力扣字样,安装后重启 2. 切换终端 插件安装成功之后,侧边栏选择 leetcode 菜单,切换终端,选择中文版本&…

【数据结构】顺序表的实现——动态分配

🎈个人主页:豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:数据结构 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进…

频繁项挖掘——【数据科学与工程算法基础】

一、频繁项定义 大多数问题大于总数一半算是,当然可以给定一个百分比,大于总数的百分之多少算。 二、Misra Gries 俄罗斯方块算法。 三、简单抽样算法 四、Basic Count Sketch 五、Count Skate 六、CM sketch

3.28号arm

can总线相关理论 1. 概念 控制器局域网(Controller Area Network,CAN),其特点是可拓展性好,可承受大量数据的高速通信,高度稳定可靠,因此常应用于汽车电子领域、工业自动化、医疗设备等高要求…

CSS3 Transform变形理解与应用

Transform:对元素进行变形; Transition:对元素某个属性或多个属性的变化,进行控制(时间等),类似flash的补间动画。但只有两个关键贞。开始,结束。 Animation:对元素某个属…

vulhub中Apache solr XML 实体注入漏洞复现(CVE-2017-12629)

Apache Solr 是一个开源的搜索服务器。Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。原理大致是文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。此次7.1.0之前版本总共爆出两个漏洞:XML…

[ruby on rails] ruby使用vscode做开发

ruby LSP实现 ruby插件推荐用这个来实现,但是现在这个在加载文件索引时候,特别慢,时好时坏,所以现在推荐用Solargraph实现 ruby LSP要求ruby版本3以上,如果在旧版本中使用,需要指定bundleGemfile路径 旧版…

蓝桥杯刷题day13——乘飞机【算法赛】

一、问题描述 等待登机的你看着眼前有老有小长长的队伍十分无聊,你突然想要知道,是否存在两个年龄相仿的乘客。每个乘客的年龄用一个 0 到 36500 的整数表示,两个乘客的年龄相差 365 以内就认为是相仿的。 具体来说,你有一个长度…

Java类和对象练习题

练习一 下面代码的运行结果是() public static void main(String[] args){String s;System.out.println("s"s);} 解析:本题中的代码不能编译通过,因为在Java当中局部变量必须先初始化,后使用。所以此处编译不…

模型优化系列1:分类器CenterLoss使用Pytorch实现MNIST、CIFAR10、CIFAR100分类图示

CentLoss实现 前言 参考文章:史上最全MNIST系列(三)——Centerloss在MNIST上的Pytorch实现(可视化) 源码:Gitee或Github都有上传,保留了最优版,对最优版调整了一些参数看效果 Gitee…