西瓜书读书笔记—绪论

news2024/11/15 13:47:50

文章目录

  • 机器学习
    • 典型的机器学习过程
  • 基本术语
  • 归纳偏好

机器学习

机器学习:致力于研究如果通过计算的手段,利用经验来改善系统自身的性能

在计算机系统中,“经验” 通常以 “数据” 形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生 ”模型“ (model) 的算法,即 ”学习算法“ (learning algorithm).

有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断.

典型的机器学习过程

在这里插入图片描述

基本术语

要进行机器学习,先要有数据. 假定我们收集了一些关于西瓜的数据,如下表所示:

色泽根蒂敲声好瓜
青绿蜷缩浊响
乌黑蜷缩浊响
青绿硬挺清脆
乌黑稍缩沉闷
  • 示例 (instance):表中每一行是一条记录,每条记录是关于一个事物或对象的描述,称为一个 ”示例“

  • 属性 (attribute):反应事物或对象在某方面的表现或性质的事项,例如表中 ”色泽“、”根蒂“ 称为属性或 特征 (feature); 属性上的取值,例如 ”青绿“、”乌黑“ ,称为属性值 (attribute value)

  • 属性空间 (attribute space):属性张成的空间称为 ”属性空间“ 、”样本空间“ 或”输入空间“. 例如我们把 “色泽”、“根蒂”、“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置

    • 在这里插入图片描述
  • 学习(learning)、训练(training):从数据中学得模型的过程称为学习或训练,这个过程通过执行某个学习算法来完成。

  • 假设(hypothesis):学得模型对应了关于数据的某种潜在的规律,亦称假设;这种潜在规律自身,则称为 “真相” 或 “真实”,学习过程就是为了找出或逼近真相

  • 标记(label):训练样本中关于结果的信息,例如 “好瓜”

  • 分类(classification):若我们预测的是离散值,例如“好瓜”、“坏瓜”,此类学习任务称为分类

  • 回归(regression):若预测的是连续值,例如西瓜的成熟度0.95、0.56,此类学习任务称为回归

  • 聚类(clustering):将训练集中的数据分为若干组,每组称为一个簇(cluster),这些簇可能对应一些潜在的概念划分;在聚类学习过程中使用的训练样本通常不具有标记信息

  • 监督学习(supervised learning)|无监督学习(unsupervised learning):根据训练数据是否拥有标记信息,学习任务可大致分为监督学习无监督学习.分类和回归是前者的代表,聚类是后者的代表.

  • 泛化(generalization):学得模型适用于新样本的能力,称为泛化能力.

  • 版本空间(version space):现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的 “假设集合”,称之为版本空间

归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为 “归纳偏好”或简称 “偏好”

任何一个有效的学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上 “等效” 的假设所迷惑,而无法产生确定的学习结果.

引导算法确立 “正确的” 偏好的一般性原则:奥卡姆剃刀

奥卡姆剃刀

  • 若非必要,勿增实体
  • 若有多个假设与观察一致,则选最简单的那个

例如,方程式 y = − x 2 + 6 x + 1 y=-x^2+6x+1 y=x2+6x+1 与方程式 y = − x 3 + 1 y=-x^3+1 y=x3+1 相比,若我们认为次数越小越简单,则前者更简单;若认为方程式的项数越少越简单,则后者更简单.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/340258.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《计算机组成与设计》05. 大而快:层次化存储

文章目录局部性原理存储层次结构存储层次结构示意图传输数据示意图Cache 基础映射方式直接映射全相连映射组相连映射Cache 访问直接映射例题 —— Cache 容量计算组相联映射处理写操作3C 模型Cache 失效问题 —— 通过更改 Cache 块容量,以此通过空间局部性来降低失…

【Linux常用指令合集】

基本的增删改查 ls:显示文件或目录-l:列出文件详细信息l(list)-a:列出当前目录下所有文件及目录,包括隐藏的a(all) mkdir 目录名:创建目录-p:级联创建 cd 目录:切换目录 pwd:显示当…

SpringMVC--视图、RESTful案例、处理AJAX请求

SpringMVC的视图 SpringMVC中的视图是View接口,视图的作用渲染数据,将模型Model中的数据展示给用户 SpringMVC视图的种类很多,默认有转发视图和重定向视图 当工程引入jstl的依赖,转发视图会自动转换为JstlView 若使用的视图技术为…

GitHub个人资料自述与管理主题设置

目录 关于您的个人资料自述文件 先决条件 添加个人资料自述文件 删除个人资料自述文件 管理主题设置 补充:建立一个空白文件夹 关于您的个人资料自述文件 可以通过创建个人资料 README,在 GitHub.com 上与社区分享有关你自己的信息。 GitHub 在个…

【触摸屏功能测试】MQTT_STD本地调试说明-测试记录

1、MQTT简介 MQTT是一种基于发布/订阅模式的“轻量级”通讯协议。它是针对受限的、低带宽的、高延迟的、网络不可靠的环境下的网络通讯设备设计的。 发布是指客户端将消息传递给服务器,订阅是指客户端接收服务器推送的消息。每个消息有一个主题,包含若干…

七大设计原则之迪米特法则应用

目录1 迪米特法则介绍2 迪米特法则应用1 迪米特法则介绍 迪米特原则(Law of Demeter LoD)是指一个对象应该对其他对象保持最少的了解,又叫最少知 道原则(Least Knowledge Principle,LKP),尽量降低类与类之…

30分钟吃掉wandb可视化自动调参

wandb.sweep: 低代码,可视化,分布式 自动调参工具。使用wandb 的 sweep 进行超参调优,具有以下优点。(1)低代码:只需配置一个sweep.yaml配置文件,或者定义一个配置dict,几乎不用编写调参相关代码。(2)可视化…

Django框架之视图和URL

视图和URL 站点管理页面做好了, 接下来就要做公共访问的页面了.对于Django的设计框架MVT. 用户在URL中请求的是视图.视图接收请求后进行处理.并将处理的结果返回给请求者.使用视图时需要进行两步操作 1.定义视图2.配置URLconf 1. 定义视图 视图就是一个Python函数&#xff0c…

没有她的通讯录(C语言实现)

🚀write in front🚀 📝个人主页:认真写博客的夏目浅石. 🎁欢迎各位→点赞👍 收藏⭐️ 留言📝 📣系列专栏:夏目的C语言宝藏 💬总结:希望你看完之…

优劣解距离法TOPSIS——清风老师

TOPSIS法是一种常用的综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距。 基本过程为先将原始数据矩阵统一指标类型(一般正向化处理)得到正向化的矩阵,再对正向化的矩阵进行标准化处理…

​ICLR 2023 | GReTo:以同异配关系重新审视动态时空图聚合

©PaperWeekly 原创 作者 | 周正阳单位 | 中国科学技术大学论文简介动态时空图数据结构在多种不同的学科中均普遍存在,如交通流、空气质量观测、社交网络等,这些观测往往会随着时间而变化,进而引发节点间关联的动态时变特性。本文的主要…

springboot学习(八十) springboot中使用Log4j2记录分布式链路日志

在分布式环境中一般统一收集日志,但是在并发大时不好定位问题,大量的日志导致无法找出日志的链路关系。 可以为每一个请求分配一个traceId,记录日志时,记录此traceId,从网关开始,依次将traceId记录到请求头…

【C#】[带格式的字符串] 复合格式设置字符串与使用 $ 的字符串内插 | 如何格式化输出字符串

复合格式输出 string name "Fred"; String.Format("Name {0}, hours {1:hh}", name, DateTime.Now);通过指定相同的参数说明符,多个格式项可以引用对象列表中的同一个元素。 例如,通过指定“0x{0:X} {0:E} {0:N}”等复合格式字符…

凸优化学习:PART3凸优化问题(持续更新)

凸优化问题 凸优化问题的广义定义: 目标函数为凸函数约束集合为凸集 一、优化问题 基本用语 一般优化问题的描述: minimize⁡f0(x)subject to fi(x)⩽0,i1,⋯,mhi(x)0,i1,⋯,p(1)\begin{array}{ll} \operatorname{minimize} & f_0(x) \\ \text { s…

Centos7 安装Hadoop3 单机版本(伪分布式版本)

环境版本CentOS-7JDK-8Hadoop-3CentOS-7 服务器设置设置静态IP查看IP配置在/etc/sysconfig/network-scripts/目录下的ifcfg-ens33文件中。[rootHadoop3-master sbin]# cd /etc/sysconfig/network-scripts [rootHadoop3-master network-scripts]# ll 总用量 232 -rw-r--r--. 1 r…

云计算培训靠谱吗?

怎么算靠谱的培训呢? 举个例子: 我想参加云计算培训找个工作,机构满足了我的要求,有工作了,但是不是做云计算相关的。 小强也参加了云计算培训,想学好云计算成为技术大牛,最后专业学得普普通…

java环境配置

java环境配置步骤下载jdk安装jdk配置环境变量通过控制台命令验证配置是否成功大功告成安装教程: https://blog.csdn.net/m0_37220730/article/details/103585266 下载jdk 若不理解JDK/JRE/JVM的关系,可以点此查看初识Java(概念、版本迭代、…

DIN解读

传统的Embedding&MLP架构将用户特征编码进一个固定长度的向量。当推出一个商品时,该架构无法捕捉用户丰富的历史行为中的多样性兴趣与该商品的关联。阿里妈妈团队提出了DIN网络进行改进,主要有如下两点创新: 引入注意力机制来捕捉历史行为…

【Linux下代码调试工具】gdb 的基本使用

gdb的基本使用前言准备gdb工具调试须知gdb的基本指令进入调试退出调试显示代码及函数内容运行程序给程序打断点查看断点位置断点使能取消断点逐过程调试逐语句调试运行到下一个断点查看变量的值变量值常显示取消变量值常显示前言 在主页前面的几篇文章已经介绍了Vim编辑器及Ma…

C语言(内联函数(C99)和_Noreturn)

1.内联函数 通常,函数调用都有一定的开销,因为函数的调用过程包含建立调用,传递参数,跳转到函数代码并返回。而使用宏是代码内联,可以避开这样的开销。 内联函数:使用内联diamagnetic代替函数调用。把函数…