3 机器学习之假设空间

news2024/11/27 16:39:38

归纳(induction)与演绎(deduction)是科学推理的两大基本手段。前者是从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。例如,在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎;而“从样例中学习”显然是一个归纳的过程,因此亦称“归纳学习”(inductivelearning)。

归纳学习有狭义与广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为“概念学习”或“概念形成”​。概念学习技术目前研究、应用都比较少,因为要学得泛化性能好且语义明确的概念实在太困难了,现实常用的技术大多是产生“黑箱”模型。然而,对概念学习有所了解,有助于理解机器学习的一些基础思想。

概念学习中最基本的是布尔概念学习,即对“是”​“不是”这样的可表示为0/1布尔值的目标概念的学习。举一个简单的例子,假定我们获得了这样一个训练数据集:

表1.1 西瓜数据集


更一般的情况是考虑形如(A∧B)∨(C∧D)的析合范式。

这里要学习的目标是“好瓜”​。暂且假设“好瓜”可由“色泽”​“根蒂”​“敲声”这三个因素完全确定,换言之,只要某个瓜的这三个属性取值明确了,我们就能判断出它是不是好瓜。于是,我们学得的将是“好瓜是某种色泽、某种根蒂、某种敲声的瓜”这样的概念,用布尔表达式写出来则是“好瓜。​(色泽=?​)∧(根蒂=?​)∧(敲声=?​)​”​,这里“​?​”表示尚未确定的取值,而我们的任务就是通过对表1.1的训练集进行学习,把“​?​”确定下来。

“记住”训练样本,就能力。如果仅仅把训练集中的瓜“记住”​,是所谓的“机械学习”​[Cohen and Feigenbaum,1983]​,或称“死记硬背式学习”​,参见(1.5 发展历程)​。

读者可能马上发现,表1.1第一行:​“​(色泽=青绿)∧(根蒂=蜷缩)∧(敲声=浊响)​”不就是好瓜吗?是的,但这是一个已见过的瓜,别忘了我们学习的目的是“泛化”​,即通过对训练集中瓜的学习以获得对没见过的瓜进行判断的能力。如果仅仅把训练集中的瓜“记住”​,今后再见到一模一样的瓜当然可判断,但是,对没见过的瓜,例如“​(色泽=浅白)∧(根蒂=蜷缩)∧(敲声=浊响)​”怎么办呢?

这里我们假定训练样本不含噪声,并且不考虑“非青绿”这样的操作。由于训练集包含正例,因此假设自然不出现。

我们可以把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。这里我们的假设空间由形如“​(色泽=?​)∧(根蒂=?​)∧(敲声=?​)​”的可能取值所形成的假设组成。例如色泽有“青绿”​“乌黑”​“浅白”这三种可能取值;还需考虑到,也许“色泽”无论取什么值都合适,我们用通配符“”来表示,例如“好瓜。​(色泽=)∧(根蒂=蜷缩)∧(敲声=浊响)​”​,即“好瓜是根蒂蜷缩、敲声浊响的瓜,什么色泽都行”​。此外,还需考虑极端情况:有可能“好瓜”这个概念根本就不成立,世界上没有“好瓜”这种东西;我们用表示这个假设。这样,若“色泽”​“根蒂”​“敲声”分别有3、3、3种可能取值,则我们面临的假设空间规模大小为4×4×4+1=65。图1.1直观地显示出了这个西瓜问题假设空间。
图1.1 西瓜问题的假设空间
在这里插入图片描述

有许多可能的选择,如在路径上自顶向下与自底向上同时进行,在操作上只删除与正例不一致的假设等。

可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊,或是自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果。

需注意的是,现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”​,我们称之为“版本空间”(version space)。例如,在西瓜问题中,与表1.1训练集所对应的版本空间如图1.2所示。
图1.2 西瓜问题的版本空
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2206881.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一款功能强大的颜色选择工具ColorPicker

ColorPicker 是一款轻量级且功能强大的颜色选择工具,专为设计师、开发者以及需要在日常工作中处理颜色的用户设计。该工具允许用户从屏幕上的任意位置快速获取颜色代码,并提供多种格式的颜色值输出,包括RGB、HEX、HSB等。 ColorPicker的界面…

YOLO的相关改进机制

我的面包多平台有多种关于YOLO的改进,大家尽早关注,不迷路

opencv 答题卡检测项目实现

在教育和考试领域,答题卡自动评分系统能够大大提高效率和准确性。本文将介绍如何使用OpenCV库实现一个简单的答题卡检测项目。这个项目包括读取图像、检测答题卡轮廓、透视变换、二值化处理、检测选择题答案,并最终计算得分。 导入库和定义常量 import …

动态规划-路径问题——931.下降路径最小和

1.题目解析 题目来源:931.下降路径最小和——力扣 测试用例 2.算法原理 1.状态表示 我们可以开辟一个dp表,多开辟一行两列用来存储虚拟位置,dp[i][j]表示从第一行到该位置的最小路径和 2.状态转移方程 由于要找到最小路径和,并且由…

中间件镜像升级策略

进入集群 kubectl edit deployments paas-bmm-v1 -n kube-system 修改容器 abcsys.cn:5000/boc3.7/bmm-web-v4:latest-202410091355

【芯片知识】 | 浅谈NRK3502语音芯片IC的工作原理

随着科技的快速发展,语音技术逐渐渗透到我们生活的各个领域,如智能家居、车载导航、手机通讯等。作为语音技术的核心,语音芯片在其中发挥着重要作用。今天,我们将深入探讨NRK3502这款先进的语音芯片IC的工作原理,以及它…

动态规划-路径问题——174.地下城游戏

1.题目解析 题目来源:174.地下城游戏 测试用例 2.算法原理 1.状态表示 通常dp[i,j]可以表示终点也可以表示起点,在本题中如果表示为终点,即勇士到[i,j]位置所需要的最小生命值,但是由于后续位置的未知无法向后继续判断&#xff…

如何判断外包建站公司靠谱与否?2024外包网站设计公司哪家好top3

要知道一家网站建设公司靠不靠谱,看他们合作过哪些公司就能知道个大概。 如果服务对象有各行业的头肩部企业,那这家网站建设公司在专业性上肯定是有保障的。 但是,靠谱并不意味着适合自己。 靠谱的网站建设公司其实在技术上都大差不差&…

我用这四款翻译工具,轻松搞定英文在线翻译

作为一名喜欢搜罗各种办公软件的打工人,今天我要和大家聊聊一个我们工作中不可或缺的技能——英文翻译。首先,我们得承认,翻译工作有时候真的很让人头疼,尤其是当我们面对一堆专业术语和长篇大论时。但自从我发现了这些翻译神器&a…

Linux系统:apt-get update 和apt update区别

apt-get update 和apt update区别 ‌apt-get update和apt update的主要区别在于它们所属的命令集以及在现代Ubuntu系统中的使用推荐。‌ ‌所属命令集‌:apt-get update是apt-get命令的一部分,而apt update是apt命令的一部分。apt是apt-get的替代工具&am…

《Image Processing GNN: Breaking Rigidity in Super-Resolution》CVPR2024

摘要 这篇论文提出了一种名为Image Processing Graph Neural Networks (IPG) 的模型,旨在通过利用图的灵活性来突破超分辨率(Super-Resolution, SR)中的固有刚性问题。在现有的SR模型中,无论是基于卷积神经网络(CNNs&…

新手小白想快速上手Mac的使用必看问题

相信不论是现在还是将来,肯定还是会有Mac小白的存在,对于大多数人来说,从小接触Windows的机会比较多,Windows的使用也是比较多,但是有些朋友在大学的时候想体验一下Mac的感觉,于是果断下单,又或…

[C语言] 函数详解:库函数与自定义函数

文章目录 函数的概念库函数和自定义函数库函数使用库函数示例常用库函数及头文件 自定义函数自定义函数的基本结构示例:实现两个数的求和函数自定义函数的好处 函数的返回值有返回值的函数无返回值的函数 函数的声明与调用声明函数在另一个文件中调用函数示例&#…

51单片机的智能小区安防系统【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能 该系统由AT89C51/STC89C52单片机LCD1602显示模块时钟模块温度传感器烟雾传感器CO传感器红外感应传感器IC卡蓝牙继电器按键、蜂鸣器、LED等模块构成。适用于智能小区安防、智能家居安防等相似项目。 可实现功能: 1、LCD1602实时显示北京时间、温度、烟雾浓度和CO浓…

Kylin系统安装VMwareTools工具

如下图所示,安装好Kylin系统之后,还未安装VMwareTools工具,导致系统画面无法填充虚拟机 正常安装了VMwareTools工具后的系统画面 所以,接下来我们介绍一下如何在Kylin系统下安装VMwareTools工具 首先,点击VMware工具栏…

Android常用布局

目录 布局文件中常见的属性 1. 基本布局属性 1)android:layout_width 2)android:layout_height 3)android:layout_margin 4)android:padding 2. 线性布局 (LinearLayout) 属性 1)android:orientation 2)and…

深度学习神经网络笔记--卷积神经网络

为什么要用卷积 捕捉特征,如文末的图)不受位置影响(左右,前后,上下)可以参考下图:卷积操作 可移动的小窗口与图像数据逐元素相乘后相加小窗口是滤波器,卷积核,&#xff0…

毕业设计之—基于ManTra-Net的图像篡改检测方法研究与应用实现

1.摘要 随着互联网、社交媒体和简易图像操作工具的普及,图像篡改带来的问题日益严重。为了解决这一问题,研究者们利用深度卷积神经网络来检测图像篡改并定位篡改区域。为此我们训练了一个ManTra-Net模型,该模型以TensorFlow为后端&#xff0c…

什么是网络安全等级保护?企业如何建立安全系统?一篇带你快速了解→:

等保测评的定义与目的 等保测评旨在评估信息系统的安全性,并根据评估结果给予相应的安全等级。该等级反映了信息系统在保护国家安全、经济安全、社会公共利益以及个人合法权益方面的能力。通过等保测评,可以确保信息系统符合国家法律法规的要求&#xf…

DSP CMD文件使用

背景描述: 在CCS编译代码时出现如下警告 解决方法: 找到cmd文件(这里是用的系统自动生成的),在Section部分找到对应的核 #ifdef CORE7.text > CORE7_L2_SRAM.stack > CORE7_L2_SRAM.bss > CORE7_L2_SRAM.cio &g…