机器学习——第十二章 计算学习理论

news2024/9/24 1:20:36

目录

12.1 基础知识

12.2 PAC学习 

12.3 有限假设空间

12.3.1 可分情形 

 12.3.2 不可分情形

12.4 VC维 

12.5 Rademacher复杂度 

12.6 稳定性 


12.1 基础知识

         计算学习理论(computational learning theory)研究的是关于通过"计算"来进行"学习"的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。

经验误差和泛化误差:

        假设给定训练集\(D=\{(\boldsymbol{x}_{1},y_{1}),(\boldsymbol{x}_{2},y_{2}),\ldots,(\boldsymbol{x}_{m},y_{m})\}, \boldsymbol{x}_{i}\in\mathcal{X}\),本章主要讨论二分类问题,若无特别说明,\(y_{i}\in\mathcal{Y}=\{-1,+1\}\)。其中所有的训练样本都服从一个未知的分布\(\mathcal{D}\),且它们都是在总体分布\(\mathcal{D}\)中独立采样得到,即独立同分布(independent and identically distributed,i.i.d.)。

        令\(h\)为从\(\mathcal{X}\)到\(\mathcal{Y}\)的一个映射,其泛化误差为:

\(E(h;\mathcal{D})=P_{\boldsymbol{x}\sim\mathcal{D}}(h(\boldsymbol{x})\neq y)\)

        \(h\)在D上的经验误差为:

\(\widehat{E}(h;D)=\frac{1}{m}\sum_{i=1}^{m}\mathbb{I}\big(h(x_{i})\neq y_{i}\big)\)

        泛化误差指的是学习器在总体上的预测误差,经验误差则是学习器在某个特定数据集D上的预测误差

几个常用不等式:

  • Jensen 不等式:对任意凸函数\(f(x)\),有

\(f(\mathbb{E}(x))\leqslant\mathbb{E}(f(x))\)

  • HoefIding 不等式[HoefIding , 1963]: 若\(x_{1},x_{2},\ldots,x_{m}\)为m 个独立随机变
    量,且满足\(0\leqslant x_{i}\leqslant1\),则对任意\(\epsilon>0\)有

\(\begin{gathered}
P\left(\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\Big|\sum_{i=1}^{m}\mathbb{E}(x_{i})\geqslant\epsilon\right)\leqslant\exp(-2m\epsilon^{2})  \\
P\left(\left|\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\right|\geqslant\epsilon\right)\leqslant2\exp(-2m\epsilon^{2}) 
\end{gathered}\)

  • McDiarmid 不等式[McDiarmid , 1989]:若\(x_{1},x_{2},\ldots,x_{m}\)为m 个独立随机变
    量,且对任意\(1\leqslant i\leqslant m\),函数\(f\)满足

\(\sup_{x_1,\ldots,x_m, x_i^{\prime}}|f(x_1,\ldots,x_m)-f(x_1,\ldots,x_{i-1},x_i^{\prime},x_{i+1},\ldots,x_m)|\leqslant c_i\)

        则对任意\(\epsilon>0\) ,有

        \(P\left(f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\geqslant\epsilon\right)\leqslant\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right) \\P\left(\left|f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\right|\geqslant\epsilon\right)\leqslant2\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right)\)

12.2 PAC学习 

        PAC学习原理(Probably Approximately Correct,概率近似正确)是计算学习理论中的一个核心概念。该原理旨在解释为什么一个假设(或模型、函数)在学习了训练样本后,能够在训练样本之外的数据上有效地进行预测。

        PAC学习原理的基本思想是:对于一个给定的概念类(即所有可能的目标概念的集合),如果存在一个多项式时间的学习算法,它能够从训练样本中学习到一个假设,使得该假设在训练样本之外的数据上的错误率以很大的概率(通常接近于1)低于一个预先设定的阈值,并且所需的训练样本数量和学习时间都是多项式级别的,那么我们就称这个概念类是PAC可学习的。

  • \(C\):概念类。表示从样本空间到标记空间的映射,对任意样例,都能使得\(c(x)=y\)。
  • \(H\):假设类。学习算法会把认为可能的目标概念集中起来构成\(H\)。
  • 若\(c\in H\),则说明假设能将所有示例按真实标记一致的方式完全分开,称为该问题对学习算法而言是”可分的“;否则,称为”不可分的“

        对于训练集,我们希望学习算法学习到的模型所对应的假设\(h\)尽可能接近目标概念\(c\)。我们是希望以比较大的把握学得比较好的模型,也就是说,以较大的概率学得误差满足预设上限的模型,这就是"概率近似正确"的含义。形式化地说,令\(\delta\)表示置信度,可定义: 

  • PAC辨识:对\(0\leq\epsilon,\delta<1\),所有的\(c\in \mathcal{C}\)和分布\(\mathcal{D}\),若存在学习算法,其输出假设\(h\in H\)满足:

\(\mathrm P(\mathrm E(\mathrm h)\leq\epsilon)\geq1-\delta \)

        则称学习算法能从假设空间\(\mathcal{H}\)中PAC辨识概念类\(\mathcal{C}\)。这样的学习算法能以较大的概率(至少\(1-\delta\)学得目标概念\(c\)的近似 (误差最多为\(\epsilon \))。在此基础上可定义:

  • PAC可学习:令\(m\)表示从分布\(\mathcal{D}\)中独立同分布采样得到的样例数目,\(0\leq\epsilon,\delta<1\),对所有分布\(\mathcal{D}\),若存在学习算法和多项式函数\(poly(1/\epsilon,1/delta,size(x),size(c))\)(样例数目m与误差\(\epsilon \)、置信度\(1-\delta\)、数据本身的复杂度size(x)、目标概念的复杂度size(c)都有关),使得对于任何\(m\ge poly(1/\epsilon,1/delta,size(x),size(c))\),学习算法能从假设空间中PAC辨识概念类\(\mathcal{C}\),则称概念类\(\mathcal{C}\)对假设空间而言是PAC可学习的,有时也简称概念类\(\mathcal{C}\)是PAC 可学习的。
  • PAC学习算法:满足PAC可学习的算法。(假定学习算法处理每个样本的时间为常数,因此C 的时间复杂度等价于样本复杂度。于是,我们对算法时间复杂度的关心就转化为对样本复杂度的关心)
  • 样本复杂度(Sample Complexity):满足\(m \ge poly(1/\epsilon,1/\delta,size(x),size(c))\)的最小的m。

         PAC学习中一个关键因素是假设空间\(\mathcal{H}\)的复杂度。\(\mathcal{H}\)包含了学习算法所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即\(\mathcal{H}\)=\(\mathcal{C}\),这称为"恰PAC可学习" (properly PAC learnable)。直观地看,这意味着学习算法的能力与学习任务”恰好匹配“。然而,这种让所有候选假设都来自概念类的要求看似合理,但却并不实际,因为在现实应用中我们对概念类\(\mathcal{C}\)通常一无所知,更别说获得一个假设空间与概念类恰好相同的学习算法。显然,更重要的是研究假设空间与概念类不同的情形,即\(H \neq C\)。 一般而言,\(\mathcal{H}\)越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大。\(|H|\)有限时,我们称究为"有限假设空间",否则称为"无限假设空间"。

12.3 有限假设空间

12.3.1 可分情形 

        对于PAC来说,只要训练集\(\mathcal{D}\)的规模能使得学习算法以概率\(1-\delta\)找到目标假设的\(\epsilon\)近似即可。

        先估计泛化误差大于\(\epsilon\)但在训练集上仍表现完美的假设出现的概率。假定\(h\)的泛化误差大于\(\epsilon\),对分布\(\mathcal(D)\)上随机采样而得到的任何样例\((x,y)\),有:

 \(\begin{aligned}\mathrm{P}\left(\mathrm{h}(\mathrm{x})=\mathrm{y}\right)&=1-\mathrm{P}\left(\mathrm{h}(\mathrm{x})\neq\mathrm{y}\right)\\&=1-\mathrm{E}(\mathrm{h})\\&\leq1-\epsilon\end{aligned}\)

 由于\(\mathcal(D)\)中包含m个样例,因此,h与\(\mathcal(D)\)表现一致的概率为:

\(\mathrm P((\mathrm h(\mathrm x_1)=\mathrm y_1)(\mathrm h(\mathrm x_2)=\mathrm y_2)\cdots(\mathrm h(\mathrm x_m)=\mathrm y_m))<(1-\epsilon)^\mathrm{m}\) 

        我们事先不知道学习算法会输出那个假设,但仅需要保证泛化误差大于\( \epsilon\),且在训练集上变现完美的多有假设出现概率之和不大于\(\delta\)即可。 

\(\begin{aligned}
P\big(h\in\mathcal{H}:E(h)>\epsilon\wedge\widehat{E}(h)=0\big)& <|\mathcal{H}|(1-\epsilon)^{m} \\&<|\mathcal{H}|e^{-m\epsilon} \end{aligned}\) 

令上式不大于\(\delta\)

\(|\mathcal{H}|e^{-m\epsilon}\leqslant\delta \)

 可得

\(m\geqslant\frac{1}{\epsilon}\bigl(\ln|\mathcal{H}|+\ln\frac{1}{\delta}\bigr)\)

        由此可知,有限假设空间\(\mathcal(H)\)都是PAC可学习的,所需的样例数目如上式所示,输出假设h的泛化误差随样例数目的增多而收敛到 0,收敛速率为\(O(\frac{1}{m})\)。 

 12.3.2 不可分情形

        不可分或不一致的情形指的是:目标概念不存在于假设空间中,这时我们就不能像可分情形时那样从假设空间中寻找目标概念的近似。但当假设空间给定时,必然存一个假设的泛化误差最小,若能找出此假设的有效近似也不失为一个好的目标,这便是不可知学习(agnostic learning)的来源。 

12.4 VC维 

        VC维:假设空间\(\mathcal(H)\)的VC维是能被\(\mathcal(H)\)打散的最大示例集的大小: 

\(\mathrm{VC}(\mathcal{H})=\max\{m:\Pi_{\mathcal{H}}(m)=2^{m}\}\) 

        例如对二分类问题来说,m个样本最多有\(2^m\)个可能结果,每种可能结果称为一种“对分”,若假设空间能实现数据集D的所有对分,则称数据集能被该假设空间打散。VC维指能被\(\mathcal(H)\)打散的最大示例集的大小。 

        VC维与数据分布\(\mathcal(D)\)无关!在数据分布未知时,仍能计算出假设空间的VC维。

         若假设空间\(\mathcal(H)\)的VC维是d,则对任意整数\(m \gt d\),有:

\(\Pi_{\mathcal{H}}(m)\leqslant\sum_{i=0}^d\binom{m}{i}\)

12.5 Rademacher复杂度 

        Rademacher 复杂度 (Rademacher complexity) 是另一种刻画假设空间复杂度的途径,与VC维不同的是,它在一定程度上考虑了数据分布。 

        考虑实值函数空间\(F \rightarrow \mathbb R\),令\(Z=\{z_1,z_2,\cdots,z_m\}\)。函数空间F关于Z的经验Rademacher复杂度 

\(\widehat{R}_{Z}(\mathcal{F})=\mathbb{E}_{\sigma}\Big[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^{m}\sigma_{i}f(z_{i})\Big]\)

        经验Rademacher复杂度衡量了函数空间F与随机噪声在集合Z中的相关性。通常我们希望了解函数空间F在Z上关于分布D的相关性,因此,对所有从D独立同分布采样而得的大小为m的集合Z求期望可得 

\(R_{m}(\mathcal{F})=\mathbb{E}_{Z\subseteq\mathcal{Z}:|Z|=m}\Big[\widehat{R}_{Z}(\mathcal{F})\Big]\)

        假设空间H的Rdemacher复杂度\(R_m(H)\)与增长函数\(\Pi_H(m)\)满足 

\(R_m(\mathcal{H})\leqslant\sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}}\)

 

12.6 稳定性 

        顾名思义,算法的“稳定性”考察的是算法在输入发生变化时,其输出是否会随之发生较大的变化。学习算法的输入是训练集,因此下面我们先定义训练集的两种变化: 

  • 移除:\(D^{\backslash i}\),表示移除D中第i个样例得到的集合

\(D^{\setminus i}=\{z_1,z_2,\ldots,z_{i-1},z_{i+1},\ldots,z_m\}\)

  • 替换:\(D^{i}\),表示替换D中第i个样本得到的集合

\(D^i=\{z_1,z_2,\ldots,z_{i-1},z_i^{'},z_{i+1},\ldots,z_m\}\)

损失函数刻画了预测标记和真实标记的差别: 

  • 泛化损失

\(\ell(\mathcal{L},\mathcal{D})=\mathbb{E}_{x\in\mathcal{X},z=(x,y)}\bigl[\ell(\mathcal{L}_{D},z)\bigr]\)

  • ·经验损失

\(\widehat{\ell}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}_{D},z_{i})\)

  • 留一(leave-one-out)损失

\(\ell_{loo}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}_{D^{\setminus i}},z_{i})\)

算法的均匀稳定性: 

        对任何\(x\in\mathcal{X}, z=(x,y)\), 若学习算法£满足

\(\left|\ell(\mathcal{L}_{D},z)-\ell(\mathcal{L}_{D\setminus i},z)\right|\leqslant\beta , i=1,2,\ldots,m,\)

则称£关于损失函数t 满足ß-均匀稳定性

因此,移除示例的稳定性包含了替换示例的稳定性。

        若学习算法符合经验风险最小化原则(ERM)且稳定的,则假设空间H是可学习的。稳定性通过损失函数与假设空间的可学习联系在了一起。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2053761.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SAP无参考收货

其他收货 如果我们未参考其他凭证&#xff08;采购订单、生产订单或预留&#xff09;输入货物移动&#xff0c;则我们将讲到其他收货。因为在实际过帐之前&#xff0c;系统不会存储任何物料、数量、交货日期、接收工厂或来源方面的信息&#xff0c;所以此类收货属于计划外货物…

一文入门re 正则表达式

一、常用方法 &#xff08;一&#xff09;匹配 一般使用方法 第一个参数&#xff1a;正则模式 第二个参数&#xff1a;需要处理的字符串 第三个参数&#xff1a;附加处理方法result从任意位置开始匹配&#xff0c;返回match&#xff0c;没有匹配到返回None result re.searc…

MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读

大模型的趋势&#xff1a;模型性能越来越好&#xff0c;模型参数变小&#xff0c;端边设备计算能力变强。 MiniCPM-V优点 结果好、OCR能力突出、多分辨率、多语言、易于部署 模型结构 图片encoder适用vit。输入整体以及切片。切片使用自适应算法&#xff0c;通过计算分数&am…

揭秘图数据库:如何颠覆社交网络分析的游戏规则

在当今信息化时代&#xff0c;社交网络的数据量以指数级的速度增长&#xff0c;人们在社交网络中产生了海量的交互数据。如何从这些复杂的数据中提取有价值的信息&#xff0c;成为了数据科学和社交网络分析领域的一大挑战。图数据库作为一种有效的数据管理和分析工具&#xff0…

Anzo Capital视角下马丁格尔交易策略的利与弊

在Anzo Capital&#xff0c;我们深入探讨了马丁格尔交易策略的多面性。这种策略因其简单性而受到一些交易者的欢迎&#xff0c;但同时也存在着不可忽视的风险。本文将客观分析其优势和潜在缺陷&#xff0c;帮助投资者在Anzo Capital平台上做出更明智的决策。 马丁格尔策略的核…

JavaEE项目总结(1)

一、在vue项目中安装axios 由于需要使用axios框架进行异步请求&#xff0c;所以需要在vue项目中安装axios框架。在官方下载速度较慢&#xff0c;所以选择更换镜像源&#xff08;我使用的是华为云镜像&#xff09; 在项目终端中输入npm config set registry http://mirrors.…

MES系统:制造业转型升级的驱动力与效益源泉

制造业之所以需要并采纳MES系统&#xff08;Manufacturing Execution System&#xff0c;制造执行系统&#xff09;&#xff0c;主要是出于以下几个方面的考虑和需求。MES系统能够为企业带来显著的好处&#xff0c;具体体现在以下几个方面&#xff1a; 制造业需要MES系统的原因…

信贷风控架构一张图

记得刚入门风控时,由于做的模型岗,总有一种不能窥探风控全貌的疑惑。随着经验的积累,以及一些岗位的体验,慢慢对风控有了更清晰的认知。本文以一张图的形式简单地呈现信贷风控架构,让你能快速窥探信贷风控全貌。 文章目录 一、什么是风险管控?二、信贷风控架构一张图三、…

PCDN日常应用--公共资源利用

1、前言 PCDN 是通过在 CDN 的边缘节点上部署代理服务器&#xff0c;来实现主动调度和传输内容的方法。当用户请求内容时&#xff0c;PCDN 将根据各个节点的负载情况、距离、传输速度等一系列因素来动态选择最优的节点来提供内容。这样的调度方式使得 PCDN 在面对大规模请求时能…

健康管理系统解决方案

产品简介 脉购CRM健康管理系统是一款集会员健康管理以及会员数字化营销于一体的系统解决方案&#xff0c;旨在帮助企业更好地提供个性化的健康服务&#xff0c;维护好会员关系&#xff0c;通过有效的营销手段增加健康会员粘性和满意度&#xff0c;最终达到业绩增长的目的。 核…

云计算第三阶段---DBA Day2 -- Day4

DBA DAY2 一、常用函数、 常用函数 按使用方式分类按用途分类 ○单行函数 ○分组函数 ○字符函数 ○数学函数 ○日期函数 字符函数实例&#xff1a; ●LENGTH(str)&#xff1a;返字符串长度&#xff0c;以字节为单位 mysql> select length(abc); --------------- | l…

【NXP-MCXA153】TFT驱动移植

介绍 GC9A01是一款1.28寸的圆形TFT显示屏模块&#xff0c;分辨率为240x240&#xff0c;支持三种颜色格式&#xff1a;RGB444、RGB565、RGB666&#xff0c;本次实验将在NXP-MCXA153开发板上移植TFT LCD驱动 移植流程 ① 绑定TFT LCD上面的GPIO&#xff0c;如SCL_PIN、SDA_PIN…

Java - File、IO流

File类 File是java.io.包下的类&#xff0c;File类的对象&#xff0c;用于代表当前操作系统的文件&#xff08;可以是文件、文件夹&#xff09; File类只能对文件本身进行操作&#xff0c;不能读写文件里面存储的数据。 创建File类的对象&#xff1a; //创建file对象//1.具体…

House of Roman / malloc_printerr间接调用malloc函数执行malloc_hook

文章目录 House of Roman介绍&#xff1a;原理&#xff1a;例子&#xff1a;思路&#xff1a;分析&#xff1a;利用&#xff1a; House of Roman 介绍&#xff1a; House of Roman 这个技巧说简单点其实就是 fastbin attack 和 Unsortbin attack 结合的一个小 trick。该技术用…

python-字符串操作(赛氪OJ)

[题目描述] 给定长度为 n 的只有小写字母的字符串 s &#xff0c;进行 m 次操作&#xff0c;每次将 [l,r] 范围内所有 c1 字符改成 c2 &#xff0c;输出操作完的字符串。输入格式&#xff1a; 第一行两个数 n , m &#xff0c; 第二行一个字符串 s &#xff0c; 之后 m 行&…

Ubuntu修改命令提示符格式PS1

命令提示符组成 通过Xshell进入Ubuntu的默认提示符是这样的 rootDESKTOP:~# root: 当前登录用户DESKTOP&#xff1a;主机名~: 当前目录名&#xff08;即用户主目录&#xff09;#&#xff1a;超级用户权限(root用户显示)$: 普通用户权限(非root用户显示) 修改命令提示符 step1…

linux 环境下 配置jenkins前端服务

前期准备 如果没有&#xff0c;需要安装插件 <b>HH:mm:ss</b> <b>HH:mm:ss.S</b> $PROJECT_NAME - Build # $BUILD_NUMBER - $BUILD_STATUS! 连接服务器的密码 测试 前端部署 需要安装nodejs的插件 执行脚本 node -v npm install rm -rf ./dist…

未解决:不同类型的数据用memcpy然后打印(printf)出问题

引子&#xff1a; 本来是搜memcpy在拷贝两个数组时两数组下标类型不同的问题&#xff0c;即&#xff0c;若一个数组是很长&#xff0c;其下标用long型&#xff0c;要将此数组的一小段拷贝到另一个数组中&#xff0c;这另一个数组的下标只需要用int型&#xff0c;不确定会不会出…

C++高性能编程:ZeroMQ vs Fast-DDS发布-订阅模式下性能对比与分析

文章目录 0. 引言1. 目标&#xff1a;ZeroMQ与Fast-DDS性能对比2. ZeroMQ vs Fast-DDS - 延迟基准测试2.1 一对一发布-订阅延迟2.2 一对多发布-订阅延迟 3. ZeroMQ vs Fast-DDS - 吞吐量基准测试4. 方法论5. 结论6. 参考 0. 引言 高要求的分布式系统催生了对轻量级且高性能中间…

MATLAB口罩检测系统

一、应用背景 作为数字图像处理和计算机视觉领域的一个重要组成部分&#xff0c;利用摄像机对图像进行采集&#xff0c;从图像中检测人脸并进行口罩穿戴的识别的有着非常重要的研究意义和应用价值。面对突如其来的新型肺炎疫情&#xff0c;人们生活秩序被严重打乱。跟普通流感…