机器学习第十二章-计算学习理论

news2024/9/21 22:46:31

目录

12.1基础知识

12.2 PAC学习

12.3有限假设空间

12.3.1可分情形

12.3.2不可分情形

12.4VC维

12.5 Rademacher复杂度


12.1基础知识

        计算学习理论研究的是关于通过"计算"来进行"学习"的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。

        给定样例集 = {(X1  , Y2) , (X2,Y2 ),..., (Xm , Ym)} ,x_{i}\epsilon X
        令h为X到Y 的一个映射,其泛化误差为:
                                E(h ; \mathcal{D})=P_{\boldsymbol{x} \sim \mathcal{D}}(h(\boldsymbol{x}) \neq y)
        h在D上的经验误差为:
                                  E(h ; \mathcal{D})=P_{\boldsymbol{x} \sim \mathcal{D}}(h(\boldsymbol{x}) \neq y)\widehat{E}(h ; D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(h\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right)
        后面部分将研究经验误差与泛化误差之间的逼近程度会用到几个常用不等式:
        1.Jensen 不等式:对任意凸函数 f(x) ,有:
                                                f(\mathbb{E}(x)) \leqslant \mathbb{E}(f(x))
        2.HoefIding 不等式 : 若 x_{1},x_{2}....x_{m}为m个独立随机变量,且满足 0<x_{i}<1 ,则对任意 \varepsilon >0 ,有:
                            \begin{array}{l} P\left(\frac{1}{m} \sum_{i=1}^{m} x_{i}-\frac{1}{m} \sum_{i=1}^{m} \mathbb{E}\left(x_{i}\right) \geqslant \epsilon\right) \leqslant \exp \left(-2 m \epsilon^{2}\right) \\ P\left(\left|\frac{1}{m} \sum_{i=1}^{m} x_{i}-\frac{1}{m} \sum_{i=1}^{m} \mathbb{E}\left(x_{i}\right)\right| \geqslant \epsilon\right) \leqslant 2 \exp \left(-2 m \epsilon^{2}\right) \end{array}
        3.McDiarmid 不等式 : 若 x_{1},x_{2}...x_{m}为m个独立随机变量,且对任意1<i<m,函数f 满足:
                           \begin{array}{l} P\left(f\left(x_{1}, \ldots, x_{m}\right)-\mathbb{E}\left(f\left(x_{1}, \ldots, x_{m}\right)\right) \geqslant \epsilon\right) \leqslant \exp \left(\frac{-2 \epsilon^{2}}{\sum_{i} c_{i}^{2}}\right) \\ P\left(\left|f\left(x_{1}, \ldots, x_{m}\right)-\mathbb{E}\left(f\left(x_{1}, \ldots, x_{m}\right)\right)\right| \geqslant \epsilon\right) \leqslant 2 \exp \left(\frac{-2 \epsilon^{2}}{\sum_{i} c_{i}^{2}}\right) \end{array}

12.2 PAC学习

        计算学习理论中最基本的是概率近似正确 ( 简称 PAC) 学习理论 。
PAC 辨识 :对 0<\varepsilon ,\delta <1,所有 c\varepsilon C  和分布D,若存在学习算法\Im,其输出假设 h\epsilon \mathbb{R}  满足:
                                                P(E(h) \leqslant \epsilon) \geqslant 1-\delta
则称学习算法 \Im 能从假设空间中 PAC 辨识概念类 C. 
PAC 可学习 : 令m表示从分布D中独立同分布采样得到的样例数目,0<\varepsilon ,\delta <1,对所有分布D, 若存在学习算法£和多项式函数poly,使得对任何m>poly.
PAC 学习算法: 若学习算法\Im使概念类 C为PAC 可学习的,且 \Im的运行时间也多项式函数 poly ,则称概念类 C 是高效 PAC 可学习  的,称\Im为概念类C的 PAC 学习算法.
样本复杂度 : 满足 PAC 学习算法\Im所需的 m> poly 中最小的m,称为学习算法 \Im的样本复杂度.

12.3有限假设空间

12.3.1可分情形

        可分情形意味着目标概念c属于假设空间H,即 c\epsilon H。对 PAC 学习来说,只要训练集D 的规模能使学习算法\Im以概率1-\delta 找到目标假设的\varepsilon近似即可.

        我们先估计泛化误差大于 \varepsilon但在训练集上仍表现完美的假设出现的概率. 假定 h的泛化误差大于 \varepsilon,对分布 D上随机来样而得的任何样例 (x y)有:

                        P(E(h) \leqslant \epsilon) \geqslant 1-\delta\begin{aligned} P(h(\boldsymbol{x})=y) & =1-P(h(\boldsymbol{x}) \neq y) \\ & =1-E(h) \\ & <1-\epsilon \end{aligned}

        由于D包含 m个从 D 独立同分布采样而得的样例,因此,h与D  表现一 致的概率为:
                \begin{aligned} P\left(\left(h\left(\boldsymbol{x}_{1}\right)=y_{1}\right) \wedge \ldots \wedge\left(h\left(\boldsymbol{x}_{m}\right)=y_{m}\right)\right) & =(1-P(h(\boldsymbol{x}) \neq y))^{m} \\ & <(1-\epsilon)^{m} \end{aligned}

12.3.2不可分情形

        引理若训练集D包含m个从分布D上独立同分布采样而得的样例,0<\varepsilon <1,则对任意 h\epsilon H,有:\begin{array}{l} P(\widehat{E}(h)-E(h) \geqslant \epsilon) \leqslant \exp \left(-2 m \epsilon^{2}\right) \\ P(E(h)-\widehat{E}(h) \geqslant \epsilon) \leqslant \exp \left(-2 m \epsilon^{2}\right) \\ P(|E(h)-\widehat{E}(h)| \geqslant \epsilon) \leqslant 2 \exp \left(-2 m \epsilon^{2}\right) \end{array}

        推论 :若训练集D 包含 m个从分布 D上独立同分布来样而得的样例, 0<\varepsilon <1 ,则对任意 h\epsilon H以至少 1-\delta 的概率成立:

                        \widehat{E}(h)-\sqrt{\frac{\ln (2 / \delta)}{2 m}} \leqslant E(h) \leqslant \widehat{E}(h)+\sqrt{\frac{\ln (2 / \delta)}{2 m}}

        定理 :若H为有限假设空间,0<\varepsilon <1 ,则对任意 h\epsilon H,有:

                        P\left(|E(h)-\widehat{E}(h)| \leqslant \sqrt{\frac{\ln |\mathcal{H}|+\ln (2 / \delta)}{2 m}}\right) \geqslant 1-\delta

12.4VC维

        现实学习任务所面临的通常是无限假设空间,欲对此种情形的可学习性进行研究,需度量假设空间的复杂度.最常见的办法是考虑假设空间的 "VC维"。
1. 增长函数
        增长函数,也称为VC维增长函数,描述了在给定假设空间下,能够被假设空间所“分割”或“覆盖”的训练样本的最大数量。具体来说,它衡量的是假设空间中能够对样本集进行不同标签分配的能力。增长函数的定义如下:对于一个假设空间  H )和一个样本集  S (大小为 m ),增长函数 (M_{H}(m) ) 表示假设空间 H 能够对样本集 S 进行的不同标签分配的最大数量。

2. 打分
        打分是一个与增长函数紧密相关的概念。它描述了一个假设空间能否对某个样本集进行所有可能的标签分配。具体来说:一个假设空间 (H )能打分一个样本集 S (大小为  m,如果 H  中的假设可以对 S 中的每一种可能的标签分配进行匹配。

 

3. 打散
        打散(或称为分裂)是一个与打分相关的概念,描述了假设空间能否在所有可能的标签分配下对样本集进行准确的分类。具体来说:假设空间  H 能打散一个样本集S (大小为 m )如果H能对 S 中的每一种标签分配进行正确的分类。换句话说,如果假设空间 H 能生成所有可能的标签分配。

 

4. VC维
        VC维是衡量一个假设空间复杂度的指标,它反映了假设空间能够打散的最大样本集的大小。具体来说:VC维是一个假设空间  H 可以打散的最大样本集的大小。即,如果假设空间  H 能打散大小为 d 的样本集,但不能打散大小为 d+1 的样本集,那么 H 的VC维就是 d。

增长函数 衡量假设空间对样本集进行的标签分配的能力。
打分 描述假设空间是否能够覆盖所有可能的标签分配。
打散 具体指假设空间对样本集进行所有可能标签分配的能力。
VC维 是衡量假设空间复杂度的关键指标,反映了最大打散能力。

12.5 Rademacher复杂度

        Rademacher 复杂度 是另一种刻画假设空间复 杂度的途径,与 vc 维不同的是,它在一定程度上考虑了数据分布.

给定训练集 ={(X1 , Y2), (X2,Y2),..., (Xm , Ym)} 假设h 的经验误差为:

                                                        \begin{aligned} \widehat{E}(h) & =\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(h\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right) \\ & =\frac{1}{m} \sum_{i=1}^{m} \frac{1-y_{i} h\left(\boldsymbol{x}_{i}\right)}{2} \\ & =\frac{1}{2}-\frac{1}{2 m} \sum_{i=1}^{m} y_{i} h\left(\boldsymbol{x}_{i}\right) \end{aligned}

经验误差最小的假设是:
                                        \underset{h \in \mathcal{H}}{\arg \max } \frac{1}{m} \sum_{i=1}^{m} y_{i} h\left(\boldsymbol{x}_{i}\right)
\sigma _{i}是Rademacher 随机变量.
函数空间 F 关于 Z 的经验 Rademacher 复杂度:
                                        \widehat{R}_{Z}(\mathcal{F})=\mathbb{E}_{\boldsymbol{\sigma}}\left[\sup _{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_{i} f\left(\boldsymbol{z}_{i}\right)\right]
函数空间 F 关于Z  上分布D的  Rademacher 复杂度:
                                        R_{m}(\mathcal{F})=\mathbb{E}_{Z \subseteq \mathcal{Z}:|Z|=m}\left[\widehat{R}_{Z}(\mathcal{F})\right]

        

        
     
      

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2055647.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据分析实操案例分享:制造企业如何对订单数据进行BI分析?

提到数据分析&#xff0c;大家可能首先想到的是它在零售行业的应用&#xff0c;它能够助力商家实现精准营销&#xff0c;从而带来盈利。 事实上&#xff0c;数据分析的重要性已经扩展到制造业&#xff0c;它在该行业中的作用日益凸显。它能够帮助生产管理者迅速识别异常&#…

零基础也能看懂的五大网络安全技术,学网络安全真的可以很简单

网络安全技术是保护网络不受未经授权访问、破坏或盗取信息的重要手段。以下是五种零基础也能看懂的网络安全技术&#xff1a; 1.防火墙技术&#xff1a;防火墙是一种网络安全设备&#xff0c;用于监控和控制进入或离开网络的流量。它可以识别不安全的数据包&#xff0c;并阻止…

使用vs配置opencv环境(属性表方法)

opencv官网&#xff1a;https://opencv.org/releases/ 老手回忆&#xff08;新建属性表&#xff09; Step1: 安装VS&#xff0c;安装openCV Step2: 新建项目&#xff0c;新建项目属性表&#xff0c;debug|x64新建属性&#xff0c;命好名字 Step3: VC目录-包含目录中添加: 安装…

How can i wait for the actual reply of an openai-assistant? (Python OpenAI API)

题意&#xff1a;如何等待 OpenAI 助手的实际回复&#xff1f;&#xff08;Python OpenAI API&#xff09; 问题背景&#xff1a; I am interacting with the openai assistant API (python). so far, it works well. but sometimes the api returns the message i sent to th…

算法的学习笔记—包含 min 函数的栈(牛客JZ30)

&#x1f600;前言 在日常编程中&#xff0c;栈是一种常见的数据结构&#xff0c;具有后进先出的特点。它支持基本的操作如 push&#xff08;入栈&#xff09;、pop&#xff08;出栈&#xff09;和 top&#xff08;获取栈顶元素&#xff09;。然而&#xff0c;当需要在栈中快速…

linux容器基础-namespace-1(mnt)

mnt namespace mount namespace可隔离出一个具有独立挂载点信息的运行环境&#xff0c;内核知道如何去维护每个namespace的挂载点列表。 即每个namespace之间的挂载点列表是独立的&#xff0c;各自挂载互不影响。(用户通常使用mount命令来挂载普通文件系统&#xff0c;但实际…

JAVA单个商户多个门店点餐系统小程序源码

&#x1f525;单个商户&#xff0c;多店管理新纪元&#xff01;高效点餐系统大揭秘&#x1f37d;️ &#x1f680;【一店多管&#xff0c;轻松驾驭】&#x1f680; 你是否还在为多个门店的点餐管理手忙脚乱&#xff1f;&#x1f92f; 想象一下&#xff0c;从繁华都市的中心商…

一站解决多域名安全:通配符SSL证书的全面指南

随着企业在线业务的不断扩展&#xff0c;拥有多个子域名变得越来越常见。为了确保这些子域名的安全&#xff0c;并简化管理流程&#xff0c;通配符SSL证书成为了一个高效且经济的选择。本文旨在提供一份全面的指南&#xff0c;帮助您了解通配符SSL证书的重要性和如何正确地选择…

用AI也能做短剧了?全球首款 AI 短剧平台 SkyReels重磅发布!

短剧的风头在2024年依然强劲。 几分钟到十几分钟的单集时长、强烈的娱乐性和快节奏剧情&#xff0c;频繁踩中用户「爽点」&#xff0c;仅在2023年&#xff0c;短剧市场规模就达到373.9亿元&#xff0c;预计2024年将超过500亿元&#xff0c;2027年则将超过1000亿元。 然而传统编…

ChatGPT完成论文润写的几点说明

学境思源&#xff0c;一键生成论文初稿&#xff1a; AcademicIdeas - 学境思源AI论文写作 论文润写是指对已完成的论文进行修改和优化&#xff0c;以提高其逻辑性、语言流畅度和整体质量。这一过程对提升论文的学术价值至关重要。ChatGPT是一种先进的人工智能语言模型&#xf…

[图解]片段16 ESS状态机图-SysMLEA建模住宅安全系统

1 00:00:00,220 --> 00:00:03,580 然后我们看初始这里 2 00:00:03,590 --> 00:00:09,500 有一个指向它的一个迁移的事件 3 00:00:09,710 --> 00:00:13,730 站点可用&#xff0c;这个实际上是错误的 4 00:00:14,020 --> 00:00:15,050 这不是事件 5 00:00:15,900…

绝密!头部数字人源码厂商在数字人直播软件开发技术有哪些?

随着数字人直播的逐渐兴起&#xff0c;数字人直播软件开发也成为了众多有意向进军数字人行业的创业者们重点关注的对象&#xff0c;以数字人直播软件开发技术有哪些为代表的问题更是屡次冲上相关社群话题榜的前列&#xff0c;并引发多轮热议。 不过&#xff0c;就市场现状来看&…

TIM定时中断之定时器定时中断定时器外部时钟应用案例

文章目录 前言一、定时器定时中断应用案例1.1 应用案例简介1.2 电路接线图1.3 应用案例代码1.4 应用案例分析1.4.1 初始化定时器1.4.2 编写定时器中断函数 二、定时器外部时钟应用案例2.1 应用案例简介2.2 电路接线图2.3 应用案例代码2.4 应用案例分析 前言 提示&#xff1a;本…

详细分析 el-progress的基本知识以及用法(附Demo)

目录 前言1. 基本知识2. Demo3. 实战 前言 由于实战项目中有所引用&#xff0c;对此记录基本的知识点&#xff0c;并且以Demo的形式呈现 1. 基本知识 el-progress 是 Element Plus UI 库中的一个进度条组件&#xff0c;用于显示任务的完成情况 可以帮助用户了解某个操作或任…

企业迈向可持续发展的钥匙:ISO 50001能源管理体系认证的深远影响

在全球环保意识日益增强的背景下&#xff0c;企业如何在节能减排的道路上脱颖而出&#xff0c;成为行业标杆&#xff1f;ISO 50001能源管理体系认证无疑是企业迈向可持续发展的重要钥匙。这一认证不仅帮助企业优化能源管理&#xff0c;还在多个层面为企业带来了深远的积极影响。…

【JavaEE】Callable,Semaphore和CountDownLatch

&#x1f525;个人主页&#xff1a; 中草药 &#x1f525;专栏&#xff1a;【Java】登神长阶 史诗般的Java成神之路 一.Callable 在Java中&#xff0c;Callable接口是一个可以返回结果的异步任务执行方式。它与Runnable接口类似&#xff0c;都是描述一个“任务”&#xff0c;…

如何为列表元素分配序列号(Java Stream API 实战)

摘要&#xff1a; 本文将详细介绍如何在Java中使用Stream API对列表中的元素进行分组&#xff0c;并为每组元素分配一个唯一的序列号。通过一个具体的示例和测试案例&#xff0c;我们将演示这一技术如何简化数据处理&#xff0c;提高代码效率。 在Java编程中&#xff0c;我们经…

Linux-进程间关系与守护进程

一、进程组 1.1 什么是进程组 之前我们提到了进程的概念&#xff0c; 其实每一个进程除了有一个进程 ID(PID)之外 还属于一 个进程组。进程组是一个或者多个进程的集合&#xff0c; 一个进程组可以包含多个进程。 每一 个进程组也有一个唯一的进程组 ID(PGID)&#xff0c; 并且…

阻抗控制中的dynamic movement primitives(DMP) model

在阻抗控制中&#xff0c;Dynamic Movement Primitives (DMP) 模型被用于实现一种高度灵活且可泛化的轨迹模仿学习方法。DMP模型由美国南加州大学&#xff08;University of Southern California&#xff09;的Stefan Schaal教授团队于2002年提出&#xff0c;它通过将动态系统建…

Linux命令之二

Linux命令之二 VI和VIM编辑器1、VIM的一般模式①、删除复制操作②、光标移动操作 2、VIM的编辑模式3、VIM的命令模式4、三种模式之间的切换关系 权限管理文件类型和权限的表示文件属性介绍chmod 改变文件权限chown 改变所有者 yum 安装软件命令 Linux命令速查平台 VI和VIM编辑器…