统计学习笔记 第 5 部分:破碎系数

news2024/11/24 14:32:57
 照片由 Unsplash上的 资源数据库提供

1:背景与动机

        正如本系列之前的文章所述,统计学习理论为理解机器学习推理问题提供了一个概率框架。用数学术语来说,统计学习理论的基本目标可以表述为:

图片由作者提供

本文是统计学习理论系列的第 5 部分。前四件是:

  • 第 1 部分:Hoeffding 不等式的推导与模拟
  • 第 2 部分:贝叶斯分类器的最优性
  • 第 3 部分:学习的 ML 估计器的收敛性和一致性
  • 第 4 部分:有限函数类的一致性

在本系列的第 1 部分中,我们从第一原理推导了霍夫丁不等式,在第 2 部分中,我们证明了贝叶斯分类器的最优性,在第 3 部分中,我们开发了评估数据自适应机器学习采样估计器一致性的理论,在第4 部分中,我们推导了一致性有限大小函数类上的 ML 估计器的速率和泛化界限。在这篇文章中,我们将我们的理论扩展到无限大小函数类上的学习 ML 估计器,并利用破碎系数导出一致性率和泛化界限。

为了激发当前的兴趣问题,请考虑:

图片由作者提供

我们定义:

图片由作者提供

并回忆一下:

图片由作者提供

图片由作者提供

        但是,如果我们考虑无限大小的函数类而不是有限的函数类怎么办?比如所有线性模型的函​​数类?在这种情况下,我们还有一致性吗?

        在接下来的注释中,我们利用破碎系数推导了无限函数类上的 ML 估计器的不等式、比率和泛化界限。

图片由作者提供

本文的目录如下:

图片由作者提供

        话虽如此,让我们开始吧。

2:破碎系数

2.1:破碎系数的定义

         我们想要测量无限函数类的容量。破碎系数是此类容量测量中最简单的。

图片由作者提供

让我们通过一些简单的玩具示例来了解破碎系数的示例。

2.2:玩具示例#1

图片由作者提供

2.3:玩具示例#2

图片由作者提供

2.4:玩具示例#3

图片由作者提供

3:通过幽灵样本得出统计不平等

从本系列第 4 部分中的统计不平等开始:

图片由作者提供

我们将在本节中证明上述不等式右侧的进一步约束如下:

图片由作者提供

为了证明上述统计不等式,我们首先证明以下中间结果,稍后我们将利用:

图片由作者提供

上述中间结果的证明如下:

图片由作者提供

图片由作者提供

我们现在准备证明:

图片由作者提供

上述不等式的证明如下:

图片由作者提供

使用上面的统计不等式,在下一节中,我们利用破碎系数检查泛化界限和一致性率。

4:泛化界限和一致性率

根据上一节的结果,我们现在准备展示:

图片由作者提供

上述泛化界限的证明如下:

图片由作者提供

图片由作者提供

图片由作者提供

5:总结和结论

图片由作者提供

        请注意,虽然我们能够导出无限大小函数类上的 ML 估计器的泛化界限和一致性率,但本文中的方法存在一些缺点。主要是:

  • 除了简单的玩具示例之外,破碎系数通常很难计算或计算。
  • 破碎系数也是特定样本大小“ n ”的函数,这意味着我们需要知道该系数渐近增长的速度,以便将其用于本文中使用的目的。

        在本系列的后续第 6 部分中,我们将利用另一个工具来导出无限大小函数类的容量,即 Vapnik-Chervonenkis (VC) 维度。正如我们将在下一篇文章中看到的,对于某些用例,VC 维度比破碎系数更容易计算。与破碎系数不同,VC 维度不依赖于样本大小“ n ”。

        为了参考扎实的统计学习理论内容,我会推荐Larry Wasserman(卡内基梅隆大学统计和机器学习教授)的教科书“All of Statistics”和“All of Nonparametric Statistics”、斯坦福大学教师的“ Elements of Statistical Learning ”和“Statistical”弗拉基米尔·瓦普尼克(Vladimir Vapnik)的学习理论。

安德鲁·罗斯曼

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1189412.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

要查看Android应用的签名信息,可以采取以下几种方式

直接查看APK的签名信息。这可以通过在命令行中输入以下命令完成:keytool -list -printcert -jarfile [APK文件路径]。例如,如果你的APK文件名为wechat.apk,你可以在命令行中输入:keytool -list -printcert -jarfile wechat.apk。执…

【OpenCV实现图像:用OpenCV图像处理技巧之白平衡算法】

文章目录 概要加载样例图像统计数据分析White Patch Algorithm小结 概要 白平衡技术在摄影和图像处理中扮演着至关重要的角色。在不同的光照条件下,相机可能无法准确地捕捉到物体的真实颜色,导致图像呈现出暗淡、色调不自然或者褪色的效果。为了解决这个…

C++11常用特性

目录 1、{}初始化 2、auto 3、decltype 4、nullptr 5、范围for 6、STL容器 7、右值引用 ①左值引用和右值引用 ②移动构造 ③移动赋值 ④万能引用与完美转发 8、新的类功能 9、可变模版参数 10、lambda表达式 捕捉列表的使用 [val]:传值捕捉 [&…

ChatGPT生产力|中科院学术ChatGPT优化配置

资源链接:GitHub - binary-husky/gpt_academic b站配置讲解链接:chatgpt-academic 新手运行官方精简指南(科研chatgpt拓展) 某知配置图文讲解:图文详解:在windows中部署ChatGPT学术版 - 知乎 (zhihu.com) 一…

经典OJ题:随机链表的复制

目录 题目: 本题的解图关键在于画图与看图! 思路分析: 方法一:暴力求解法。 方法二:插入法 方法解析: 步骤一、插入 步骤二、 处理每一个copy的randdom指针⭐————重点 步骤三、拆卸节点 代码…

轻松与任何 SQL 数据库集成:Directus 助你无代码开发 | 开源日报 No.69

Ebazhanov/linkedin-skill-assessments-quizzes Stars: 26.5k License: AGPL-3.0 这个项目是一个 LinkedIn 技能评估答案的存储库。它提供了各种领域和主题的问题和答案,以帮助用户更好地学习新概念并准备相关考试。该项目具有以下核心优势: 提供多语…

HarmonyOS开发:UI开展前的阶段总结

前言 关于HarmonyOS,陆陆续续总结了有14篇的文章,大家可以发现,没有一篇是关于UI相关的,不是自己没有分享的打算,而是对于这些UI而言,官方都有着一系列的文档输出,如果我再一一的分享&#xff0…

SPSS线性回归

前言: 本专栏参考教材为《SPSS22.0从入门到精通》,由于软件版本原因,部分内容有所改变,为适应软件版本的变化,特此创作此专栏便于大家学习。本专栏使用软件为:SPSS25.0 本专栏所有的数据文件请点击此链接下…

高级运维学习(十五)Zabbix监控(二)

一 Zabbix 报警机制 1 基本概念 自定义的监控项默认不会自动报警首页也不会提示错误需要配置触发器与报警动作才可以自动报警 2 概念介绍 (1)触发器 (trigger) 表达式,如内存不足300M,用户超过30个等 当触发条件发生后&a…

【自然语言处理】基于python的问答系统实现

一,文件准备 该问答系统是基于已知的问题和其一一对应的答案进行实现的。首先需要准备两个文本文件,分别命名为“question.txt”和“answer.txt”,分别是问题文件和答案文件,每一行是一个问题以及对应的答案。 问题文件: 中国的首…

Pytorch模型使用与修改、保存与加载

模型的使用及修改、保存与加载 以图像处理中torchvision为例,PyTorch通过torchvision.models模块提供了更多的预训练模型. 在图像分类当中,包括许多模型 import torchvision import warnings import torch warnings.filterwarnings("ignore&quo…

3D Gaussian Splatting:用于实时的辐射场渲染

Kerbl B, Kopanas G, Leimkhler T, et al. 3d gaussian splatting for real-time radiance field rendering[J]. ACM Transactions on Graphics (ToG), 2023, 42(4): 1-14. 3D Gaussian Splatting 是 Siggraph 2023 的 Best Paper,法国团队在会议上展示了其实现的最…

软件测试|iOS 自动化测试——技术方案、环境配置

移动端的自动化测试,最常见的是 Android 自动化测试,我个人觉得 Android 的测试优先级会更高,也更开放,更容易测试;而 iOS 相较于 Android 要安全稳定的多,但也是一个必须测试的方向,这个系列文…

Bean作用域

从笔者之前的博客,我们可以看出 Spring 是⽤来读取和存储 Bean,因此在 Spring 中 Bean 是最核⼼的操作 资源,所以接下来我们深⼊学习⼀下 Bean 对象:Bean作用域! 限定程序中变量的可用范围叫做作用域!或者…

【遮天】荒古禁地采取圣药,姬老自己走上绝路,故事扣人心悬

Hello,小伙伴们,我是小郑继续为大家深度解析国漫资讯。 深度爆料,《遮天》动漫第30话最新剧情解析,姬云峰,姬家的长老,地位崇高,深受家族成员的尊敬和信赖。他的智慧和经验在家族中享有极高的声望&#xf…

【MATLAB源码-第72期】基于matlab的OFDM-IM索引调制系统在高斯,瑞利,莱斯信道误码率对比,对比传统OFDM系统。

操作环境: MATLAB 2022a 1、算法描述 OFDM-IM索引调制技术是一种新型的无线通信技术,它将正交频分复用(OFDM)和索引调制(IM)相结合,以提高频谱效率和系统容量。OFDM-IM索引调制技术的基本思想…

【字符串】【完整程序+倒序输出+每个区间倒序输出】KamaCoder55

【字符串】【完整程序倒序输出每个区间倒序输出】KamaCoder55 解法1 完整程序书写kama 倒序输出每个区间倒序输出 ---------------🎈🎈题目链接🎈🎈------------------- 解法1 完整程序书写kama 倒序输出每个区间倒序输出 时间…

docker部署redis6

前言:在离线服务器上(无联网),部署redis的方式,采用docker是比较方便的。下面将描述如何使用docker部署单机版redis 环境:centos 7 redis:6.2.14 docker:20.10.9 1.下载 redis 镜像…

取产品之道、赚效率的钱,锅圈万店背后的赢家法则

万店,一个真正意义上的规模壁垒,当它出现在任何行业时,都意味着这个玩家身上存在许多领先于行业的优势。 这一点,在刚于近日登录港交所的锅圈食品(以下简称“锅圈”)身上尤其明显——2017年,锅…