统计学习笔记第 1 部分:Hoeffding 的不等式推导与模拟

news2024/12/27 15:29:18

照片由Unsplash上的Luca Bravo拍摄

1:背景与动机

霍夫丁不等式是数理统计和机器学习 (ML) 中的一个重要的集中不等式,广泛应用于统计学习理论等理论领域以及强化学习等应用领域。

我注意到,在机器学习社区的一些地方,通常将 Hoeffding 的不等式呈现为“给定”,而对于所述不等式的来源仅提供轻微的直觉(如果有的话)。我通常不喜欢这种理解数学材料的“神奇思维”。鉴于我将在未来撰写的文章中广泛利用霍夫丁不等式,我将这篇文章作为从第一原理逐步推导出不等式的入门读物。

我们首先陈述霍夫丁不等式,并在接下来的部分中逐步清楚地推导该不等式。我们以计算模拟结束这篇文章,显示了这种不等式围绕随机变量和抽样估计量的经验估计提供的保守(但概率上正确)的界限。

假设我们有:

图片由作者提供

考虑到上述条件,霍夫丁不等式提供了以下双边统计不等式:

图片由作者提供

以下各节从第一原理推导出上述不等式。本文的目录如下:

图片由作者提供

话虽如此,让我们开始吧。

2:马尔可夫不等式

从第一原理开始,我们从马尔可夫不等式开始。

假设我们有:

图片由作者提供

考虑到上述条件,马尔可夫不等式提供了以下统计不等式:

图片由作者提供

证明:

图片由作者提供

马尔可夫不等式提供了相当宽松的界限。如果我们感兴趣的随机变量具有定义的有限方差,我们可以用切比雪夫不等式收紧马尔可夫不等式,如下一节所示。

3:切比雪夫不等式

接下来我们讨论切比雪夫不等式,它是马尔可夫不等式的直接结果。

假设我们有:

图片由作者提供

考虑到上述条件,切比雪夫不等式提供了以下统计不等式:

图片由作者提供

证明:

图片由作者提供

请注意,上面我们利用的X具有定义的且有限的方差,即它的二阶矩是定义的且有限的。如果X的定义矩达到r级, 我们可以将上面的公式扩展到以下不等式:

图片由作者提供

对于许多随机变量,矩生成函数(MGF)将存在于零附近的邻域中,即 MGF 对于所有 | 都是有限的。t |≤ b其中b>0是某个常数。在这些情况下,我们可以使用 MGF 生成尾部边界,就像下一节中的切尔诺夫边界的情况一样。

4:切尔诺夫界限

通过将切比雪夫不等式扩展到更高级别的矩,我们推导出切尔诺夫界。

假设我们有:

图片由作者提供

考虑到上述条件,切尔诺夫界限提供了以下统计不等式:

图片由作者提供

证明:

图片由作者提供

在第 6 节中,我们将专门针对高斯随机变量导出切尔诺夫界限。然而,为了准备这样做,我们将首先在下一节中导出高斯随机变量的 MGF。

5:高斯随机变量的矩生成函数(MGF)

我们将首先推导单个高斯随机变量的矩生成函数(MGF),然后推导独立同分布高斯随机变量的中心均值的 MGF。

5.1:单高斯随机变量的MGF

图片由作者提供

证明:

图片由作者提供

图片由作者提供

接下来,我们将上述扩展到独立同分布高斯随机变量的中心均值。

5.2:独立同分布高斯随机变量的中心均值 MGF

考虑n 个相同且独立分布 (iid) 的高斯随机变量:

图片由作者提供

证明:

图片由作者提供

图片由作者提供

6:通过切尔诺夫边界的高斯尾边界

利用第 4 节和第 5 节中的信息,我们现在推导出独立同分布高斯随机变量的中心均值的切尔诺夫界限。

图片由作者提供

证明

图片由作者提供

图片由作者提供

在下一节中,我们将探讨亚高斯随机变量,这是一组随机变量,我们可以从统计不平等的角度利用上面的高斯尾界。

7:亚高斯随机变量

在上一节中,我们导出了独立同分布高斯随机变量的中心均值的切尔诺夫界限。事实证明,这些高斯尾部不等式更广泛地适用于一类称为亚高斯随机变量的随机变量。粗略地说,这些随机变量的尾部衰减速度比高斯分布更快。

在下面的小节中,我们正式定义亚高斯随机变量的类,证明Rademacher随机变量在亚高斯类内,并证明所有有界随机变量都在亚高斯类内。

7.1:亚高斯随机变量类的定义

图片由作者提供

图片由作者提供

7.2:Rademacher 随机变量是亚高斯的

接下来我们证明 Rademacher 随机变量是亚高斯的。

图片由作者提供

图片由作者提供

7.3:所有有界随机变量都是亚高斯的

最后,我们将证明所有有界随机变量(即具有有界支持的变量)都是亚高斯的。

假设我们有:

图片由作者提供

图片由作者提供

在下一节中,通过 Popoviciu 的方差不等式,我们表明方差不等式可以从(ba)²进一步收紧到(ba)²/4

8:波波维丘的方差不等式

对于具有有界支持 [ a , b ] 的随机变量X,波波维丘不等式提供了方差 Var( X ) 上的以下不等式界:

图片由作者提供

证明

图片由作者提供

所以:

图片由作者提供

9:霍夫丁不等式

假设我们有:

图片由作者提供

采用第 7 节中的亚高斯尾界和第 8 节中的波波维丘不等式,我们有:

图片由作者提供

......我们最终得出两侧霍夫丁不等式:

图片由作者提供

图片由作者提供

10:计算模拟

我们现在在 Python 中执行计算模拟,显示 Hoeffding 不等式可以围绕随机变量和抽样估计量的经验估计提供保守(但概率上正确)的界限。

让我们从加载我们的库开始:

,接下来创建一个函数来模拟数据并恢复 Hoeffding Bounds:

,最后恢复仿真结果:

根据上面的分析,我们模拟了 Rademacher、Beta、二项式、均匀和高斯采样估计器(亚高斯类内的所有参数分布)的数据,并恢复了 Hoeffding 界限(高斯采样估计器情况下的 Chernoff 界限):增量为 20%。从上面的结果可以看出,Hoeffding 边界是保守的,但都提供了超过 20% 的覆盖率。

11:总结

未来我们将撰写有关有限和无限参数函数类的强化学习和统计学习理论的文章,​​其中利用霍夫丁不等式将至关重要。

为了参考扎实的统计学习理论内容,我会推荐拉里·瓦瑟曼(卡内基梅隆大学统计和机器学习教授)的教科书“所有统计”和“所有非参数统计”,以及斯坦福大学教师的“统计学习要素” 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1194887.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图数据库Neo4j详解

文章目录 第一章 图和Neo4j1.1 图数据库概念1.1.1 图论起源1.1.2 节点-关系及图1.1.3 图数据库1.1.4 图数据库分类1.1.4 图数据库应用场景1.1.5 与关系型数据库对比1.1.6 图数据库优势 1.2 Neo4j介绍1.2.1 Neo4j是什么1.2.2 Neo4j特点1.2.3 Neo4j的优势1.2.4 Neo4j的限制1.2.5 …

网络安全(黑客)-高效自学

首先给大家简单介绍一下网络安全: 1.什么是网络安全? 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、…

eNsp使用技巧

文章目录 显示网格对齐到网络水平对齐和垂直对齐 显示所有接口添加文本进入CLI界面数据抓包方式一方式二 显示网格 对齐到网络 水平对齐和垂直对齐 显示所有接口 添加文本 进入CLI界面 数据抓包 方式一 方式二

No source control providers registered

使用vscode时碰到这个问题 git扩展没启动

Linux前言

目录 Linux的应用场景 Linux的应用现状 Linux的版本 操作系统 什么是Linux操作系统? 为什么要用操作系统? 上篇我们介绍了Linux的历史背景和安装环境。 Linux的应用场景 因为Linux操作系统是开源,所以它流向各个领域。 场景1&…

【有限元方法】Newton-Raphson Method

Newton-Raphson Method Linear vs Nonlinear Analysis: At this point, we can conduct a linear analysis no problem ∫ ∑ i , j 1 3 σ i j ε i j ∗ d v ∫ t n ⋅ u ∗ d s ∫ ρ b ⋅ u ∗ d v ⇒ ∫ e [ B ] T [ C ] [ B ] d x ⏟ k e u e ∫ ∂ e [ N ] T t n …

2022最新版-李宏毅机器学习深度学习课程-P50 BERT的预训练和微调

模型输入无标签文本(Text without annotation),通过消耗大量计算资源预训练(Pre-train)得到一个可以读懂文本的模型,在遇到有监督的任务是微调(Fine-tune)即可。 最具代表性是BERT&…

Arcgis连接Postgis数据库(Postgre入门十)

效果 步骤 1、矢量数据首先有在postgis数据库中 这个postgis数据库中的一个空间数据,数据库名称是test3,数据表名称是test 2、Arcgis中连接postgis数据库中 3、成功连接 可以将数据拷贝或导入到gdb数据库中

Python---练习:把8名讲师随机分配到3个教室

案例:把8名讲师随机分配到3个教室 列表嵌套:有3个教室[[],[],[]],8名讲师[A,B,C,D,E,F,G,H],将8名讲师随机分配到3个教室中。 分析: 思考1:我们第一间教室、第二间教室、第三间教室,怎么表示…

FPGA运算

算数运算中,输入输出的负数全用补码来表示,例如用三位小数位来表示的定点小数a-1.625和b-1.375。那么原码分别为a6b‘101101, b6b101011, 补码分别是a6’b110011,b6‘b110101; 如果想在fpga中实现a*b,则需要将a和b用补…

口水战,余承东从没输过,小鹏最终只能低头和解

小鹏汽车创始人何小鹏近日发言称与余承东握手言和,感谢余总的大度,还表示与余承东探讨了技术路线,双方成为好朋友,可以看出这场口水战最终的赢家还是余承东。 这场口水战先以何小鹏吐槽友商的AEB误触太多,还声言99%是假…

Git应用(1)

一、Git Git(读音为/gɪt/。中文 饭桶 )是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。 了解更多可到GIT官网:Git - Downloads GIT一般工作流程如下: 1.从远程仓库中克隆 Git 资源作为本地…

jenkins CSV编码导致乱码问题解决

问题:生产报告会乱码的问题,一般是有编码格式引起的。我遇到的问题是,jmeter需要读取csv的数据作为参数。但是我们并不知道csv保存是什么编码格式,有可能不是utf-8的编码格式,所以会导致中文乱码的问题 解决方案&#…

【广州华锐互动】太空探索VR模拟仿真教学系统

随着科技的不断发展,人类对宇宙的探索欲望愈发强烈。火星作为距离地球最近的行星之一,自然成为了人类关注的焦点。近年来,火星探测取得了一系列重要成果,为人类了解火星提供了宝贵的信息。然而,实地考察火星仍然面临着…

Linux安装MySQL8.0服务

Linux安装MySQL8.0服务 文章目录 Linux安装MySQL8.0服务一、卸载1.1 查看mariadb1.2 卸载 二、安装2.1 下载2.2 上传2.3 解压2.4 重命名2.5 删除2.6 创建目录2.7 环境变量2.8 修改配置2.9 配置文件2.9 用户与用户组2.10 初始化2.11 其它 三、开启远程连接MySQL 一、卸载 首先第…

【分布式id生成系统——leaf源码】

分布式id生成系统——leaf源码 号段模式双buffer优化id获取 Leaf ,分布式 ID 生成系统,有两种生成 ID 的方式: 号段模式Snowflake模式 号段模式 由于号段模式依赖于数据库表,我们先看一下相关的数据库表: biz_tag&…

大模型+人形机器人,用AI唤起钢筋铁骨

《经济参考报》11月8日刊发文章《多方布局人形机器人赛道,智能应用前景广》。文章称,工信部日前印发的《人形机器人创新发展指导意见》,按照谋划三年、展望五年的时间安排,对人形机器人创新发展作了战略部署。 从开发基于人工智能大模型的人…

SQL优化之MySQL执行计划(Explain)及索引失效详解

1、执行计划基础 1.1、执行计划(Explain)定义 在 MySQL 中可以通过 explain 关键字模拟优化器执行 SQL语句,从而解析MySQL 是如何处理 SQL 语句的。 1.2、MySQL查询过程 客户端向 MySQL 服务器发送一条查询请求服务器首先检查查询缓存&am…

为什么我一直是机器视觉调机仔,为什么一定要学一门高级语言编程?

​ 为什么我是机器视觉调机仔,为什么一定要学一门高级语言编程,以后好不好就业,待遇高不高,都是跟这项技术没关系,是跟这个技术背后的行业发展有关系。 你可以选择离机器视觉行业,也可以选择与高级语言相关…

中国电信终端产业联盟5G Inside行业子联盟正式成立!宏电股份作为副理事单位受邀加入

11月9日,中国电信于广州召开“2023中国电信终端生态合作暨中国电信终端产业联盟(以下简称CTTA)第十四次会员大会”,联盟成员齐聚现场。作为CTTA大会的一个重要环节,中国电信终端产业联盟5G Inside行业子联盟正式成立&a…