看见统计——第五章 统计推断:贝叶斯学派

news2025/1/10 17:21:56

看见统计——第五章 统计推断:贝叶斯学派

引言

推理的频率学派认为,概率在本质上是与频率联系在一起的。这种解释实际上是很自然的。按照频率学派的说法,一枚公平的硬币出现人头的概率是1/2。简单地说,在同一个硬币的无限次独立抛掷中,有一半会出现头像。许多随机实验事实上是可以重复的,频率学派范式很容易适用于这种情况。

然而,给不可重复的事件分配概率通常是可取的。例如,当天气预报告诉你明天有90%的可能性下雨时,它是在为一次性事件分配概率,因为明天只会发生一次。更重要的是,在许多情况下,我们希望将概率分配给具有不确定性的非随机事件。银行可能有兴趣设计一个自动化系统,计算支票上的签名是否真实的概率。即使存在一个潜在的事实(签名是真的还是假的),从银行的角度来看存在不确定性,因此使用概率是合理的。纯频率论对概率的解释不能很好的匹配这些用例中。

贝叶斯推理采取了一种主观的方法,并将概率视为代表信念(belief)的程度。因此,只要存在我们希望量化的不确定性,为非重复和非随机事件分配概率是完全有效的。贝叶斯概率是主观的这一事实并不意味着它们是任意的。使用贝叶斯概率的规则与使用频率主义概率的规则是相同的。贝叶斯主义者只是乐于将概率分配给比频率论者更大的一类事件。

而贝叶斯推理的基本精神被贝叶斯定理所囊括。

贝叶斯定理Bayes’ Theorem

假设在一次常规体检中,医生通知你,你在一种罕见的疾病检测中呈阳性。这让你很苦恼,但作为一个优秀的统计学家,你也知道这些测试结果存在一些不确定性。可是不幸的是,这个测试相当准确——它对95%的疾病患者报告为阳性结果,而对95%的健康患者报告为阴性结果。

如果我们让 "+“和”-"分别表示阳性和阴性的测试结果,那么测试准确率就是条件概率
P ( + ∣ 疾病 ) = 0.95 P ( − ∣ 健康 ) = 0.95 \begin{aligned} & P(+|疾病)=0.95\\ & P(-|健康)=0.95 \end{aligned} P(+疾病)=0.95P(健康)=0.95
你感兴趣的是
P ( 疾病 ∣ + ) P(疾病|+) P(疾病+)
为了计算这最后一个量,我们对条件概率做一些变换。这可以通过贝叶斯定理来实现

📏 定理 :贝叶斯定理(Bayes’ Theorem) 让 Y 1 , . . . , Y k Y_1,...,Y_k Y1,...,Yk是样本空间 Ω \Omega Ω 的一部分, X X X 是任意事件,则有
P ( Y j ∣ X ) = P ( X ∣ Y j ) P ( Y j ) ∑ i = 1 k P ( X ∣ Y i ) P ( Y i ) P(Y_j|X) = \frac{P(X|Y_j)P(Y_j)}{\sum_{i=1}^kP(X|Y_i)P(Y_i)} P(YjX)=i=1kP(XYi)P(Yi)P(XYj)P(Yj)
由于 "疾病 "和 "健康 "分割了结果的样本空间,我们有
P ( 疾病 ∣ + ) = P ( + ∣ 疾病 ) P ( 疾病 ) P ( + ∣ 疾病 ) P ( 疾病 ) + P ( + ∣ 健康 ) P ( 健康 ) P(疾病|+)=\frac{P(+|疾病)P(疾病)}{P(+|疾病)P(疾病)+P(+|健康)P(健康)} P(疾病+)=P(+疾病)P(疾病)+P(+健康)P(健康)P(+疾病)P(疾病)
重要的是,贝叶斯定理显示,为了计算在测试呈阳性的情况下你患有该疾病的条件概率,你需要知道在没有任何信息的情况下你患有该疾病的 "先验 "(prior)概率 P ( 疾病 ) P(疾病) P(疾病)。也就是说,你需要知道该疾病在你所属人群中的总体发病率。我们前面提到,这是一种罕见的疾病。事实上,只有千分之一的人受到影响,所以 P ( 疾病 ) = 0.001 P(疾病)=0.001 P(疾病)=0.001,这又意味着 P ( 健康 ) = 0.999 P(健康)=0.999 P(健康)=0.999。将这些数值插入上面的方程式中,可以得到
P ( 疾病 ∣ + ) ≈ 0.019 P(疾病|+)\approx 0.019 P(疾病+)0.019
换句话说,尽管测试表面上很可靠,但你真正患有这种疾病的概率仍然低于2%。该疾病如此罕见的事实意味着大多数测试呈阳性的人都是健康的。请注意,该测试当然不是无用的;得到一个阳性结果会使你患这种疾病的概率增加大约20倍。但是将95%的测试准确率解释为患病的概率是不正确的。

image-20230220094914961

贝叶斯过程The Bayesian procedure

上面的例子说明了做贝叶斯推理的一般过程。假设你对某个参数 θ θ θ 感兴趣

  1. 将你对 θ θ θ 的初始信念以先验分布 P ( θ ) P(θ) P(θ) 的形式编码。

  2. 通过实验、观察、查询等方式收集数据 X X X

  3. 使用贝叶斯定理对后验分布更新信念
    P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) P(\theta |X)=\frac{P(X|\theta)P(\theta)}{P(X)} P(θX)=P(X)P(Xθ)P(θ)

  4. 随着更多数据的出现,重复整个过程。

先验,似然,后验Prior, likelihood, posterior

先验Prior

先验分布是无条件分布 P ( θ ) P(θ) P(θ) 。先验分布的目的是在我们看到任何数据之前,捕捉我们对 θ θ θ 的预先存在的知识。在医学测试的例子中,我们用人口中的疾病发病率作为任何特定个体患有该疾病的先验概率。

似然Likelihood

在贝叶斯和频率主义统计学中,给定数据 X X X 的参数 θ θ θ 的似然(Likelihood)是 P ( X ∣ θ ) P(X|θ) P(Xθ)。似然函数在经典统计学中起着如此重要的作用,以至于它有了自己的字母:
L ( θ ∣ X ) = P ( X ∣ θ ) L(\theta|X)=P(X|\theta) L(θX)=P(Xθ)
这种表示法强调了这样一个事实,即对于某些固定数据 X X X ,我们将似然视为 θ θ θ 的函数,等于给定参数 θ θ θ 后变量 X X X 的概率。

下图显示了从标准正态分布中抽取的20个点的随机样本 x x x ,以及均值参数的相应似然函数

love

一般来说,给定一个由 n n n 个独立和来自相同分布 P ( X ∣ θ ) P(X|θ) P(Xθ) 的随机变量 X 1 , . . , X n X_1, . . , X_n X1,..,Xn ,其似然函数为
L ( θ ∣ X 1 , . . , X n ) = P ( X 1 , . . , X n ∣ θ ) = ∏ i = 1 n P ( X i ∣ θ ) \begin{aligned} L(\theta|X_1, . . , X_n) &=P(X_1, . . , X_n|\theta) \\ &= \prod_{i=1}^nP(X_i|\theta) \end{aligned} L(θX1,..,Xn)=P(X1,..,Xnθ)=i=1nP(Xiθ)
在方差为1、均值为未知的正态分布的情况下,这个方程提出了一种可视化似然函数如何产生的方法。想象一下,通过逐渐增加 θ θ θ,将 N ( θ , 1 ) N(θ,1) N(θ1)分布的概率密度函数从左到右滑动。当我们遇到每个样本 X i X_i Xi 时,密度函数将该点从X轴上 “抬起”。上图中间部分的虚线代表数 P ( X i ∣ θ ) P(Xi |θ) P(Xiθ)。它们的乘积正是似然值。

我们可以看到,似然值的最大化是由 N ( θ , 1 ) N(θ,1) N(θ1) 分布的密度能够将最多的点从 x x x轴上抬起来的 θ θ θ 值决定的。可以证明,这个最大化的值是由样本平均值给出的
X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum_{i=1}^n{X_i} X=n1i=1nXi
在这种情况下,我们假设样本均值是参数 θ θ θ 的最大似然估计量。

在贝叶斯推断中,似然性用于量化一组数据 X X X 支持特定参数值 θ θ θ 的程度。基本思想是,如果数据可以由给定的参数值 θ θ θ 以高概率生成,那么这样的 θ θ θ 值在数据眼中是有利的。

最大似然估计是一种估计模型参数的方法,目的在于透过真是观察到的样本信息,找出最有可能产生这些样本结果的模型参数

后验Posterior

贝叶斯推理的目标是通过考虑我们观察到的数据 X X X 来更新我们的先验信念 P ( θ P(θ P(θ )。这个推理过程的最终结果是后验分布 P ( θ ∣ X ) P(θ|X) P(θX) 。贝叶斯定理指定了计算后验的方法,
P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) P(\theta |X)=\frac{P(X|\theta)P(\theta)}{P(X)} P(θX)=P(X)P(Xθ)P(θ)
由于在任何特定的推理问题中,数据是固定的,我们通常只对 θ θ θ 的函数项感兴趣。因此,贝叶斯定理的本质是
P ( θ ∣ X ) ∝ P ( X ∣ θ ) P ( θ ) P(\theta |X)\varpropto{P(X|\theta)P(\theta)} P(θX)P(Xθ)P(θ)
简而言之
后验概率 ∝ 似然值 × 先验概率 后验概率\varpropto 似然值 \times 先验概率 后验概率似然值×先验概率

从先验概率到后验概率

贝叶斯统计的核心思想是利用观察到的数据来更新先验信息。考虑一枚不均匀的硬币,抛出正面的概率为 p p p。这里我们设置为0.6。

这里我们假定 p p p 的先验分布是 B e t a ( α , β ) Beta(α,β) Beta(α,β),在图中粉色曲线代表了先验概率的密度分布函数。这里我们设置为 α = 3.07 , β = 4.65 \alpha = 3.07,\beta = 4.65 α=3.07,β=4.65

当我们重复抛硬币时,我们不断更新关于 p p p 的后验分布。这个后验分布就是我们对 p p p 的最好估计,同时这也是我们相对我们下一次抛硬币结果的先验信息。

3

参考

  1. https://github.com/seeingtheory/Seeing-Theory

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/359548.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

打造一款日志分析工具

一、简介 作为一名安全从业者,网络安全事件的应急响应工作是必不可少的,那么在应急支撑时,针对大量的日志数据便需要借助自动化工具实现快速的归类检测,并提取出所需的关键日志数据。本篇文章主要通过利用python语言编写一款web日…

自带超多工具,好用又免费,这3款手机浏览器你用过了吗

手机浏览器是我们手机中必备的一款软件APP,一款好用的浏览器,可以帮助我们提高工作效率,节省时间。对于懒癌患者来说,手机上安装各种各种的app很麻烦,下面给大家介绍自带超多的工具,好用且免费的浏览器&…

SpringCloud网关Zuul和GateWay区别

getway和zuul没有进行参数调优的时候,getway的性能会远高于zuul。 分析,在空负载的时候,SpringCloud Gateway比zuul 1 性能高50%左右,在模拟处理50ms业务后,,SpringCloud Gateway比zuul 1 性能高9倍左右。 …

嵌入式Qt 开发一个视频播放器

上篇文章:嵌入式 Qt开发一个音乐播放器,使用Qt制作了一个音乐播放器,并在OK3568开发板上进行了运行测试,实际测试效果还不错。 本篇继续来实现一个Qt视频播放器软件,可以实现视频列表的显示与选择播放等,先…

【干货】如何用低代码帮助企业实施OKR?

近年来受疫情的影响,许多企业都开始使用 OKR来进行目标管理。OKR是一套让企业持续保持活力的有效管理工具,能够帮助企业实现目标、激励员工、增加团队凝聚力、减少组织内耗,从而进一步实现创新。但是在实际布局中,很多企业在使用 …

基础面试题 :大端、小端及转换方式

理解网络中大端和小端往往是一道基础面试题 ,这里作为记录和整理,希望能帮到大家 目录 前言 一、字节序 二、什么小端顺序 三、什么大端顺序 四、处理器体系所属网络字节顺序 五、大小端转换 1、大端整形转换为小端 2、小端转换为小端 3、…

知乎x-zse-96 参数补环境

本文精工学习参考 目标链接 aHR0cHM6Ly93d3cuemhpaHUuY29tL3NlYXJjaD90eXBlPWNvbnRlbnQmcT1weXRob24接口分析 参数x-zse-93:相当于版本号 参数x-zse-96:看起来需要破解 参数x-zst-81:请求发现可以置空 综上所述x-zse-96才需要逆向。 参数…

中间件安全—Apache常见漏洞

中间件安全—Apache常见漏洞1.Apache常见漏洞1.1.Apache介绍1.2.Apache HTTPD 换行解析漏洞(CVE-2017-15715)1.2.1.漏洞介绍1.2.2.漏洞环境1.2.2.1.运行漏洞环境1.2.2.2.访问漏洞环境1.2.3.漏洞复现1.2.3.1.拦截1.2.3.2.添加换行1.2.3.3.访问文件1.3.Apa…

[机器学习]卷积神经网络DLC

一、基本结构 CNN的大概模式可以总结为:卷积层池化层全连接层激活函数 而一些比较大型的网络如VGG一般将CNN作为构成单元进行堆叠,而内部卷积核和池化也可以堆叠多个。各个部分的功能如下: 卷积:特征提取 池化:降维和防…

硬件设备 之一 详解 JTAG、SWD 接口、软 / 硬件断点、OpenOCD、J-link

JTAG 和 SWD 在嵌入式开发中可以说是随处可见,他们通常被用来配合 J-Link 、ULINK、ST-LINK 等仿真器在线调试嵌入式程序。此外,还有飞思卡尔芯片中的 Background debug mode(BDM) 接口,Atmel 芯片中的 debugWIRE &…

文本生成图像应用指南【Stable Diffusion】

Stable Diffusion 是一种文本到图像的潜在扩散模型,由来自 CompVis、Stability AI 和 LAION 的研究人员和工程师创建。 它使用来自 LAION-5B 数据库子集的 512x512 图像进行训练。 稳定扩散,生成人脸,也可以在自己的机器上运行,如…

车载技术开发—{Android CarFrameWork}

Android Automotive平台 Android Automotive是通过Android的通用框架,语言和API来实现的一个全栈,开源,高度可定制的平台。 Android Automotive与整个Android生态系统的关系 Android Automotive是Android的一部分。 Android Automotive不是…

pbootcms被黑木马问题(3)

昨天经过同事告知发现了很早之间做的几个企业官方都中木马了,然后看了一下木马情况,跟之间的两次都有所不同,这里记录一下新的木马的清理过程,有遇到的朋友可以借鉴一下。(之前有做过一些防止批量扫站的措施,因为嫌麻烦就没有给这些网站上进行修改&#…

【Spark分布式内存计算框架——Spark SQL】13. 自定义UDF函数

第七章 自定义UDF函数 无论Hive还是SparkSQL分析处理数据时,往往需要使用函数,SparkSQL模块本身自带很多实现公共功能的函数,在org.apache.spark.sql.functions中。SparkSQL与Hive一样支持定义函数:UDF和UDAF,尤其是U…

黑格尔的实践观探究

(江苏大学马克思主义学院 212000)一、引言人的独特性在于实践活动,以及由实践活动带来的人类社会的不断进化与发展。人类的实践史体现了人的全部本质。但是,人类从理论的高度反思自己的实践活动,尤其是在哲学的层面上进…

【基础算法】之 冒泡排序优化

冒泡排序思想基本思想: 冒泡排序,类似于水中冒泡,较大的数沉下去,较小的数慢慢冒起来(假设从小到大),即为较大的数慢慢往后排,较小的数慢慢往前排。直观表达,每一趟遍历,…

大数据框架之Hadoop:MapReduce(三)MapReduce框架原理——shuffle机制

3.3.1Shuffle机制 Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。 3.3.2Partition分区 1、问题引出 要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中&#…

2023春季露营投影怎么选?轻薄投影极米Z6X Pro值得推荐

近年来,露营经济在多重因素的共同助推下快速发展,精致露营的攻略开始占据小红书、微博、朋友圈等各类社交平台,吸引着更多用户种草并加入到露营大军中,而露营经济的强势“破圈”给家用智能投影带来了更多的发展契机。凭借着小巧的…

探访上汽通用武汉奥特能超级工厂

上汽通用汽车在电动化和智能网联化新技术领域投入了700亿大洋,武汉奥特能超级工厂就是其中一个重点项目。这个工厂已经投产,将成为上汽通用汽车的新能源生产基地,加速奥特能平台车型的推出。 最近别克推出了Electra E5,它是别克第…

新品BCM6755A1KFEBG/MT7921LE/MT7921AU WiFi芯片

博通在WiFi市场具有相当的实力。在WiFi6上有下面这几个解决方案:型号:BCM6755 BCM6755A1KFEBG类型:四核1.5GHz CPU封装:BGA批次:新BCM6755和BCM6750还是A7架构,更多的用在中低端型号上。BCM6755和BCM6750 C…