最大似然估计(MLE)VS 最大后验概率估计(MAP)

news2024/11/15 11:34:18

1、概率和统计是一个东西吗?

概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。

一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

显然,本文解释的MLE和MAP都是统计领域的问题。它们都是用来推测参数的方法。为什么会存在着两种不同方法呢?这需要理解贝叶斯思想。我们来看看贝叶斯公式。

2、贝叶斯公式到底在说什么?

有时候,我们想要知道在给定事件B的基础上,计算事件A发生的概率,即 P ( A ∣ B ) P(A|B) P(AB) 。但是,我们可能只能计算P(B|A)。这种问题经常出现在如下场景:在某些证据下,某个事件发生的可能性有多大,比如我们想知道一个人的血液检查结果为阳性,那么他得病的概率有多大?但是,我们只能知道在得病的条件下,血液检查结果呈阳性的概率为95%,即在给定事件下,知道证据发生的概率。

贝叶斯公式可以在知道 P ( B ∣ A ) P(B|A) P(BA)的情况下,计算出 P ( A ∣ B ) P(A|B) P(AB),具体公式为 :
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)
如上贝叶斯公式实现了概率反转,即由 P ( B ∣ A ) P(B|A) P(BA) 得到 P ( A ∣ B ) P(A|B) P(AB)

几点理解

  • 很多时候是因为直接的P(B|A)无法观察到,只能观察到P(A|B),所以可以通过概率反转的方式达到求解P(B|A)的目的。
  • 待补充

相关术语:

  • P(A|B)称为后验概率(posterior),这是我们需要结合先验概率和证据计算之后才能知道的。
  • P(B|A)称为似然(likelihood),在事件A发生的情况下,事件B(或evidence)的概率有多大
  • P(A)称为先验概率(prior), 事件A发生的概率有多大
  • P(B)称为证据(evidence),即无论事件如何,事件B(或evidence)的可能性有多大

先验后验的概念,可以参考笔者文章如何理解先验概率与后验概率

贝叶斯规则给出了一个规则,即将一些先验的信念(贝叶斯认为概率是对某种信念的度量)与观察到的数据结合起来,来更新信念,这个过程也称为“学习”。或者说,我们的信念随着获得的信息增多而发生改变。比如说,我们认为在年终的时候有50%的可能会得到升职;如果我们从老板那里得到了正面且积极的反馈,我们可能会上调这个概率值,反之会下调。随着我们获得信息的增多,我们不断调整我们的估计值,直到它接近真正的答案。

贝叶斯估计例题练习:
在这里插入图片描述

3、似然函数

似然(likelihood)这个词其实和概率(probability)是差不多的意思,Colins字典这么解释:The likelihood of something happening is how likely it is to happen. 你把likelihood换成probability,这解释也读得通。但是在统计里面,似然函数和概率函数却是两个不同的概念(其实也很相近就是了)。

对于这个函数: P ( x ∣ θ ) P(x|\theta) P(xθ),如果 θ \theta θ 是已知确定的, x x x 是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点 x x x,其出现概率是多少。

如果 x x x 是已知确定的, θ \theta θ 是变量,这个函数叫做似然函数(likelihood function),它描述对于不同的模型参数,出现x这个样本点的概率是多少。

4、最大似然估计(MLE)

假设有一个造币厂生产某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。这是一个统计问题,回想一下,解决统计问题需要什么?数据!

于是我们拿这枚硬币抛了10次,得到的数据是:反正正正正反正正正反。我们想求的正面概率 是模型参数,而抛硬币模型我们可以假设是二项分布。

那么,出现实验结果 (即反正正正正反正正正反)的似然函数是多少呢?
f ( x , θ ) = ( 1 − θ ) × θ . . . × θ × ( 1 − θ ) = θ 7 ( 1 − θ ) 3 f(x,\theta) = (1-\theta)\times\theta ...\times \theta \times (1-\theta)=\theta^7(1-\theta)^3 f(x,θ)=(1θ)×θ...×θ×(1θ)=θ7(1θ)3

注意,这是个只关于 θ \theta θ 的函数。而最大似然估计,顾名思义,就是要最大化这个函数。

对似然函数取对数,不会影响该函数的单调性,从而不会影响最后的计算的极值,也可以在一定程度上减少因计算而带来的误差,还可以极大的简化计算。

如果未知参数有多个,则需要用取对数的似然函数对每个参数进行求偏导,使得所有偏导均为0的值,即为该函数的极值点,一般也是其最大似然估计值。

我们可以画出图像:
在这里插入图片描述
可以看出,在 θ = 0.7 \theta=0.7 θ=0.7,似然函数取得最大值。

我们已经完成了对 θ \theta θ 的最大似然估计。

即,抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。

5、最大后验概率估计(MAP)

最大后验(Maximum A Posteriori,MAP)估计可以利用经验数据获得对未观测量的点态估计。它与Fisher的最(极)大似然估计(Maximum Likelihood,ML)方法相近,不同的是它扩充了优化的目标函数,其中融合了预估计量的先验分布信息,所以最大后验估计可以看作是正则化(regularized)的最大似然估计。 最大后验概率就是把他们的假设都进行计算(验算),然后选择其中假设最好的一个,当作最大后验概率。由于 θ \theta θ 的取值范围在0到1之间,有无数种假设,但我们不可能每种假设都进行计算,这个时候,就需要利用一些简单的数学方法,求出最大的那一个,即为最大后验概率。

最大似然估计是求参数 θ \theta θ ,使似然函数 P ( x ∣ θ ) P(x|\theta) P(xθ) 最大。最大后验概率估计则是想求 θ \theta θ 使 P ( x ∣ θ ) P ( θ ) P(x|\theta)P(\theta) P(xθ)P(θ) 最大。求得的 θ \theta θ 不单单让似然函数大, θ \theta θ 自己出现的先验概率也得大。(点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法)

P ( θ ∣ x ) = P ( x ∣ θ ) P ( θ ) P ( x ) P(\theta|x) = \frac{P(x|\theta)P(\theta)}{P(x)} P(θx)=P(x)P(xθ)P(θ)

是一个已知值(实验观察到的数据)假设“投10次硬币”是一次实验,实验做了1000次,“反反正正正反正正正反”出现了 n n n 次,则 P ( x ) = n / 1000 P(x) = n/1000 P(x)=n/1000。总之,这是一个可以由数据集得到的值。

P ( θ ∣ x ) P(\theta|x) P(θx) 即后验概率,这就是“最大后验概率估计”名字的由来。

计算过程示例:将 θ \theta θ 的概率分布假设为均值为0.5,方差为1的正态分布: f ( θ ) = θ 6 ( 1 − θ ) 4 f(\theta)=\theta^6(1-\theta)^4 f(θ)=θ6(1θ)4
则有:
a r g m a x θ   P ( θ ∣ x 0 , x 1 , . . . , x n ) = a r g m a x θ P ( θ ∣ x 0 , x 1 , . . . , x n ∣ θ ) × P ( θ ) argmax_{\theta} \ P(\theta|x_0,x_1,...,x_n)=argmax_\theta P(\theta|x_0,x_1,...,x_n|\theta)\times P(\theta) argmaxθ P(θx0,x1,...,xn)=argmaxθP(θx0,x1,...,xnθ)×P(θ)

由于MAP有:
a r g m a x θ   P ( θ ∣ x 0 , x 1 , . . . , x n ) ∼ a r g m a x θ l n [ P ( θ ∣ x 0 , x 1 , . . . , x n ∣ θ ) × P ( θ ) ] argmax_{\theta} \ P(\theta|x_0,x_1,...,x_n) \sim argmax_\theta ln[P(\theta|x_0,x_1,...,x_n|\theta)\times P(\theta)] argmaxθ P(θx0,x1,...,xn)argmaxθln[P(θx0,x1,...,xnθ)×P(θ)]

带入 θ \theta θ 的正太分布概率密度函数 P ( θ ) P(\theta) P(θ),有

在这里插入图片描述
求导得到 θ \theta θ 的估计值:

在这里插入图片描述
显然在这道题中 θ = 0.5977 \theta = 0.5977 θ=0.5977 ,也就是说,当 θ \theta θ 的密度函数为均值为 0.5,方差为 1 的正态分布时,投该硬币出现正面的概率为0.5977时是可能性最大的。

这里我们回到MLE的数据案例——反正正正正反正正正反,作为对比。

对于投硬币的例子来看,我们认为(”先验地知道“) θ \theta θ 取 0.5 的概率很大,取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识,例如假设 P ( θ ) P(\theta) P(θ) 为均值0.5,方差0.1的高斯函数,如下图:

在这里插入图片描述
P ( x ∣ θ ) P ( θ ) P(x|\theta)P(\theta) P(xθ)P(θ)的函数图像为:
在这里插入图片描述
注意,此时函数取最大值时, θ \theta θ 取值已向左偏移,不再是 0.7。实际上,在 θ = 0.558 \theta=0.558 θ=0.558时函数取得了最大值。即用最大后验概率估计,得到 θ = 0.558 \theta = 0.558 θ=0.558

最后,那要怎样才能说服一个贝叶斯派相信 θ = 0.7 \theta = 0.7 θ=0.7 呢?你得多做点实验…

如果做了 1000 次实验,其中 700 次都是正面向上,这时似然函数为:

在这里插入图片描述
P ( x ∣ θ ) P ( θ ) P(x|\theta)P(\theta) P(xθ)P(θ)的函数图像为:

在这里插入图片描述
θ = 0.696 \theta =0.696 θ=0.696 时函数取得了最大值

这样,就算一个考虑了先验概率的贝叶斯派,也不得不承认得把 θ \theta θ 估计在 0.7 附近了。

一个合理的先验概率假设是很重要的。(通常,先验概率能从数据中直接分析得到)

最大后验的实质就是对参数的每一个可能的取值,都进行极大似然估计,并根据这个取值可能性的大小,设置极大似然估计的权重,然后选择其中最大的一个,作为最大后验估计的结果。

6、最大似然估计和最大后验概率估计的区别

MAP 就是多个作为因子的先验概率 P ( θ ) P(\theta) P(θ)贝叶斯派】。或者,也可以反过来,认为 MLE 是把先验概率 P ( θ ) P(\theta) P(θ) 等于1做计算,即认为 P ( θ ) P(\theta) P(θ) 是均匀分布【频率派】。

Ref:

  [1].最大似然估计(MLE)VS 最大后验概率估计(MAP)
  [2].贝叶斯公式简介及示例讲解
  [3].如何理解先验概率与后验概率

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/623959.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

普通学校计算机毕业生,从事网络安全行业可以吗?

如果你是普通大学、大专的计算机专业应届生,还在迷茫找工作,这篇内容希望你能认真看完,很可能会决定你的人生方向。 现在的高薪行业,除了明星就只能是程序员了。不信你问问身边的人想学哪个专业,他们肯定不假思索的说…

C++基础(三) —— 内存分配

文章目录 概念01 物理地址内存的分配与释放02 虚拟用户进程空间内存的分配与释放 03 allocator模板类04 new delete05 malloc free06 strcpy 与 memcpy 与 memsetstrcpymemcpymemset 概念 01 物理地址内存的分配与释放 主要采用链表结构 使用了一个名叫page的结构体管理物理…

基于nodejs实现text/event-stream简单应用案例,SSE

基于nodejs实现text/event-stream简单应用案例,SSE text/event-stream代码实现服务器端前端 效果 text/event-stream 是一种用于服务器向客户端推送事件的媒体类型(Media Type)。它是基于 HTTP 协议的一种流式传输技术,也被称为 …

揭秘新一代云数仓技术架构与最佳实践

从传统数仓到湖仓一体,历经三十多年发展,技术的浪潮快速迭代,以云原生数仓为中心的现代数据栈时代已然到来。 背后的核心的原因在于,企业正在加速走向数字化、智能化,对数据的应用也提出了全新要求,特别是对…

每日一练 | 华为认证真题练习Day55

1、RSTP协议配置BPDU中的Flag字段使用了哪些STP协议未使用的标志位?(多选) A. Agreement B. TCA C. TC D. Proposal 2、RSTP中Backup端口可以替换发生故障的根端口。 A. 对 B. 错 3、如下图所示的网络,在RouterA设备里面存在…

更适合中国打工人体质的报表工具,零代码自动生成老板满意模板!

“中国职场上大家公认最头疼的是什么?” “加班?裁员?薪资?” “一切的根源来源于哪?” “是因为做大大小小报表加班到深夜、是同事都在卷报表制作有人只能被动裁员,也是千篇一律的报表汇报决定了这职业…

FreeRTOS学习笔记(五)——应用开发(三)

文章目录 0x01 软件定时器应用场景定时器精度运作机制软件定时器控制模块函数接口xTimerCreate()prvInitialiseNewTimer()xTimerStart()xTimerGenericCommand()xTimerStartFromISR()xTimerStop()xTimerStopFromISR()xTimerDelete()软件定时器任务创建以及执行原理软件定时器实验…

如何优化档案库房管理?一招学会轻松提升效率

在现代企业运营中,档案库房扮演着重要的角色,承载着大量宝贵的纸质档案资料。这些档案包含着企业的历史、客户信息、法律文件等重要数据,对于企业的正常运转和决策制定至关重要。然而,传统的档案库房管理方式存在一系列的挑战和难…

深度刨析指针Advanced 1

作者主页:paper jie的博客_CSDN博客-C语言,算法详解领域博主 本文作者:大家好,我是paper jie,感谢你阅读本文,欢迎一建三连哦。 本文录入于《系统解析C语言》专栏,本专栏是针对于大学生,编程小白…

浅谈智能微电网供电系统的谐波治理

摘要:智能微电网供电系统的特性容易引发谐波,而谐波导致电力损耗加大,降低供电质量。本文从谐波的产 生原因和危害做出详细阐述,并结合智能微电网提出了治 理谐波的方法和措施。 关键词:智能微电网;谐波危害…

手术麻醉信息管理系统源码:全面监护,支持多设备采集

手术、麻醉是医院非常重要的一个组成部分,外科医生为病人进行手术的好与坏直接会危及到病人的生命,所以病人在手术麻醉过程中每一个环节都是非常重要的。随着现在高科技的发展,大量的医疗监视辅助仪器设备在手术过程中也得到广泛的应用&#…

Jenkins使用Docker(Podman)安装部署web应用

https://blog.csdn.net/onePageKownAll/article/details/128182290 https://blog.csdn.net/weixin_45647685/article/details/127825728 https://zhuanlan.zhihu.com/p/562495608 最终效果:在jenkins对某个项目进行构建,jenkins先通过git拉取最项目的…

MySQL基本知识复习补充

MySQL基本知识复习补充 SQL分类 DDL:数据定义语言。create、alter、drop、rename、truncate(清空表) DML:数据操作语言。insert、delete、update、select DCL:数据控制语言。commit、rollback、savepoint、grant、revoke 因为查询语句使…

最后机会!桥接 LAND 可以获得返还奖励!

经过 1 年的服务,The Sandbox 向我们的社区成员分发了超过 40 万 SAND,LAND 桥接返还奖励计划即将结束。 该计划是为了减轻土地持有者从以太坊桥接到 Polygon 的成本。每块土地的桥接都可获得 10 SAND 的奖励。 最后机会!再次呼吁各位桥接 LA…

从小白到大神之路之学习运维第36天---第三阶段---mysql数据库之企业级mysql部署方案

第三阶段基础 时 间:2023年6月8日 参加人:全班人员 内 容: 企业级mysql部署方案 目录 企业级MySQL部署方案 企业级mysql部署主要步骤 Linux系统初始化设置(做公司服务器) 企业级MySQL高可用集群部署方案 企业…

Keysight是德MSOS604A高清晰度示波器1 GH

Keysight是德MSOS604A S系列示波器配备 6 GHz 存储器、15 英寸 XGA 电容触摸屏和 10 位模数转换器。主要特性与技术指标 1 GHz带宽和平坦的频率响应确保高信号保真度 20 GSa/s 最大采样率 10 位模数转换器(ADC)保证高垂直分辨率 低噪声前端&#xff…

【React】setState原理,SCU,不可变对象,Ref,受控组件,高阶组件

❤️ Author: 老九 ☕️ 个人博客:老九的CSDN博客 🙏 个人名言:不可控之事 乐观面对 😍 系列专栏: 文章目录 setState原理setState异步更新 SCU不可变对象RefRef获取DOMRef获取组件 受控组件高阶组件(HOC)作…

告别 Spread 运算符:使用默认 Composer

在 JavaScript 中处理对象时,通常需要为空的strings// objects、或属性设置默认值。在处理嵌套对象时,这会变得更加复杂并且需要复杂的编程逻辑。然而,有了“ default-composer ”库,这项任务变得简单易行。arraysnullundefined …

零瑕疵全核心,这份RocketMQ笔记仅用330页直接封神

RocketMQ天生为金融互联网领域而生,追求高可靠、高可用、高并发、低延迟 RocketMQ在阿里集团也被广泛应用在订单,交易,充值,流计算,消息推送,日志流式处理,binglog分发等场景 其主要功能有&am…

怎样快速选择正确的可视化图表?

数据可视化的图表类型十分丰富,好的图表可以有效、清晰地呈现数据的信息。对于用户而言,选择正确的图表是十分关键的,不仅可以达到“一图胜千言”的效果,而且会直接影响分析的结果。 用户选择正确的数据可视化图表前,…