【王木头】最大似然估计、最大后验估计

news2025/1/10 23:28:44

目录

一、最大似然估计(MLE)

二、最大后验估计(MAP)

三、MLE 和 MAP 的本质区别

四、当先验是均匀分布时,MLE 和 MAP 等价

五、总结


本文理论参考王木头的视频:

贝叶斯解释“L1和L2正则化”,本质上是最大后验估计。如何深入理解贝叶斯公式?_哔哩哔哩_bilibiliicon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1fR4y177jP/?spm_id_from=333.999.0.0&vd_source=ecbdfcacb078d0e3626e61248866cdc7

一、最大似然估计(MLE)

先读文章,里面有最大似然估计的例子和分析。

【王木头·从感知机到神经网络】-CSDN博客icon-default.png?t=O83Ahttps://blog.csdn.net/m0_56997192/article/details/142876334?spm=1001.2014.3001.5502在最大似然估计中,有两个不严谨的地方:

1、在上文抛硬币的例子中,已有结果X,求某先验 \theta _{i} 的概率 P( \theta _{i}|X) ,在计算时我们把P( \theta _{i}|X) 假设为了 P(X|\theta _{i}) ,实际上P( \theta _{i}|X)\neq P(X|\theta _{i}),但我们最大似然确认为他们相等了,我们想要求的是已确定某个结果,哪个先验的情况下概率最大;但我们实际求的是某个先验时发生事件的概率的最大值,

即目的是求      max \ P( \theta _{i}|X)

但实际求的是   max \ P(X| \theta _{i})P(X| \theta _{i})被称为似然值或似然函数,记为L( \theta _{i}|X)

似然函数为:L_{X}(\theta )=L(\theta |X)=P(X|\theta )

最大似然估计为:\theta =arg\ \underset{\theta }{max}L(\theta |X)=arg\ \underset{\theta }{max}P(X|\theta )

想到这,我似乎想到了”似然“两个字的起名原因,我们要解决问题,就要求出P( \theta _{i}|X),但P( \theta _{i}|X)无法直接求出,所以我们选用了一个与 P( \theta _{i}|X)  “ 相似 ” 的 P(X|\theta _{i}),所以P(X|\theta _{i})叫做似然值,“ 相似 ”的对象是 P( \theta _{i}|X)

2、另一个王木头提到的是:

最大似然估计为:\theta =arg\ \underset{\theta }{max}L(\theta |X)=arg\ \underset{\theta }{max}P(X|\theta )中的 \theta 是永远无法确定的,但我们把概率最大的 \theta 跳出来人为规定他就是系统本来就有的属性,这个点我不理解,不过我感觉没什么用。

二、最大后验估计(MAP)

在最大似然估计中,有一个不严谨的地方是让 P( \theta _{i}|X)= P(X|\theta _{i}),实际上他们是不相等的,我们要求的是 P( \theta _{i}|X) 但最大似然估计中求的是最大的 P(X|\theta _{i}) ,最大后验估计解决了这个不严谨的问题。即由贝叶斯公式:

将不能计算的 P( \theta|X) 转化为   

                                                ​​​​​​​        ​​​​​​​        p(\theta | X) = \frac{p(X | \theta) p(\theta)}{p(X)}

其中:

  • p(X | \theta) 是似然函数;
  • p(\theta) 是先验分布;
  • pp(X) 是边际似然(可以视为常数,与优化无关)。

因此,MAP估计的目标可以等价于最大化 p(X | \theta) p(\theta)

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) p(\theta)

在对数形式下,MAP可以写成:

        ​​​​​​​        ​​​​​​​        \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} \left( \log p(X|\theta) + \log p(\theta) \right)

最大后验估计MAP的特点:

  • 考虑先验信息:MAP结合了观测数据和参数的先验知识。先验信息通过 p(\theta) 反映了我们对参数可能取值的先验信念。
  • 贝叶斯统计:MAP是贝叶斯估计方法的一种,将参数视为随机变量,通过观测数据更新我们对参数的信念。
  • 适用于小样本数据:MAP可以在样本较少的情况下引入先验信息,提供稳定的估计。

三、MLE 和 MAP 的本质区别

从本质上来说,MLE 和 MAP 的主要区别在于:

  • 先验的使用

    • MLE 只基于数据的似然函数进行参数估计,不考虑任何先验信息。
    • MAP 则通过先验分布 p(\theta) 将先验信息纳入估计中,因此 MAP 是贝叶斯估计的一种。
  • 适用场景的差异

    • MLE 在大样本情况下表现很好,因为在大样本极限下,观测数据对估计的影响远大于先验。
    • MAP 更适合小样本或需要引入先验信息的情况,因为先验可以在样本较少时提供稳定性,避免估计过于依赖有限的观测数据。
  • 计算的差异

    • MLE 的目标是最大化似然函数 p(X|\theta)
    • MAP 的目标是最大化后验概率 p(\theta|X),相当于最大化 p(X|\theta) p(\theta)

四、当先验是均匀分布时,MLE 和 MAP 等价

值得注意的是,如果先验分布 p(\theta) 是均匀的(即假设所有参数值的先验概率相同),则 p(\theta) 是一个常数,这样 MAP 的目标函数就变为:

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) \times 常数

在这种情况下,最大化  (p(X|\theta) \times 常数)    等价于最大化 p(X|\theta),因此 MAP 和 MLE 会得到相同的结果。

这意味着,在没有先验或先验均匀的情况下,MAP 退化为 MLE。因此,MAP 可以被视为 MLE 的一种推广,它允许我们在估计中融入先验信息。

五、总结

本质区别在于:

  • 最大似然估计MLE  只依赖数据的似然,不使用先验,是一种频率派的估计方法
  • 最大后验估计MAP  同时考虑数据的似然和参数的先验信息,是一种贝叶斯派的估计方法

总结公式

  • 最大似然估计MLE\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} p(X|\theta)
  • 最大后验估计MAP\hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) p(\theta)

在有先验信息的情况下,MAP 能够更好地利用先验信息对估计进行约束,而 MLE 则完全依赖观测数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2237812.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从0到1基于LangChain制作一个AI猫娘

前言: 看到B站上的AIVtuber的项目落地了,就心血来潮想制作一个AI的猫娘供自己使用,顺便出一个简单的教程,跳过理论,直接实践,作者也还在学习摸索中,所以有错误可以直接在评论区指正。&#xff0…

Vue全栈开发旅游网项目(7)-搜索界面开发及其接口联调

1.搜索界面开发 1.1 模糊查询 文件地址:pycharm- class SightListView(ListView):paginate_by 5def get_queryset(self):#is_validTrue:表中is_valid列,有值则被查询出来query Q(is_validTrue)#1.获得热门景点is_hot self.request.GET.…

python识别ocr 图片和pdf文件

#识别图片 pip3 install paddleocr pip3 install paddlepaddle#识别pdf pip3 install PyMuPDF 重点:路径不能有中文,不然pdf文件访问不了 from paddleocr import PaddleOCR from rest_framework.response import Response from rest_framework.views im…

量化分析工具日常操作日记-5-通合科技

使用量化分析微信小程序工具“梦想兔企业智能风险分析助手”日常操作日记-5-军工-通合科技(300491)。 周末国家新政策,要大力支持军工行业,我用工具挖掘了两个低位股,供大家参考。通合科技(300491&#xff…

详解基于C#开发Windows API的SendMessage方法的鼠标键盘消息发送

在C#中,SendMessage方法是一个强大的工具,它允许我们与Windows API交互,模拟键盘和鼠标事件。本文将详细介绍如何使用SendMessage方法来发送鼠标和键盘消息。 1. SendMessage方法概述 SendMessage是Windows API中的一个函数,它用…

CSS教程(三)- CSS 三大特性

1. 层叠性 介绍 多组CSS样式共同作用于一个元素,就会出现 覆盖(层叠) 另一个冲突的样式。 层叠原则 样式冲突:遵循就近原则(哪个样式离结构近,就执行哪个样式) 样式不冲突,就不会重…

CyclicBarrier使用详解及遇到的坑

上一篇文章讲的是关于是使用CountDownLatch实现生成年底报告遇到的问题,这个计数器和CyclicBarrier也有类似功能,但是应用场景不同。 一、应用场景 CountDownLatch: 有ABCD四个任务,ABC是并行执行,等ABC三个任务都执行完…

Java-I/O框架14:Properties集合及使用

视频链接:16.32 Properties使用(2)_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Tz4y1X7H7?spm_id_from333.788.player.switch&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5&p32 1.Properties集合 特性: 存储…

Windows下mysql数据库备份策略

Windows下mysql的增量备份和全量备份,并利用schtasks设置定时任务执行bat脚本。 一、备份要求 序号 备份类型 备份频次 备份时间 1 增量备份 每周一-每周六各一次 18:00:00 2 全量备份 每周日一次 18:00:00 二、备份方法 2.1增量备份 2.1.1准备工作…

架构师备考-概念背诵(软件工程)

软件工程 软件开发生命周期: 软件定义时期:包括可行性研究和详细需求分析过程,任务是确定软件开发工程必须完成的总目标,具体可分成问题定义、可行性研究、需求分析等。软件开发时期:就是软件的设计与实现,可分成概要设计、详细设计、编码、测试等。软件运行和维护:就是…

【Linux】Linux入门实操——vim、目录结构、远程登录、重启注销

一、Linux 概述 1. 应用领域 服务器领域 linux在服务器领域是最强的,因为它免费、开源、稳定。 嵌入式领域 它的内核最小可以达到几百KB, 可根据需求对软件剪裁,近些年在嵌入式领域得到了很大的应用。 主要应用:机顶盒、数字电视、网络…

【Java项目】基于SpringBoot的【生鲜交易系统】

技术简介: 系统软件架构选择B/S模式、java技术和MySQL数据库等,总体功能模块运用自顶向下的分层思想。 系统简介: 考虑到实际生活中在生鲜交易方面的需要以及对该系统认真的分析,将系统权限按管理员,用户这两类涉及用户划分。 (…

AI Weekly『11月4-10日』: Anthropic发布Claude 3.5 Haiku,腾讯开源混元-Large模型!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,AI工…

贪心算法day3(最长递增序列问题)

目录 1.最长递增三元子序列 2.最长连续递增序列 1.最长递增三元子序列 题目链接:. - 力扣(LeetCode) 思路:我们只需要设置两个数进行比较就好。设a为nums[0],b 为一个无穷大的数,只要有比a小的数字就赋值…

vue实现图片无限滚动播放

本人vue新手菜鸡,文章为自己在项目中遇到问题的记录,如有不足还请大佬指正 文章目录 实现效果代码展示总结 因为刚接触vue,本想着看看能不能用一些element的组件实现图片的轮播效果,尝试使用过element-UI里的走马灯Carouse&#x…

[ 内网渗透实战篇-2 ] 父域子域架构的搭建与安装域环境判断域控定位组策略域森林架构配置信任关系

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

Follow软件的使用入门教程

开篇 看到很多兄弟还不知道怎么用这个当下爆火的浏览器!在这里简单给需要入门的小伙伴一些建议: 介绍 简单解释一下,RSS 意思是简易信息聚合,用户可以通过 RSS 阅读器或聚合工具自主订阅并浏览各个平台的内容源,不用…

esp32学习:用虫洞ESP32开发板,快速实现无线图传

我们的虫洞ESP32-S3-EYE开发板,能够完美运行esp who AI代码,所以实现无线图传那是非常容易的,我们先看看esp who代码库中examples目录: 里面有比较多的web例程,在这些例程下,稍作修改,就可以快速…

最新三维视觉下的扩散模型综述——Diffusion Models in 3D Vision: A Survey

目录 摘要 一、引言 二、扩散模型简介 A.扩散模型的介绍 B.扩散模型的数学基础 C.扩散模型的变体 D.三维视觉中的生成过程 三、三维视觉基础 A.三维表示 B.三维视觉中的深度学习方法 C.3D视觉中的挑战 四、三维扩散生成任务 A.无条件生成 B.图像到三维 C.文本到…

JavaSE:运算符 (学习笔记)

目录 一,算术运算符 【1】 共同点: 【2】 不同点: 二,关系运算符 三,逻辑运算符 2,&和&&的区别和联系 { |和||的区别和联系 }---两题类似 四,赋值运算符 五,拓展…