什么是极大似然估计

news2024/10/3 2:15:52

极大似然估计(Maximum Likelihood Estimation, MLE) 是一种统计方法,用于从数据中估计模型参数。它的核心思想是选择那些使得观测数据最可能发生的参数值。换句话说,MLE 寻找能够最大化数据在给定模型下出现的概率(即似然函数)的参数。

核心思想

假设我们有一个参数为 θ \theta θ 的概率分布模型,比如正态分布、伯努利分布等,数据集由 n n n 个样本 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn 组成。极大似然估计的目标是找到参数 θ \theta θ,使得在参数为 θ \theta θ 的情况下,这些数据出现的概率最大。

形式化定义

  1. 似然函数
    给定观测数据 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn 和一个参数 θ \theta θ,似然函数 L ( θ ) L(\theta) L(θ) 表示在参数为 θ \theta θ 的条件下,观测数据的联合概率。对于独立同分布(i.i.d.)的数据,似然函数可以写作:
    L ( θ ) = P ( x 1 , x 2 , … , x n ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta) = P(x_1, x_2, \dots, x_n | \theta) = \prod_{i=1}^n P(x_i | \theta) L(θ)=P(x1,x2,,xnθ)=i=1nP(xiθ)

    这里, P ( x i ∣ θ ) P(x_i | \theta) P(xiθ) 表示在给定参数 θ \theta θ 的情况下,数据 x i x_i xi 的概率或概率密度。

  2. 极大化似然函数
    我们的目标是找到参数 θ \theta θ,使得似然函数 L ( θ ) L(\theta) L(θ) 达到最大值。由于乘法计算可能导致数值上的不稳定性,通常我们会取对数,并最大化对数似然函数(log-likelihood function):
    ℓ ( θ ) = log ⁡ L ( θ ) = ∑ i = 1 n log ⁡ P ( x i ∣ θ ) \ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log P(x_i | \theta) (θ)=logL(θ)=i=1nlogP(xiθ)

    这样可以简化计算并避免数值问题。

  3. 极大似然估计
    我们通过求解以下方程来找到参数 θ \theta θ
    θ ^ = arg ⁡ max ⁡ θ ℓ ( θ ) \hat{\theta} = \arg \max_{\theta} \ell(\theta) θ^=argθmax(θ)

    这就是极大似然估计的核心思想:找到使对数似然函数最大的参数 θ ^ \hat{\theta} θ^

举例说明

1. 伯努利分布的极大似然估计

假设我们有一个二元随机变量 X X X,它服从伯努利分布,参数为 p p p(即 X X X 可能取值为 1 的概率)。我们有一个样本数据集 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn,其中每个 x i x_i xi 都是 0 或 1。我们希望估计参数 p p p,使得这些数据出现的可能性最大。

  • 伯努利分布的概率质量函数为:
    P ( X = x i ∣ p ) = p x i ( 1 − p ) 1 − x i P(X = x_i | p) = p^{x_i} (1 - p)^{1 - x_i} P(X=xip)=pxi(1p)1xi

  • 似然函数为:
    L ( p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i L(p) = \prod_{i=1}^n p^{x_i} (1 - p)^{1 - x_i} L(p)=i=1npxi(1p)1xi

  • 对数似然函数为:
    ℓ ( p ) = ∑ i = 1 n ( x i log ⁡ p + ( 1 − x i ) log ⁡ ( 1 − p ) ) \ell(p) = \sum_{i=1}^n \left( x_i \log p + (1 - x_i) \log (1 - p) \right) (p)=i=1n(xilogp+(1xi)log(1p))

  • 我们对 p p p 求导,并令导数为 0 来求极大值:
    d ℓ ( p ) d p = ∑ i = 1 n x i p − ∑ i = 1 n ( 1 − x i ) 1 − p = 0 \frac{d\ell(p)}{dp} = \frac{\sum_{i=1}^n x_i}{p} - \frac{\sum_{i=1}^n (1 - x_i)}{1 - p} = 0 dpd(p)=pi=1nxi1pi=1n(1xi)=0

  • 通过解这个方程,我们可以得到:
    p ^ = ∑ i = 1 n x i n \hat{p} = \frac{\sum_{i=1}^n x_i}{n} p^=ni=1nxi

    这意味着 p p p 的极大似然估计值是样本中 1 的比例,即 p p p 的估计值是样本中 1 出现的频率。
    本示例更加详细的求解过程

2. 正态分布的极大似然估计

假设我们有一个样本数据集 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn,它们来自一个正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),我们希望估计正态分布的参数 μ \mu μ σ 2 \sigma^2 σ2

  • 正态分布的概率密度函数为:
    f ( x i ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) f(x_i | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) f(xiμ,σ2)=2πσ2 1exp(2σ2(xiμ)2)

  • 似然函数为:
    L ( μ , σ 2 ) = ∏ i = 1 n 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) L(\mu, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) L(μ,σ2)=i=1n2πσ2 1exp(2σ2(xiμ)2)

  • 对数似然函数为:
    ℓ ( μ , σ 2 ) = − n 2 log ⁡ ( 2 π ) − n 2 log ⁡ ( σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 (μ,σ2)=2nlog(2π)2nlog(σ2)2σ21i=1n(xiμ)2

  • 分别对 μ \mu μ σ 2 \sigma^2 σ2 求导,令导数为 0:

    • μ \mu μ
      ∂ ℓ ∂ μ = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) = 0 μ=σ21i=1n(xiμ)=0

      解这个方程可得:
      μ ^ = 1 n ∑ i = 1 n x i \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i μ^=n1i=1nxi

      也就是说, μ \mu μ 的极大似然估计值是样本的均值。

    • σ 2 \sigma^2 σ2
      ∂ ℓ ∂ σ 2 = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 0 \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 = 0 σ2=2σ2n+2σ41i=1n(xiμ)2=0

      解这个方程可得:
      σ ^ 2 = 1 n ∑ i = 1 n ( x i − μ ^ ) 2 \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \hat{\mu})^2 σ^2=n1i=1n(xiμ^)2

      也就是说, σ 2 \sigma^2 σ2 的极大似然估计值是样本的方差。
      本示例更加详细的求解过程

总结

  • 极大似然估计 是通过最大化样本数据在模型下出现的概率来估计模型参数的。
  • 通过对似然函数或对数似然函数求导并找到其最大值,可以找到参数的估计值。
  • 在许多机器学习和统计学问题中,极大似然估计是最常用的参数估计方法之一,特别是在需要从数据中估计概率分布或模型参数时!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2185385.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【python实操】python小程序之过七游戏以及单词单复数分类

引言 python小程序之过7游戏、单词单复数分类 文章目录 引言一、过7游戏1.1 题目1.2 代码1.2.1 while循环1.2.2 for循环1.2.3 调用函数形式 1.3 代码解释 二、单词单复数分类2.1 题目2.2 代码2.3 代码解释 三、思考3.1 过七游戏3.2 单词单复数分类 一、过7游戏 1.1 题目 7的倍…

大模型 LLaMA-Omni 低延迟高质量语音交互,开源!

最近这一两周看到不少互联网公司都已经开始秋招发放Offer。 不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。 最近,我们又陆续整理了很多大厂的面试题,帮助一些球…

python-patterns:Python 设计模式大全

python-patterns 是一个开源的 Python 项目,它提供了各种经典的设计模式的 Python 实现。设计模式是一种针对常见软件设计问题的可复用解决方案,通过使用设计模式,开发者可以编写出结构更加合理、易于维护和扩展的代码。 Python 是一门动态语…

GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

文章目录 题目摘要引言问题陈述相关工作GraphEval:我们的评估方法使用LLM构建知识GraphCorrect:使用GraphEval纠正幻觉实验讨论结论 题目 GraphEval:一个基于知识图的LLM幻觉评估框架 论文地址:https://arxiv.org/abs/2407.10793 摘要 评估大型语言模型(LLM)响应和…

【计算机科研方法指南】- 读书笔记《学术咸鱼自救指南》+于老师科研课

前言简介 因为自己在做计算机科研的时候,一开始很不顺利,所以专门去研究了一些具体的计算机科研方法。这里的方法主要参考了两个资料,一个是《学术“咸鱼”自救指南》,一个是于静老师科研课。 《学术“咸鱼”自救指南》是作者钱…

【微服务】组件、基础工程构建(day2)

组件 服务注册和发现 微服务模块中,一般是以集群的方式进行部署的,如果我们调用的时候以硬编码的方式,那么当服务出现问题、服务扩缩容等就需要对代码进行修改,这是非常不好的。所以微服务模块中就出现了服务注册和发现组件&…

视频创作黑科技!CogVideoX秒生成艺术视频

视频创作黑科技!CogVideoX秒生成艺术视频 CogVideoX上线啦!🎉 它能把文字和图片变成惊艳视频🎥。CogVideoX-5B如同好莱坞导演,快速生成高质量内容⚡,完美捕捉创意细节✨。让你轻松成为视频创作大师&#x…

Linux命令--03----帮助类命令、开关机类命令

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 1.帮助类命令man获取帮助信息help获得shell内置命令的帮助信息 2.开关机类命令2.1 开关机命令一般Linux不会经常进行关机操作,正确的关机流程为: sync>shutdown&…

初识TCP/IP协议

回顾上文 来回顾一下TCP协议的特性,有一道比较经典的题:如何使用UDP实现可靠传输,通过应用程序的代码,完成可靠传输的过程? 原则,TCO有啥就吹啥,引入滑动窗口,引入流量控制&#x…

电子连接器温升仿真教程 二

在《电子连接器温升仿真教程 一》中详细介绍了用内热法做电子连接器温升仿真的操作步骤与方法,本教程将讲解用电流电压法做电子连接器温升仿真。 本教程,将以下面产品为例演示温升仿真方法其操作步骤。 该连接器为电池连接器,其Housing材料为LCP+30%GF,端子材质为铍铜…

IDEA中配置启动类的Active Profiles

如现在有以下三个配置文件 application.yaml application-dev.yaml application-local.yaml 当我在本机启动时,想使用application-local.yaml,而不是application-dev.yaml,那么可以这样配置:(我这是添加启动类一起的&a…

基于深度学习的乳腺癌分类识别与诊断系统

温馨提示:文末有 CSDN 平台官方提供的学长 QQ 名片 :) 1. 项目简介 乳腺癌是全球最常见的癌症之一,早期诊断对于治疗效果至关重要。近年来,深度学习技术在医学图像分析领域取得了显著进展,能够从大量的医学影像数据中自动学习和提…

10.2学习

1.IOC控制反转 IoC(Inverse of Control:控制反转)是⼀种设计思想,就是将原本在程序中⼿动创建对象的控制权,交由Spring框架来管理。 IoC 在其他语⾔中也有应⽤,并⾮ Spring 特有。 ​ IoC 容器是 Spring⽤来实现 IoC …

IDEA 设置自动定位文件

一、场景分析 IDEA 在使用的过程中,发现有时候,打开一个类,它并不能自动帮我们在左侧 Project 树中定位出文件,需要自己手动点击 瞄准 图标。很不方便。 二、解决方法 1、点击 瞄准 图标旁边的 竖三点 2、将 Alwasy Select Opene…

[Linux][进程] 命令行参数

在我们学c 语言时经常会看到各种各样的代码,其中mian函数的参数有许多种,如: int main(){} int main(void){} int main(int argc,char* argv[]){} int main(int argc,char* argv[] , char* env[]){} int argc,char* argv[] 这两个就是命令行参…

10月2日笔记(内网资源探测篇)

内网资源探测 在内网渗透中,测试人员往往需要通过各种内网扫描技术来探测内网资源的情况,为后续的横向渗透做准备,通常需要发现内网存活的主机,并探测主机的操作系统、主机开放了哪些端口、端口上运行了哪些服务、服务的当前版本…

典型模拟滤波器

典型模拟滤波器的幅度函数描述了滤波器在不同频率下的幅度响应特性。 巴特沃斯滤波器(Butterworth Filter) 幅度平方函数: ∣ H ( j Ω ) ∣ 2 1 1 ( Ω Ω c ) 2 N |H(j\Omega)|^2 \frac{1}{1 \left(\frac{\Omega}{\Omega_c}\right)^{…

【leetcode】 45.跳跃游戏 ||

如果我们「贪心」地进行正向查找,每次找到可到达的最远位置,就可以在线性时间内得到最少的跳跃次数。 例如,对于数组 [2,3,1,2,4,2,3],初始位置是下标 0,从下标 0 出发,最远可到达下标 2。下标 0 可到达的…

Python(三)——列表

文章目录 创建列表访问下标遍历列表元素新增元素查找元素删除元素连接列表切片操作 创建列表 创建列表主要有两种方式 [ ]表示一个空的列表 a [] print(type(a)) # <class list> print(a) # []通过list()的方式来创建一个空列表 a list() print(type(a)) # …

Java中的switch分支结构

switch分支结构 switch分支结构1.基本语法2.说明3.流程图4.案例5.注意事项6.练习7.switch和if的比较 switch分支结构 1.基本语法 switch&#xff08;表达式&#xff09;{case 常量1: //当...语句块1;break;case 常量2: 语句块2;break;...case 常量n: 语句块n;break;defaul…