EM算法总结

news2024/10/6 3:21:04

目录

一。Jensen不等式:若f是凸函数

二。最大似然估计 

三。二项分布的最大似然估计

四。进一步考察 

1.按照MLE的过程分析 

2.化简对数似然函数 

3.参数估计的结论 

4.符合直观想象

五。从直观理解猜测GMM的参数估计 

1.问题:随机变量无法直接(完全)观察到 

2.从直观理解猜测GMM的参数估计 

3.建立目标函数 

4.第一步:估算数据来自哪个组份 

5.估计每个组份的参数 

六。EM算法的提出  

1.通过最大似然估计建立目标函数

 2.问题的提出​编辑

3.Jensen不等式

4.寻找尽量紧的下界 

5.进一步分析

七。EM算法整体框架 

八。从理论公式推导GMM 

1.E-step 

2.M-step 

3.对均值求偏导 

4.高斯分布的均值 

5.高斯分布的方差:求偏导,等于0 

6.多项分布的参数 

7.拉格朗日乘子法 

8.求偏导,等于0 

9.总结

九。pLSA模型 

1.D代表文档,Z代表主题(隐含类别),W代表单词;

2.最大似然估计:wj在di中出现的次数​编辑 

3.目标函数分析  

4.求隐含变量主题zk的后验概率 

5.分析似然函数期望  

6.关于参数P(zk|di)P(wj|zk) 的似然函数期望 

7.完成目标函数的建立 

8.目标函数的求解 

9.分析第一个等式

10.同理分析第二个等式 

11.pLSA的总结 

12. pLSA进一步思考


一。Jensen不等式:若f是凸函数

经典的K-means聚类方法,能够非常方便的将未标记的样本分成若干簇; 
但无法给出某个样本属于该簇的后验概率。

其他方法可否处理未标记样本呢?  

二。最大似然估计 

找出与样本的分布最接近的概率分布模型。简单的例子 
10次抛硬币的结果是:正正反正正正反反正正

假设p是每次抛硬币结果为正的概率。则:得到这样的实验结果的概率是: 

最优解是:p=0.7  

三。二项分布的最大似然估计

投硬币试验中,进行N次独立试验,n次朝上,N-n次朝下。 

假定朝上的概率为p,使用对数似然函数作为目标函数: 

四。进一步考察 

若给定一组样本x1,x2…xn,已知它们来自于高斯分布N(μ,σ),试估计参数μ,σ。  

1.按照MLE的过程分析 

高斯分布的概率密度函数: 

将Xi的样本值xi带入,得到: 

 

2.化简对数似然函数 

 

3.参数估计的结论 

 

4.符合直观想象

上述结论和矩估计的结果是一致的,并且意义非常直观:样本的均值即高斯分布的均值,样本的伪方差即高斯分布的方差。  

五。从直观理解猜测GMM的参数估计 

1.问题:随机变量无法直接(完全)观察到 

随机挑选10000位志愿者,测量他们的身高:若样本中存在男性和女性,身高分别服从N(μ1,σ1)和N(μ2,σ2)2)的分布,试估计μ1,σ1,1,μ2,σ2 。

给定一幅图像,将图像的前景背景分开 

无监督分类:聚类/EM 

2.从直观理解猜测GMM的参数估计 

随机变量X是有K个高斯分布混合而成,取各个高斯分布的概率为π1π2... πK,第i个高斯分布的均值为μi,方差为Σi。若观测到随机变量X的一系列样本x1,x2,...,xn,试估计参数π,μ,Σ。 

3.建立目标函数 

由于在对数函数里面又有加和,无法直接用求导解方程的办法直接求得最大值。为了解决这个问题,我们分成两步。

4.第一步:估算数据来自哪个组份 

估计数据由每个组份生成的概率:对于每个样本xi,它由第k个组份生成的概率为 

 

上式中的μ和Σ也是待估计的值,因此采样迭代法:在计算γ(i,k)时假定μ和Σ已知; 

        需要先验给定μ和Σ。 

        γ(i,k) 亦可看成组份k在生成数据xi时所做的贡献。 

5.估计每个组份的参数 

对于所有的样本点,对于组份k而言,可看做生成了 这些点。组份k是一个标准的高斯分布,利用上面的结论:  

六。EM算法的提出  

假定有训练集  包含m个独立样本,希望从中找到该组数据的模型p(x,z)的参数。

1.通过最大似然估计建立目标函数

取对数似然函数 

 

 2.问题的提出

z是隐随机变量,不方便直接找到参数估计。策略:计算l(θ)下界,求该下界的最大值;重复该过程,直到收敛到局部最大值。  

3.Jensen不等式

 

4.寻找尽量紧的下界 

为了使等号成立 

 

5.进一步分析

 

七。EM算法整体框架 

 

八。从理论公式推导GMM 

随机变量X是有K个高斯分布混合而成,取各个高斯分布的概率为φ1φ2... φK,第i个高斯分布的均值为μi,方差为Σi。若观测到随机变量X的一系列样本x1,x2,...,xn,试估计参数φ,μ,Σ。 

1.E-step 

2.M-step 

将多项分布和高斯分布的参数带入: 

 

3.对均值求偏导 

 

4.高斯分布的均值 

令上式等于0,解的均值: 

 

5.高斯分布的方差:求偏导,等于0 

 

6.多项分布的参数 

考察M-step的目标函数,对于φ,删除常数项 

 

得到 

 

7.拉格朗日乘子法 

由于多项分布的概率和为1,建立拉格朗日方程

  

求解的φi一定非负,不用考虑φi≥0这个条件 

8.求偏导,等于0 

 

9.总结

对于所有的数据点,可以看作组份k生成了这些点。组份k是一个标准的高斯分布,利用上面的结论: 

 

九。pLSA模型 

基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数。  

1.D代表文档,Z代表主题(隐含类别),W代表单词;

        P(di)表示文档di的出现概率

        P(zk|di)表示文档di中主题zk的出现概率

        P(wj|zk)表示给定主题zk出现单词wj的概率

每个主题在所有词项上服从多项分布,每个文档在所有主题上服从多项分布。

整个文档的生成过程是这样的:

        以P(di)的概率选中文档di 

        以P(zk|k|di)的概率选中主题zk

        以P(wj|zk)的概率产生一个单词wj 

观察数据为(di,i,wj)对,主题zk是隐含变量。 

(di,wj)的联合分布为 

对应了两组多项分布,而计算每个文档的主题分布,就是该模型的任务目标。  

2.最大似然估计:wj在di中出现的次数 

 

3.目标函数分析  

4.求隐含变量主题zk的后验概率 

 

5.分析似然函数期望  

在(di,wj ,zk)已知的前提下,求关于参数P(zk|di)、P(wj|zk) 的似然函数期望的最大值,得到最优解P(zk|di)、P(wj|zk) ,带入上一步,从而循环迭代; 

6.关于参数P(zk|di)P(wj|zk) 的似然函数期望 

7.完成目标函数的建立 

 

显然,这是只有等式约束的求极值问题,使用Lagrange乘子法解决。  

8.目标函数的求解 

 

9.分析第一个等式

 

10.同理分析第二个等式 

 

11.pLSA的总结 

pLSA应用于信息检索、过滤、自然语言处理等领域,pLSA考虑到词分布和主题分布,使用EM算法来学习参数。 
虽然推导略显复杂,但最终公式简洁清晰,很符合直观理解,需用心琢磨;此外,推导过程使用了EM算法,也是学习EM算法的重要素材。  

12. pLSA进一步思考

pLSA不需要先验信息即可完成自学习——这是它的优势。如果在特定的要求下,需要有先验知识的影响呢? 

答:LDA模型;

        三层结构的贝叶斯模型 
        需要超参数 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/360311.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL90 纠错3

描述OrderItems表含有order_num订单号order_numa002a002a002a004a007【问题】将下面代码修改正确后执行SELECT order_num, COUNT(*) AS items FROM OrderItems GROUP BY items HAVING COUNT(*) > 3 ORDER BY items, order_num;【示例结果】返回订单号order_num和出现的次数i…

数据结构之算法的时间复杂度和空间复杂度

本章重点: 1.算法效率 2.时间复杂度 3.空间复杂度 4. 常见时间复杂度以及复杂度oj练习 目录 1.算法效率 1.2算法的复杂度 2.时间复杂度 2.1 时间复杂度的概念 2.2 大O的渐进表示法 2.3常见时间复杂度计算举例 3.空间复杂度 4. 常见复杂度对比 5.复杂度…

在VMware Workstation中配置固定IP、在VMware Fusion中配置固定IP

1、在VMware Workstation中配置固定IP 配置固定IP需要2个大步骤: 1.在VMware Workstation(或Fusion)中配置IP地址网关和网段(IP地址的范围) 首先让我们,先进行第一步,跟随图片进行操作 现在进…

Pthreads实验

实验一&#xff1a;主线程与子线程 pthread_create函数&#xff1a; 1、简介&#xff1a;pthread_create是UNIX环境创建线程的函数 2、头文件&#xff1a;#include <pthread.h> 3、函数声明&#xff1a; int pthread_create(pthread_t* restrict tidp , const pthread_a…

java面试题-JUC锁

1.介绍下LockSupport&#xff1f;LockSupport 是 Java 并发包中的一个工具类&#xff0c;用于创建锁和其他同步类的基本线程阻塞原语。它也是 J.U.C 中的一个核心基础类。相较于 Object.wait() 和 Object.notify()&#xff0c;LockSupport 可以更加灵活地对线程进行阻塞和唤醒操…

以学校数据模型为例,掌握在DAS下使用GaussDB

文章目录题目具体操作一、表的创建二、表数据的插入三、数据查询目的&#xff1a; 这里以学校数据库模型为例&#xff0c;介绍GaussDB数据库、表等常见操作&#xff0c;以及SQL语法使用的介绍。题目 假设A市B学校为了加强对学校的管理&#xff0c;引入了华为GaussDB数据库。 在…

如何利用ChatGPT学习量化投资?

引言最近&#xff0c;ChatGPT持续火了很长时间&#xff0c;占领各大热点和头版头条&#xff0c;成为A股开年以来最大的热点之一。ChatGPT是OpenAI开发的一种语言生成模型&#xff0c;可以理解为智能问答机器人。最近围绕量化投资在上面试了很多问题&#xff0c;大部分回答还是很…

基于DSP+FPGA的机载雷达伺服控制系统的硬件设计与开发

机载雷达是以飞机为载体的各种雷达天线的总称&#xff0c;主要用于空中侦察、警戒、保 证航行准确与安全[1]。随着航空航天技术的飞速发展&#xff0c;以及微电子、计算机和高速集 成电路等新型技术在军事领域的广泛应用[2]&#xff0c;各国都研制出了许多新型战机和导弹,机 载…

docsify在线文档支持pdf查看

目录 步骤一&#xff1a;添加插件 步骤二&#xff1a;添加pdf地址 步骤三&#xff1a;成果展示 docsify是一个在github上很好用的文档转换网页的工具&#xff0c;但是大部分情况我们都是使用的markdown文件。最近想把pdf文档也能支持在这上面展示&#xff0c;研究后总结一下…

零信任-微软零信任概念补充(13)

​零信任是一种安全策略。 它不是产品或服务&#xff0c;而是设计和实现以下一组安全原则的方法&#xff1a; 显式验证使用最小特权访问假定数据泄露 零信任的指导原则 显式验证 使用最小特权 访问假定数据泄露 始终根据所有可用的数据点进行身份验证和授权。 使用实时和恰…

内网渗透(四十五)之横向移动篇-WinRM远程执行命令横向移动

系列文章第一章节之基础知识篇 内网渗透(一)之基础知识-内网渗透介绍和概述 内网渗透(二)之基础知识-工作组介绍 内网渗透(三)之基础知识-域环境的介绍和优点 内网渗透(四)之基础知识-搭建域环境 内网渗透(五)之基础知识-Active Directory活动目录介绍和使用 内网渗透(六)之基…

代码随想录【Day20】| 654. 最大二叉树、617. 合并二叉树、700. 二叉搜索树中的搜索、98. 验证二叉搜索树

654. 最大二叉树 题目链接 题目描述&#xff1a; 给定一个不含重复元素的整数数组。一个以此数组构建的最大二叉树定义如下&#xff1a; 二叉树的根是数组中的最大元素。 左子树是通过数组中最大值左边部分构造出的最大二叉树。 右子树是通过数组中最大值右边部分构造出的最…

leaflet 根据一组点的值生成凹包,并在地图上显示(081)

第081个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+leaflet中根据提供的多个点,利用turf生成凹包。 直接复制下面的 vue+openlayers源代码,操作2分钟即可运行实现效果. 文章目录 示例效果配置方式示例源代码(共88行)安装插件相关API参考:专栏目标示例效果 配置…

1631_MIT 6.828 lab1 HW的部分尝试与总结

全部学习汇总&#xff1a; GreyZhang/g_unix: some basic learning about unix operating system. (github.com) 其实很多尝试我之前自己都做过了&#xff0c;这里就可以直接跳过或者简单提一下。 这个环境的搭建已经完成了&#xff0c;而且早就做了很多尝试了。之前的笔记中记…

设计模式-第3章(设计原则)

设计原则单一职责原则开放-封闭原则依赖倒转原则单一职责原则 设计模式中有一个非常重要的原则 — 单一职责。 单一职责原则&#xff08;SRP&#xff09;&#xff1a;就一个类而言&#xff0c;应该仅有一个引起它变化的原因。 我们在做编程的时候&#xff0c;很自然地就会给一…

「TCG 规范解读」第七章 TPM工作组 TPM 总结

可信计算组织&#xff08;Ttrusted Computing Group,TCG&#xff09;是一个非盈利的工业标准组织&#xff0c;它的宗旨是加强在相异计算机平台上的计算环境的安全性。TCG于2003年春成立&#xff0c;并采纳了由可信计算平台联盟&#xff08;the Trusted Computing Platform Alli…

异步执行结果-Callable、Future、FutureTask

Callable 实现Runnable接口的任务执行没有返回值&#xff0c;如果我们希望线程运算后将结果返回&#xff0c;应该使用Callable。Callable代表有返回值的任务。 class CallTask implements Callable<String> {Overridepublic String call() throws Exception {return Th…

Python基于遥感影像的文件名称将不同文件复制到对应的文件夹中

本文介绍基于Python语言&#xff0c;针对一个文件夹下的大量栅格遥感影像文件&#xff0c;基于其各自的文件名&#xff0c;分别创建指定名称的新文件夹&#xff0c;并将对应的栅格遥感影像文件复制到不同的新文件夹下的方法。 首先&#xff0c;我们来看一下本文需要实现的需求。…

RPC(1)------Java BIO + JDK原生序列化 + JDK动态代理实现

本文跟着MY-RPC-FRamework的代码&#xff0c;根据自己的理解做的笔记&#xff0c;先理解&#xff0c;再学习。 RPC原理 客户端和服务端都可以访问到通用的接口,但是只有服务端有这个接口的实现类&#xff0c;客户端调用这个接口的方式&#xff0c;是通过网络传输&#xff0c;告…

记一次对某假冒征信站点的实战渗透

1. 背景介绍 这次渗透是去年之前的了&#xff0c;原因是当时收到了这个钓鱼短信&#xff0c;这次渗透带有侥幸、偶然性。 后台无脑弱口令 后台无脑文件上传getshell 运气好&#xff0c;直接无脑提权 因为时间问题&#xff0c;本文的记录可能不太完整。 开局之后就是这样的假…