【机器学习】EM算法

news2024/11/19 13:25:40

EM算法



目录

      • 一、似然函数与极大似然估计
      • 二、Jenson不等式
      • 三、数学期望的相关定理
      • 四、边缘分布列
      • 五、EM算法




一、似然函数与极大似然估计

例一
现有一个不透明的罐子,里面装有质地、大小均相同而颜色不同的黑白两种球(数目未知)。现要求在经过有限次抽样后(放回式),求解罐中黑白球的比例。
假设当前对该罐子进行了100次放回式抽样,其中有70次抽出白球,30次抽出黑球,问该罐中黑白球的比例最可能是多少?
答案很明显,黑:白 = 3:7。

例二
一个林子内只有小明和猎人在打猎(已知小明的命中率为30%,猎人的命中率为80%),当你看到一只鸟被击落时,你认为最有可能是谁打中的?
答案肯定是猎人。

但我想问的是,你做出这样推理的背后,是依赖于什么理论?


在前面两个例子中,我们都基于一些已知数据,对某个先验事件做出了推断。例一中,若没有告诉你抽样的具体情况,我们将难以对罐中黑白球的比例做出推测;例二中,若不知道小明和猎人的命中率,我们的答案将是“一半一半”。但是,当有了某次实验的数据后,我们在对该事件的先验概率做出推测时,就会往倾向于该实验数据的方向靠近,即体现为“原始分布最可能的取值”,这实际上就是极大似然估法的灵魂所在。
比如例一中,既然抽出白球的次数更多,那么就自然地认为罐子中白球的比例更大;例二中,既然猎人的命中率更高,那么就自然地认为击中鸟的人更可能是猎人而非小明。


一般的,若设总体的概率函数为 𝑝(𝑥; 𝜃) , 𝜃 ∈ 𝛩 , 其中 𝜃 是一个未知参数(或一组未知参数构成的参数向量) ,𝛩 是可能取值的参数空间,(𝑥1, 𝑥2,…, 𝑥𝑛) 是来自该总体的样本。于是可以得到样本的联合概率密度为:

Alt

称 𝐿(𝜃)为样本的似然函数。
由于似然函数𝐿(𝜃) 是以参数 𝜃 为变量的函数,因此似然函数的目的就是在样本(𝑥1, 𝑥2,…, 𝑥𝑛) 固定的前提下,以寻找最优的 𝜃 来使似然函数最大,即:

Alt

接下来为了求出 𝜃∗ ,就是要求使得似然函数 𝐿(𝜃) 最大的 𝜃 。这是求解自变量的问题而与函数值无关,因此为了
便于计算,我们通常令 𝐿(𝜃) 为 ln 𝐿(𝜃) ,然后再对 ln 𝐿(𝜃) 求偏导,并在偏导取值为 0 处得到最终的 𝜃∗(实际上就是求极值的步骤) :

Alt




二、Jenson不等式

设 𝑓 是定义域为实数的函数,如果对于所有的实数 𝑥 ,𝑓′′(𝑥) ≥ 0,则称 𝑓 是凸函数。Jenson不等式定义为:对于任意凸函数 𝑓 ,都有函数值的期望大于等于期望的函数值。即:

𝐸(𝑓(𝑋)) ≥ 𝑓(𝐸(𝑋))

若 𝑓 是严格的凸函数,当且仅当 P (X=𝐸(𝑋)) = 1(即X是常量时),上式等号成立。
当Jenson不等式应用于凹函数时,不等号方向相反。




三、数学期望的相关定理

若随机变量 𝑋 的分布用分布列 𝑝(𝑥𝑖) (或密度函数 𝑝(𝑥) )来表示,则 𝑋 的某一函数 𝑔(𝑥) 的数学期望为:

Alt
例,离散型分布列:

X123
P1/53/51/5

则:
𝐸(𝑋) = 1 × (1/5) + 2 × (3/5) + 3 × (1/5) = 2
𝐸(𝑔(𝑋)) = 12 × (1/5) + 22 × (3/5) + 32 × (1/5) = 4.4 , 𝑔(𝑋) = 𝑋2




四、边缘分布列




五、EM算法


END


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/29449.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MyBatis 增删改查操作

什么是 MyBatis? mybatis 是一款优秀的持久层框架,用于简化 JDBC 开发 MyBatis 本是 Apach 的一个开源项目 iBatis,2021 年这个项目由 apach software foundation 迁移到了 google code,并且改名为 MyBatis。2013 年 11 月迁移到…

[附源码]java毕业设计氧气罐管理系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

js逆向之反调试之无限debugger解决

js逆向之反调试之无限debugger解决 文章目录 js逆向之反调试之无限debugger解决方案一方案二方案三方案一 右击debugger行数位置,点击add conditional breakpoint… 点击add conditional breakpoint.png 添加false,然后按回撤, 刷新网页,发现成功跳过无限debugger 修改成…

TiDB 6.0 新特性

TiDB 6.0 新特性 Placement Rules in SQL小表缓存内存悲观锁Top SQLTiDB Enterprise Manager(TiEM) Placement Rules in SQL Placement Rules in SQL 之前: 跨地域部署的集群,无法本地访问无法根据业务隔离资源,leader全在一个TiKV节点上…

CTFHub | UA注入

0x00 前言 CTFHub 专注网络安全、信息安全、白帽子技术的在线学习,实训平台。提供优质的赛事及学习服务,拥有完善的题目环境及配套 writeup ,降低 CTF 学习入门门槛,快速帮助选手成长,跟随主流比赛潮流。 0x01 题目描述…

新发现,新挑战,技术出海的机遇与挑战丨PingCAP DevCon 2022 出海专场

现在报名活动,有机会获得限定好礼哦!👆 中国企业出海的格局和挑战正在发生重大改变。回到技术管理者熟悉的技术世界,过去两年的技术环境也发生了巨大的变化,开源软件与云服务的结合成为业界共识的潮流,在多…

linux篇【11】:linux下的线程<后序>

目录 一.线程互斥 1.三个概念 2.互斥 (1)在执行语句的任何地方,线程可能被切换走 (3)抢票场景中的问题 (4)解决方案 3.加锁 (1)加锁介绍 (2&#xf…

C语言百日千题系列之《忘情水题》第一日

目录 绪论 1.最大数位置 2.与指定数字相同的数的个数 3.蓝桥杯2013年第四届真题-核桃的数量 4.求所给范围内水仙花数并排列 5.最大值和最小值的差 6.计算书费 7.角谷猜想 8. 最高的分数 9.年龄与疾病 10.-百钱百鸡问题 绪论 本文是C语言百日千题系列《忘情水题》的第…

BCN衍生物:endo-BCN-PEG4-TAMRA,endo-BCN-PEG4-Palmitic,endo-BCN-PEG4-DSPE的特点分享

凯新生物公司小编分享:endo-BCN-PEG4-TAMRA ,endo-BCN-PEG4-Palmitic,endo-BCN-PEG4-DSPE这几种的物理相关数据。 1、endo-BCN-PEG4-TAMRA 四甲基罗丹明(TAMRA)-叠氮化物是一种化学探针,用于直接在活细胞中…

代码随想录算法训练营第八天|二叉树(截止到左叶子之和)

翻转二叉树 Leecode 226.翻转二叉树 链接:https://leetcode.cn/problems/invert-binary-tree/ 用递归来做,若是遇到空节点,直接return 然后交换左右节点,接着递归 class Solution { public:TreeNode* invertTree(TreeNode* r…

Java代码审计——SSH 框架审计技巧

目录 (一) SSH 框架简介 (二) Java SSH 框架审计技巧 (一) SSH 框架简介 上个月介绍了 SSM 框架,即 Spring MVC、Spring 和 MyBatis。接下来介绍 Java Web曾经开发的 SSH 框架,即 …

河北涿州水稻种植历史 国稻种芯·中国水稻节:保定效益双赢

河北涿州水稻种植历史 国稻种芯中国水稻节:保定效益双赢 央视网消息 保定日报讯(通讯员张千 刘永兴 王蕾)新闻中国采编网 中国新闻采编网 谋定研究中国智库网 中国农民丰收节国际贸易促进会 国稻种芯中国水稻节 中国三农智库网-功能性农业农…

浅谈前缀索引

一.什么是前缀索引 所谓前缀索引说白了就是对字符串或前n个字符建立索引 二.为什么选择前缀索引 一般来说使用前缀索引,可能都是因为整个字段的数据量太大,没有必要针对整个字段建立索引,前缀索引仅仅是选择一个字段的前n个字符作为索引&a…

Linux运维工程师的操作规范

,Linux运维工程师的操作规范从事运维有一段时间了,遇到过各式各样的问题,数据丢失,网站挂马,误删数据库文件,黑客攻击等各类问题。 今天简单整理一下,分享给各位小伙伴。 一、线上操作规范 1、…

你可见过如此细致的延时任务详解

概述 延时任务相信大家都不陌生,在现实的业务中应用场景可以说是比比皆是。例如订单下单 15 分钟未支付直接取消,外卖超时自动赔付等等。这些情况下,我们该怎么设计我们的服务的实现呢? 笨一点的方法自然是定时任务去数据库进行轮…

华为机试 - 滑动窗口最大和

目录 题目描述 输入描述 输出描述 用例 题目解析 算法源码 题目描述 有一个N个整数的数组,和一个长度为M的窗口,窗口从数组内的第一个数开始滑动直到窗口不能滑动为止, 每次窗口滑动产生一个窗口和(窗口内所有数的和&…

常用的框架技术-09 Spring Security Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录1.Spring Security简介1.1 Spring Security概述1.2 Spring Security历史发展1.3 产品的对比1.3.1 Spring Security1.3.2 Shiro1.4 Spring Security 核心类1.4.1 Auth…

qemu 线程 vhost

[rootlocalhost cloud_images]# lsmod | grep vhost_net vhost_net 262144 0 vhost 262144 1 vhost_net tap 262144 1 vhost_net tun 262144 2 vhost_net [rootlocalhost cloud_images]#vhost-net网卡的…

[附源码]SSM计算机毕业设计基于实时定位的超市配送业务管理JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

低碳世界杂志低碳世界杂志社低碳世界编辑部2022年第7期目录

节能环保 挥发性有机物的全厂控制措施 董少军; 1-3 《低碳世界》投稿:cnqikantg126.com 佛山市市政排水管网通沟污泥处理处置工艺设计 张红; 4-6 “双碳”背景下海岸带地区适应气候变化评估与对策研究 王鸿浩;邬乐雅;吴晓晨;张丽佳;黄婧蓼琦;胡斐…