EM算法
目录
- 一、似然函数与极大似然估计
- 二、Jenson不等式
- 三、数学期望的相关定理
- 四、边缘分布列
- 五、EM算法
一、似然函数与极大似然估计
例一
现有一个不透明的罐子,里面装有质地、大小均相同而颜色不同的黑白两种球(数目未知)。现要求在经过有限次抽样后(放回式),求解罐中黑白球的比例。
假设当前对该罐子进行了100次放回式抽样,其中有70次抽出白球,30次抽出黑球,问该罐中黑白球的比例最可能是多少?
答案很明显,黑:白 = 3:7。
例二
一个林子内只有小明和猎人在打猎(已知小明的命中率为30%,猎人的命中率为80%),当你看到一只鸟被击落时,你认为最有可能是谁打中的?
答案肯定是猎人。
但我想问的是,你做出这样推理的背后,是依赖于什么理论?
在前面两个例子中,我们都基于一些已知数据,对某个先验事件做出了推断。例一中,若没有告诉你抽样的具体情况,我们将难以对罐中黑白球的比例做出推测;例二中,若不知道小明和猎人的命中率,我们的答案将是“一半一半”。但是,当有了某次实验的数据后,我们在对该事件的先验概率做出推测时,就会往倾向于该实验数据的方向靠近,即体现为“原始分布最可能的取值”,这实际上就是极大似然估法的灵魂所在。
比如例一中,既然抽出白球的次数更多,那么就自然地认为罐子中白球的比例更大;例二中,既然猎人的命中率更高,那么就自然地认为击中鸟的人更可能是猎人而非小明。
一般的,若设总体的概率函数为 𝑝(𝑥; 𝜃) , 𝜃 ∈ 𝛩 , 其中 𝜃 是一个未知参数(或一组未知参数构成的参数向量) ,𝛩 是可能取值的参数空间,(𝑥1, 𝑥2,…, 𝑥𝑛) 是来自该总体的样本。于是可以得到样本的联合概率密度为:
称 𝐿(𝜃)为样本的似然函数。
由于似然函数𝐿(𝜃) 是以参数 𝜃 为变量的函数,因此似然函数的目的就是在样本(𝑥1, 𝑥2,…, 𝑥𝑛) 固定的前提下,以寻找最优的 𝜃 来使似然函数最大,即:
接下来为了求出 𝜃∗ ,就是要求使得似然函数 𝐿(𝜃) 最大的 𝜃 。这是求解自变量的问题而与函数值无关,因此为了
便于计算,我们通常令 𝐿(𝜃) 为 ln 𝐿(𝜃) ,然后再对 ln 𝐿(𝜃) 求偏导,并在偏导取值为 0 处得到最终的 𝜃∗(实际上就是求极值的步骤) :
二、Jenson不等式
设 𝑓 是定义域为实数的函数,如果对于所有的实数 𝑥 ,𝑓′′(𝑥) ≥ 0,则称 𝑓 是凸函数。Jenson不等式定义为:对于任意凸函数 𝑓 ,都有函数值的期望大于等于期望的函数值。即:
若 𝑓 是严格的凸函数,当且仅当 P (X=𝐸(𝑋)) = 1(即X是常量时),上式等号成立。
当Jenson不等式应用于凹函数时,不等号方向相反。
三、数学期望的相关定理
若随机变量 𝑋 的分布用分布列 𝑝(𝑥𝑖) (或密度函数 𝑝(𝑥) )来表示,则 𝑋 的某一函数 𝑔(𝑥) 的数学期望为:
例,离散型分布列:
X | 1 | 2 | 3 |
---|---|---|---|
P | 1/5 | 3/5 | 1/5 |
则:
𝐸(𝑋) = 1 × (1/5) + 2 × (3/5) + 3 × (1/5) = 2
𝐸(𝑔(𝑋)) = 12 × (1/5) + 22 × (3/5) + 32 × (1/5) = 4.4 , 𝑔(𝑋) = 𝑋2