机器学习(V)--无监督学习(三)EM算法

news2024/9/20 7:55:47

EM算法

极大似然估计

极大似然估计:(maximum likelihood estimate, MLE) 是一种常用的模型参数估计方法。它假设观测样本出现的概率最大,也即样本联合概率(也称似然函数)取得最大值。

为求解方便,对样本联合概率取对数似然函数
log ⁡ L ( θ ) = log ⁡ P ( X ∣ θ ) = ∑ i = 1 N log ⁡ P ( x i ∣ θ ) \log L(\theta) =\log\mathbb P(X|\theta)=\sum_{i=1}^N\log \mathbb P(\mathbf x_i|\theta) logL(θ)=logP(Xθ)=i=1NlogP(xiθ)
优化目标是最大化对数似然函数
θ ^ = arg ⁡ max ⁡ θ ∑ i = 1 N log ⁡ P ( x i ∣ θ ) \hat\theta=\arg\max_{\theta}\sum_{i=1}^N\log \mathbb P(\mathbf x_i|\theta) θ^=argθmaxi=1NlogP(xiθ)

假设瓜田里有两种类型的西瓜🍉,瓜农随机抽取了10个西瓜,来了解西瓜的重量分布 p ( x ∣ θ ) p(x|\theta) p(xθ),记录结果如下:

变量样本
西瓜重量 x x x5.3 , 5.7, 4.7, 4.3, 3.2, 4.9, 4.1, 3.5, 3.8, 1.7
西瓜品种 z z z1, 1, 1, 1, 2, 2, 2, 2, 2, 2

其中,西瓜的品种 z z z 是离散分布 P ( z = k ) = π k \mathbb P(z=k)=\pi_k P(z=k)=πk,一般假设两种类型的西瓜服从均值和方差不同的高斯分布 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma^2_1) N(μ1,σ12) N ( μ 2 , σ 2 2 ) N(\mu_2,\sigma^2_2) N(μ2,σ22)。由全概率公式,西瓜重量的概率密度模型
p ( x ; θ ) = π 1 N ( x ; μ 1 , σ 1 2 ) + π 2 N ( x ; μ 2 , σ 2 2 ) p(x;\theta)=\pi_1\mathcal N(x;\mu_1,\sigma^2_1)+\pi_2\mathcal N(x;\mu_2,\sigma^2_2) p(x;θ)=π1N(x;μ1,σ12)+π2N(x;μ2,σ22)

我们尝试用极大似然估计求解参数 θ = ( π 1 , π 2 , μ 1 , σ 1 2 , μ 2 , σ 2 2 ) \theta=(\pi_1,\pi_2,\mu_1,\sigma^2_1,\mu_2,\sigma^2_2) θ=(π1,π2,μ1,σ12,μ2,σ22)

优化目标函数
max ⁡ θ ∑ z i = 1 log ⁡ π 1 N ( x i ; μ 1 , σ 1 2 ) + ∑ z i = 2 log ⁡ π 2 N ( x i ; μ 2 , σ 2 2 ) s.t.  π 1 + π 2 = 1 \max_{\theta}\sum_{z_i=1}\log \pi_1\mathcal N(x_i;\mu_1,\sigma_1^2)+\sum_{z_i=2}\log \pi_2\mathcal N(x_i;\mu_2,\sigma_2^2) \\ \text{s.t. } \pi_1+\pi_2=1 θmaxzi=1logπ1N(xi;μ1,σ12)+zi=2logπ2N(xi;μ2,σ22)s.t. π1+π2=1
使用拉格朗日乘子法容易求得
π 1 = 0.4 , π 2 = 0.6 μ 1 = 5 , σ 1 2 = 0.5 4 2 μ 2 = 3.53 , σ 2 2 = 0.9 8 2 \pi_1=0.4,\quad \pi_2=0.6 \\ \mu_1=5,\quad \sigma_1^2=0.54^2 \\ \mu_2=3.53,\quad \sigma_2^2=0.98^2 \\ π1=0.4,π2=0.6μ1=5,σ12=0.542μ2=3.53,σ22=0.982

最终得到

p ( x ) = 0.4 × N ( x ; 5 , 0.5 4 2 ) + 0.6 × N ( x ; 3.53 , 0.9 8 2 ) p(x)=0.4\times\mathcal N(x;5,0.54^2)+0.6\times\mathcal N(x;3.53,0.98^2) p(x)=0.4×N(x;5,0.542)+0.6×N(x;3.53,0.982)

但是,实际中如果瓜农无法辩识标记西瓜的品种,此时概率分布函数变为
p ( x ; θ ) = π N ( x ; μ 1 , σ 1 2 ) + ( 1 − π ) N ( x ; μ 2 , σ 2 2 ) p(x;\theta)=\pi\mathcal N(x;\mu_1,\sigma^2_1)+(1-\pi)\mathcal N(x;\mu_2,\sigma^2_2) p(x;θ)=πN(x;μ1,σ12)+(1π)N(x;μ2,σ22)

其中品种 z z z 成为隐藏变量。对数似然函数变为
log ⁡ L ( θ ) = ∑ i log ⁡ ( π N ( x i ; μ 1 , σ 1 2 ) + ( 1 − π ) N ( x i ; μ 2 , σ 2 2 ) ) \log L(\theta)=\sum_{i}\log (\pi\mathcal N(x_i;\mu_1,\sigma^2_1)+(1-\pi)\mathcal N(x_i;\mu_2,\sigma^2_2)) logL(θ)=ilog(πN(xi;μ1,σ12)+(1π)N(xi;μ2,σ22))
其中参数 θ = ( π , μ 1 , σ 1 2 , μ 2 , σ 2 2 ) \theta=(\pi,\mu_1,\sigma^2_1,\mu_2,\sigma^2_2) θ=(π,μ1,σ12,μ2,σ22)。上式中存在"和的对数",若直接求导将会变得很麻烦。下节我们将会介绍EM算法来解决此类问题。

基本思想

概率模型有时既含有观测变量 (observable variable),又含有隐变量 (latent variable)。EM(Expectation-Maximization,期望最大算法)是一种迭代算法,用于含有隐变量的概率模型的极大似然估计或极大后验估计,是数据挖掘的十大经典算法之一。

假设现有一批独立同分布的样本
X = { x 1 , x 2 , ⋯   , x N } X=\{x_1,x_2,\cdots,x_N\} X={x1,x2,,xN}
它们是由某个含有隐变量的概率分布 p ( x , z ∣ θ ) p(x,z|\theta) p(x,zθ) 生成。设样本对应的隐变量数据
Z = { z 1 , z 2 , ⋯   , z N } Z=\{z_1,z_2,\cdots,z_N\} Z={z1,z2,,zN}

对于一个含有隐变量 Z Z Z 的概率模型,一般将 ( X , Z ) (X,Z) (X,Z) 称为完全数据 (complete-data),而观测数据 X X X 为不完全数据(incomplete-data)。

假设观测数据 X X X 概率密度函数是 p ( X ∣ θ ) p(X|\theta) p(Xθ),其中 θ \theta θ是需要估计的模型参数,现尝试用极大似然估计法估计此概率分布的参数。为了便于讨论,此处假设 z z z 为连续型随机变量,则对数似然函数为
log ⁡ L ( θ ) = ∑ i = 1 N log ⁡ p ( x i ∣ θ ) = ∑ i = 1 N log ⁡ ∫ z i p ( x i , z i ∣ θ ) d z i \log L(\theta)=\sum_{i=1}^N\log p(x_i|\theta)=\sum_{i=1}^N\log\int_{z_i}p(x_i,z_i|\theta)\mathrm dz_i logL(θ)=i=1Nlogp(xiθ)=i=1Nlogzip(xi,ziθ)dzi

Suppose you have a probability model with parameters θ \theta θ.
p ( x ∣ θ ) p(x|\theta) p(xθ) has two names. It can be called the probability of x x x (given θ \theta θ), or the likelihood of θ \theta θ (given that x x x was observed).

我们的目标是极大化观测数据 X X X 关于参数 θ \theta θ 的对数似然函数
θ ^ = arg ⁡ max ⁡ θ log ⁡ L ( θ ) \hat\theta=\arg\max_{\theta}\log L(\theta) θ^=argθmaxlogL(θ)

显然,此时 log ⁡ L ( θ ) \log L(\theta) logL(θ) 里含有未知的隐变量 z z z 以及求和项的对数,相比于不含隐变量的对数似然函数,该似然函数的极大值点较难求解,而 EM 算法则给出了一种迭代的方法来完成对 log ⁡ L ( θ ) \log L(\theta) logL(θ) 的极大化。

注意:确定好含隐变量的模型后,即确定了联合概率密度函数 p ( x , z ∣ θ ) p(x,z|\theta) p(x,zθ) ,其中 θ \theta θ是需要估计的模型参数。为便于讨论,在此有必要说明下其他已知的概率函数。

联合概率密度函数
p ( x , z ∣ θ ) = f ( x , z ; θ ) p(x,z|\theta)=f(x,z;\theta) p(x,zθ)=f(x,z;θ)
观测变量 x x x 的概率密度函数
p ( x ∣ θ ) = ∫ z f ( x , z ; θ ) d z p(x|\theta)=\int_z f(x,z;\theta)\mathrm dz p(xθ)=zf(x,z;θ)dz
隐变量 z z z 的概率密度函数
p ( z ∣ θ ) = ∫ x f ( x , z ; θ ) d x p(z|\theta)=\int_x f(x,z;\theta)\mathrm dx p(zθ)=xf(x,z;θ)dx
条件概率密度函数
p ( x ∣ z , θ ) = p ( x , z ∣ θ ) p ( z ∣ θ ) = f ( x , z ; θ ) ∫ x f ( x , z ; θ ) d x p(x|z,\theta)=\frac{p(x,z|\theta)}{p(z|\theta)}=\frac{f(x,z;\theta)}{\int_x f(x,z;\theta)\mathrm dx} p(xz,θ)=p(zθ)p(x,zθ)=xf(x,z;θ)dxf(x,z;θ)

p ( z ∣ x , θ ) = p ( x , z ∣ θ ) p ( x ∣ θ ) = f ( x , z ; θ ) ∫ z f ( x , z ; θ ) d z p(z|x,\theta)=\frac{p(x,z|\theta)}{p(x|\theta)}=\frac{f(x,z;\theta)}{\int_z f(x,z;\theta)\mathrm dz} p(zx,θ)=p(xθ)p(x,zθ)=zf(x,z;θ)dzf(x,z;θ)
下面给出两种推导方法:一种借助 Jensen 不等式;一种使用 KL 散度。

首先使用 Jensen 不等式推导:使用含有隐变量的全概率公式
log ⁡ p ( x i ∣ θ ) = log ⁡ ∫ z i p ( x i , z i ∣ θ ) d z i = log ⁡ ∫ z i q i ( z i ) p ( x i , z i ∣ θ ) q i ( z i ) d z i = log ⁡ E z ( p ( x i , z i ∣ θ ) q i ( z i ) ) ⩾ E z ( log ⁡ p ( x i , z i ∣ θ ) q i ( z i ) ) = ∫ z i q i ( z i ) log ⁡ p ( x i , z i ∣ θ ) q i ( z i ) d z i \begin{aligned} \log p(x_i|\theta)&=\log\int_{z_i} p(x_i,z_i|\theta)\mathrm dz_i \\ &=\log\int_{z_i}q_i(z_i)\frac{p(x_i,z_i|\theta)}{q_i(z_i)}\mathrm dz_i \\ &=\log\mathbb E_z\left(\frac{p(x_i,z_i|\theta)}{q_i(z_i)}\right) \\ &\geqslant \mathbb E_z\left(\log\frac{p(x_i,z_i|\theta)}{q_i(z_i)}\right) \\ &= \int_{z_i}q_i(z_i) \log\frac{p(x_i,z_i|\theta)}{q_i(z_i)}\mathrm dz_i \end{aligned} logp(xiθ)=logzip(xi,ziθ)dzi=logziqi(zi)qi(zi)p(xi,ziθ)dzi=logEz(qi(zi)p(xi,ziθ))Ez(logqi(zi)p(xi,ziθ))=ziqi(zi)logqi(zi)p(xi,ziθ)dzi
其中 q i ( z i ) q_i(z_i) qi(zi) 是引入的第 i i i个样本隐变量 z i z_i zi 的任意概率密度函数(未知函数),其实 q q q 不管是任意函数,上式都成立。从后续推导得知,当 q i ( z i ) q_i(z_i) qi(zi) z i z_i zi 的概率密度时,方便计算。

所以
log ⁡ L ( θ ) = ∑ i = 1 N log ⁡ p ( x i ∣ θ ) ⩾ B ( q , θ ) = ∑ i = 1 N ∫ z i q i ( z i ) log ⁡ p ( x i , z i ∣ θ ) q i ( z i ) d z i \log L(\theta)=\sum_{i=1}^N\log p(x_i|\theta)\geqslant B(q,\theta)=\sum_{i=1}^N\int_{z_i}q_i(z_i) \log\frac{p(x_i,z_i|\theta)}{q_i(z_i)}\mathrm dz_i logL(θ)=i=1Nlogp(xiθ)B(q,θ)=i=1Nziqi(zi)logqi(zi)p(xi,ziθ)dzi

其中函数 B B B 为对数似然的下界函数。下界比较好求,所以我们要优化这个下界来使得似然函数最大。

假设第 t t t 次迭代时 θ \theta θ 的估计值是 θ ( t ) \theta^{(t)} θ(t),我们希望第 t + 1 t+1 t+1 次迭代时的 θ \theta θ 能使 log ⁡ L ( θ ) \log L(\theta) logL(θ) 增大,即
log ⁡ L ( θ ( t ) ) ⩽ log ⁡ L ( θ ( t + 1 ) ) \log L(\theta^{(t)}) \leqslant \log L(\theta^{(t+1)}) logL(θ(t))logL(θ(t+1))

可以分为两步实现:

  • 首先,固定 θ = θ ( t ) \theta=\theta^{(t)} θ=θ(t) ,通过调整 q q q 函数使得 B ( q ( t ) , θ ) B(q^{(t)},\theta) B(q(t),θ) θ ( t ) \theta^{(t)} θ(t) 处和 log ⁡ L ( θ ( t ) ) \log L(\theta^{(t)}) logL(θ(t)) 相等;
    B ( q ( t ) , θ ( t ) ) = log ⁡ L ( θ ( t ) ) B(q^{(t)},\theta^{(t)})=\log L(\theta^{(t)}) B(q(t),θ(t))=logL(θ(t))

  • 然后,固定 q q q,优化 θ ( t + 1 ) \theta^{(t+1)} θ(t+1) 取到下界函数 B ( q ( t ) , θ ) B(q^{(t)},\theta) B(q(t),θ) 的最大值。
    θ ( t + 1 ) = arg ⁡ max ⁡ θ B ( q ( t ) , θ ) \theta^{(t+1)}=\arg\max_{\theta} B(q^{(t)},\theta) θ(t+1)=argθmaxB(q(t),θ)

所以
log ⁡ L ( θ ( t + 1 ) ) ⩾ B ( q ( t ) , θ ( t + 1 ) ) ⩾ B ( q ( t ) , θ ( t ) ) = log ⁡ L ( θ ( t ) ) \log L(\theta^{(t+1)})\geqslant B(q^{(t)},\theta^{(t+1)})\geqslant B(q^{(t)},\theta^{(t)})=\log L(\theta^{(t)}) logL(θ(t+1))B(q(t),θ(t+1))B(q(t),θ(t))=logL(θ(t))

因此,EM算法也可以看作一种坐标提升算法,首先固定一个值,对另外一个值求极值,不断重复直到收敛。

接下来,我们开始求解 q ( t ) q^{(t)} q(t) 。Jensen不等式中等号成立的条件是自变量是常数,即
p ( x i , z i ∣ θ ) q i ( z i ) = c \frac{p(x_i,z_i|\theta)}{q_i(z_i)}=c qi(zi)p(xi,ziθ)=c
由于假设 q i ( z i ) q_i(z_i) qi(zi) z i z_i zi 的概率密度函数,所以
p ( x i ∣ θ ) = ∫ z i p ( x i , z i ∣ θ ) d z i = ∫ z i c q i ( z i ) d z i = c p(x_i|\theta)=\int_{z_i}p(x_i,z_i|\theta)\mathrm dz_i=\int_{z_i} cq_i(z_i)\mathrm dz_i=c p(xiθ)=zip(xi,ziθ)dzi=zicqi(zi)dzi=c

于是
q i ( z i ) = p ( x i , z i ∣ θ ) c = p ( x i , z i ∣ θ ) p ( x i ∣ θ ) = p ( z i ∣ x i , θ ) q_i(z_i)=\frac{p(x_i,z_i|\theta)}{c}=\frac{p(x_i,z_i|\theta)}{p(x_i|\theta)}=p(z_i|x_i,\theta) qi(zi)=cp(xi,ziθ)=p(xiθ)p(xi,ziθ)=p(zixi,θ)
可以看到,函数 q i ( z i ) q_i(z_i) qi(zi) 代表第 i i i 个数据是 z i z_i zi 的概率密度,是可以直接计算的。

最终,我们只要初始化或使用上一步已经固定的 θ ( t ) \theta^{(t)} θ(t),然后计算
θ ( t + 1 ) = arg ⁡ max ⁡ θ ∑ i = 1 N ∫ z i p ( z i ∣ x i , θ ( t ) ) log ⁡ p ( x i , z i ∣ θ ) p ( z i ∣ x i , θ ( t ) ) d z i = arg ⁡ max ⁡ θ ∑ i = 1 N ∫ z i p ( z i ∣ x i , θ ( t ) ) log ⁡ p ( x i , z i ∣ θ ) d z i = arg ⁡ max ⁡ θ ∑ i = 1 N E z i ∣ x i , θ ( t ) [ log ⁡ p ( x i , z i ∣ θ ) ] = arg ⁡ max ⁡ θ Q ( θ , θ ( t ) ) \begin{aligned} \theta^{(t+1)}& = \arg\max_{\theta}\sum_{i=1}^N\int_{z_i}p(z_i|x_i,\theta^{(t)}) \log\frac{p(x_i,z_i|\theta)}{p(z_i|x_i,\theta^{(t)})}\mathrm dz_i \\ & = \arg\max_{\theta}\sum_{i=1}^N\int_{z_i}p(z_i|x_i,\theta^{(t)}) \log p(x_i,z_i|\theta)\mathrm dz_i \\ & = \arg\max_{\theta}\sum_{i=1}^N \mathbb E_{z_i|x_i,\theta^{(t)}}[\log p(x_i,z_i|\theta)] \\ & = \arg\max_{\theta} Q(\theta,\theta^{(t)}) \end{aligned} θ(t+1)=argθmaxi=1Nzip(zixi,θ(t))logp(zixi,θ(t))p(xi,ziθ)dzi=argθmaxi=1Nzip(zixi,θ(t))logp(xi,ziθ)dzi=argθmaxi=1NEzixi,θ(t)[logp(xi,ziθ)]=argθmaxQ(θ,θ(t))

接下来使用 KL 散度推导:使用含有隐变量的条件概率
log ⁡ p ( x i ∣ θ ) = log ⁡ p ( x i , z i ∣ θ ) p ( z i ∣ x i , θ ) = ∫ z i q i ( z i ) log ⁡ p ( x i , z i ∣ θ ) p ( z i ∣ x i , θ ) ⋅ q i ( z i ) q i ( z i ) d z i = ∫ z i q i ( z i ) log ⁡ p ( x i , z i ∣ θ ) q i ( z i ) d z i + ∫ z i q i ( z i ) log ⁡ q i ( z i ) p ( z i ∣ x i , θ ) d z i = B ( q i , θ ) + K L ( q i ∥ p i ) \begin{aligned} \log p(x_i|\theta)&=\log\frac{p(x_i,z_i|\theta)}{p(z_i|x_i,\theta)} \\ &=\int_{z_i}q_i(z_i)\log\frac{p(x_i,z_i|\theta)}{p(z_i|x_i,\theta)}\cdot\frac{q_i(z_i)}{q_i(z_i)}\mathrm dz_i \\ &= \int_{z_i}q_i(z_i) \log\frac{p(x_i,z_i|\theta)}{q_i(z_i)}\mathrm dz_i + \int_{z_i}q_i(z_i) \log\frac{q_i(z_i)}{p(z_i|x_i,\theta)}\mathrm dz_i \\ &=B(q_i,\theta)+KL(q_i\|p_i) \end{aligned} logp(xiθ)=logp(zixi,θ)p(xi,ziθ)=ziqi(zi)logp(zixi,θ)p(xi,ziθ)qi(zi)qi(zi)dzi=ziqi(zi)logqi(zi)p(xi,ziθ)dzi+ziqi(zi)logp(zixi,θ)qi(zi)dzi=B(qi,θ)+KL(qipi)
同样 q i ( z i ) q_i(z_i) qi(zi) 是引入的关于 z i z_i zi 的任意概率密度函数(未知函数),函数 B ( q i , θ ) B(q_i,\theta) B(qi,θ) 表示对数似然的一个下界,散度 K L ( q i ∥ p i ) KL(q_i\|p_i) KL(qipi)描述了下界与对数似然的差距。

同样为了保证
log ⁡ L ( θ ( t ) ) ⩽ log ⁡ L ( θ ( t + 1 ) ) \log L(\theta^{(t)}) \leqslant \log L(\theta^{(t+1)}) logL(θ(t))logL(θ(t+1))

分为两步实现:

  • 首先,固定 θ = θ ( t ) \theta=\theta^{(t)} θ=θ(t) ,通过调整 q q q 函数使得 B ( q ( t ) , θ ) B(q^{(t)},\theta) B(q(t),θ) θ ( t ) \theta^{(t)} θ(t) 处和 log ⁡ L ( θ ( t ) ) \log L(\theta^{(t)}) logL(θ(t)) 相等,即 K L ( q i ∥ p i ) = 0 KL(q_i\|p_i)=0 KL(qipi)=0,于是
    q i ( z i ) = p ( z i ∣ x i , θ ( t ) ) q_i(z_i)=p(z_i|x_i,\theta^{(t)}) qi(zi)=p(zixi,θ(t))

  • 然后,固定 q q q,优化 θ ( t + 1 ) \theta^{(t+1)} θ(t+1) 取到下界函数 B ( q ( t ) , θ ) B(q^{(t)},\theta) B(q(t),θ) 的最大值。
    θ ( t + 1 ) = arg ⁡ max ⁡ θ B ( q ( t ) , θ ) \theta^{(t+1)}=\arg\max_{\theta} B(q^{(t)},\theta) θ(t+1)=argθmaxB(q(t),θ)

算法流程

输入:观测数据 X X X,联合分布 p ( x , z ; θ ) p(x,z;\theta) p(x,z;θ),条件分布 P ( z ∣ x , θ ) P(z|x,\theta) P(zx,θ)

输出:模型参数 θ \theta θ

EM算法通过引入隐含变量,使用极大似然估计(MLE)进行迭代求解参数。每次迭代由两步组成:

  • E-step:求期望 (expectation)。以参数的初始值或上一次迭代的模型参数 θ ( t ) \theta^{(t)} θ(t) 来计算隐变量后验概率 p ( z i ∣ x i , θ ( t ) ) p(z_i|x_i,\theta^{(t)}) p(zixi,θ(t)) ,并计算期望(expectation)
    Q ( θ , θ ( t ) ) = ∑ i = 1 N ∫ z i p ( z i ∣ x i , θ ( t ) ) log ⁡ p ( x i , z i ∣ θ ) d z i Q(\theta,\theta^{(t)})=\sum_{i=1}^N\int_{z_i}p(z_i|x_i,\theta^{(t)}) \log p(x_i,z_i|\theta)\mathrm dz_i Q(θ,θ(t))=i=1Nzip(zixi,θ(t))logp(xi,ziθ)dzi

  • M-step: 求极大 (maximization),极大化E步中的期望值,来确定 t + 1 t+1 t+1 次迭代的参数估计值
    θ ( t + 1 ) = arg ⁡ max ⁡ θ Q ( θ , θ ( t ) ) \theta^{(t+1)}=\arg\max_{\theta} Q(\theta,\theta^{(t)}) θ(t+1)=argθmaxQ(θ,θ(t))

依次迭代,直至收敛到局部最优解。

高斯混合模型

基础模型

高斯混合模型 (Gaussian Mixture Model, GMM) 数据可以看作是从 K K K个高斯分布中生成出来的,每个高斯分布称为一个组件 (Component)。

引入隐变量 z ∈ { 1 , 2 , ⋯   , K } z\in\{1,2,\cdots,K\} z{1,2,,K},表示对应的样本 x x x 属于哪一个高斯分布,这个变量是一个离散的随机变量:
P ( z = k ) = π k s.t.  ∑ k = 1 K π k = 1 \mathbb P(z=k)=\pi_k \\ \text{s.t. } \sum_{k=1}^K\pi_k=1 P(z=k)=πks.t. k=1Kπk=1
可将 π k \pi_k πk 视为选择第 k k k 高斯分布的先验概率,而对应的第 k k k 个高斯分布的样本概率
p ( x ∣ z = k ) = N ( x ; μ k , Σ k ) p(x|z=k)=\mathcal N(x;\mu_k,\Sigma_k) p(xz=k)=N(x;μk,Σk)

于是高斯混合模型
p M ( x ) = ∑ k = 1 K π k N ( x ; μ k , Σ k ) p_M(x)=\sum_{k=1}^K\pi_k\mathcal N(x;\mu_k,\Sigma_k) pM(x)=k=1KπkN(x;μk,Σk)

其中 0 ⩽ π k ⩽ 1 0\leqslant \pi_k\leqslant 1 0πk1为混合系数(mixing coefficients)。

高斯混合模型的参数估计是EM算法的一个重要应用,隐马尔科夫模型的非监督学习也是EM算法的一个重要应用。

EM算法

高斯混合模型的极大似然估计
θ ^ = arg ⁡ max ⁡ θ ∑ i = 1 N log ⁡ ∑ k = 1 K π k N ( x i ; μ k , Σ k ) \hat\theta=\arg\max_{\theta} \sum_{i=1}^N\log\sum_{k=1}^K\pi_k \mathcal N(x_i;\mu_k,\Sigma_k) θ^=argθmaxi=1Nlogk=1KπkN(xi;μk,Σk)
其中参数 θ k = ( π k , μ k , Σ k ) \theta_k=(\pi_k,\mu_k,\Sigma_k) θk=(πk,μk,Σk),使用EM算法估计GMM的参数 θ \theta θ

依照当前模型参数,计算隐变量后验概率:由贝叶斯公式知道
P ( z i = k ∣ x i ) = P ( z i = k ) p ( x i ∣ z i = k ) p ( x i ) = π k N ( x i ; μ k , Σ k ) ∑ k = 1 K π k N ( x i ; μ k , Σ k ) = γ i k \begin{aligned} P(z_i=k|x_i)&=\frac{P(z_i=k)p(x_i|z_i=k)}{p(x_i)} \\ &=\frac{\pi_k\mathcal N(x_i;\mu_k,\Sigma_k)}{\sum_{k=1}^K\pi_k\mathcal N(x_i;\mu_k,\Sigma_k) } \\ &=\gamma_{ik} \end{aligned} P(zi=kxi)=p(xi)P(zi=k)p(xizi=k)=k=1KπkN(xi;μk,Σk)πkN(xi;μk,Σk)=γik

γ i k \gamma_{ik} γik表示第 i i i个样本属于第 k k k个高斯分布的概率。

E-step:确定Q函数

Q ( θ , θ ( t ) ) = ∑ i = 1 N ∑ k = 1 K p ( z i = k ∣ x i , μ ( t ) , Σ ( t ) ) log ⁡ p ( x i , z i = k ∣ μ , Σ ) = ∑ i = 1 N ∑ k = 1 K γ i k log ⁡ π k N ( x ; μ k , Σ k ) = ∑ i = 1 N ∑ k = 1 K γ i k ( log ⁡ π k + log ⁡ N ( x ; μ k , Σ k ) ) \begin{aligned} Q(\theta,\theta^{(t)})&=\sum_{i=1}^N\sum_{k=1}^Kp(z_i=k|x_i,\mu^{(t)},\Sigma^{(t)}) \log p(x_i,z_i=k|\mu,\Sigma) \\ &=\sum_{i=1}^N\sum_{k=1}^K\gamma_{ik}\log\pi_k\mathcal N(x;\mu_k,\Sigma_k) \\ &=\sum_{i=1}^N\sum_{k=1}^K\gamma_{ik}(\log\pi_k+ \log\mathcal N(x;\mu_k,\Sigma_k) ) \end{aligned} Q(θ,θ(t))=i=1Nk=1Kp(zi=kxi,μ(t),Σ(t))logp(xi,zi=kμ,Σ)=i=1Nk=1KγiklogπkN(x;μk,Σk)=i=1Nk=1Kγik(logπk+logN(x;μk,Σk))

M-step:求Q函数的极大值

上面已获得的 Q ( θ , θ ( t ) ) Q(\theta,\theta^{(t)}) Q(θ,θ(t))分别对 μ k , Σ k \mu_k,\Sigma_k μk,Σk求导并设为0。得到
μ k ( t + 1 ) = ∑ i = 1 N γ i k x i ∑ i = 1 N γ i k Σ k ( t + 1 ) = ∑ i = 1 N γ i k ( x i − μ k ( t + 1 ) ) ( x i − μ k ( t + 1 ) ) T ∑ i = 1 N γ i k \mu_k^{(t+1)}=\frac{\sum_{i=1}^N\gamma_{ik}x_i}{\sum_{i=1}^N\gamma_{ik}} \\ \Sigma_k^{(t+1)}=\frac{\sum_{i=1}^N\gamma_{ik}(x_i-\mu_k^{(t+1)}) (x_i-\mu_k^{(t+1)})^T }{\sum_{i=1}^N\gamma_{ik}} μk(t+1)=i=1Nγiki=1NγikxiΣk(t+1)=i=1Nγiki=1Nγik(xiμk(t+1))(xiμk(t+1))T

可以看到第 k k k个高斯分布的 μ k , Σ k \mu_k,\Sigma_k μk,Σk 是所有样本的加权平均,其中每个样本的权重为该样本属于第 k k k个高斯分布的后验概率 γ i k \gamma_{ik} γik

对于混合系数 π k \pi_k πk,因为有限制条件,使用拉格朗日乘子法可求得
π k ( t + 1 ) = 1 N ∑ i = 1 N γ i k \pi_k^{(t+1)}=\frac{1}{N}\sum_{i=1}^N\gamma_{ik} πk(t+1)=N1i=1Nγik

即第 k k k个高斯分布的混合系数是属于 k k k的样本的平均后验概率,由此运用EM算法能大大简化高斯混合模型的参数估计过程,在中间步只需计算 γ i k \gamma_{ik} γik就行了。

高斯混合模型的算法流程如下图所示:

GMM_algorithm

高斯混合聚类

高斯混合聚类假设每个类簇中的样本都服从一个多维高斯分布,那么空间中的样本可以看作由 K K K个多维高斯分布混合而成。

引入隐变量 z z z 标记簇类别,这样就可以使用高斯混合模型
p M ( x ) = ∑ k = 1 K π k N ( x ; μ k , Σ k ) p_M(x)=\sum_{k=1}^K\pi_k\mathcal N(x;\mu_k,\Sigma_k) pM(x)=k=1KπkN(x;μk,Σk)

使用EM算法迭代求解。

相比于K-means更具一般性,能形成各种不同大小和形状的簇。K-means可视为高斯混合聚类中每个样本仅指派给一个混合成分的特例
γ i k = { 1 , if  k = arg ⁡ min ⁡ k ∥ x i − μ k ∥ 2 0 , otherwise \gamma_{ik}=\begin{cases} 1, & \text{if } k=\arg\min_k\|x_i-\mu_k\|^2\\ 0, & \text{otherwise} \end{cases} γik={1,0,if k=argminkxiμk2otherwise
且各混合成分协方差相等,均为对角矩阵 σ 2 I \sigma^2 I σ2I

附录

Jensen 不等式

f f f 是凸函数(convex function),对任意的 λ ∈ [ 0 , 1 ] \lambda\in [0,1] λ[0,1],下式恒成立
f ( λ x 1 + ( 1 − λ ) x 2 ) ⩽ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) f(\lambda x_1+(1-\lambda)x_2)\leqslant \lambda f(x_1)+(1-\lambda)f(x_2) f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2)
Jensen’s inequality就是上式的推广,设 f ( x ) f(x) f(x) 为凸函数, λ i ∈ [ 0 , 1 ] ,   ∑ i λ i = 1 \lambda_i\in[0,1],\ \sum_i\lambda_i=1 λi[0,1], iλi=1 ,则
f ( ∑ i λ i x i ) ⩽ ∑ i λ i f ( x i ) f(\sum_i\lambda_ix_i)\leqslant \sum_i\lambda_if(x_i) f(iλixi)iλif(xi)
若将 λ i \lambda_i λi 视为一个概率分布,则可表示为期望值的形式
f ( E [ x ] ) ⩽ E [ f ( x ) ] f(\mathbb E[x])\leqslant\mathbb E[f(x)] f(E[x])E[f(x)]

显然,如果 f f f 是凹函数(concave function),则将不等号反向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1917943.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

强烈推荐!!李沐老师《动手学深度学习》最新Pytorch版!

动手学深度学习(PyTorch版)》是由李沐、Aston Zhang和孔德威共同编写的教材,专为深度学习初学者和实践者设计。本书使用PyTorch作为主要的深度学习框架,全面系统地介绍了深度学习的基本理论、常见模型和实际应用技巧。 书中内容包括深度学习的基础知识、…

【YOLOv8】 用YOLOv8实现数字式工业仪表智能读数(一)

上一篇圆形表盘指针式仪表的项目受到很多人的关注,咱们一鼓作气,把数字式工业仪表的智能读数也研究一下。本篇主要讲如何用YOLOV8实现数字式工业仪表的自动读数,并将读数结果进行输出,若需要完整数据集和源代码可以私信。 目录 &…

Html5+Css3学习笔记

Html5 CSS3 一、概念 1.什么是html5 html: Hyper Text Markup Language ( 超文本标记语言) 文本:记事本 超文本: 文字、图片、音频、视频、动画等等(网页) html语言经过浏览器的编译显示成超文本 开发者使用5种浏览器&#xf…

element ui ts table重置排序

#日常# 今天带的实习生&#xff0c;在遇到开发过程中&#xff0c;遇到了element ui table 每次查询的时候都需要重置排序方式&#xff0c;而且多个排序是由前端排序。 <el-table :data"tableData" ref"restTable"> </<el-table> <script…

谷粒商城实战笔记-24-分布式组件-SpringCloud Alibaba-Nacos配置中心-命名空间与配置分组

文章目录 一&#xff0c;命名空间1&#xff0c;简介1.1&#xff0c;命名空间的主要功能和特点1.2&#xff0c;使用场景1.3&#xff0c;如何指定命名空间 2&#xff0c;命名空间实战2.1&#xff0c;环境隔离2.2&#xff0c;服务隔离 二&#xff0c;配置集三&#xff0c;配置集ID…

半月内笔者暂不写时评文

今晨&#xff0c;笔者在刚恢复的《新浪微博》发布消息表态如下&#xff1a;“要开会了&#xff01;今起&#xff0c;半月内笔者暂不写敏感时评文&#xff0c;不让自媒体网管感到压力&#xff0c;也是张驰有度、识时务者为俊杰之正常选择。野钓去也。” 截图&#xff1a;来源笔者…

apple watch程序出错 Cannot launch apps while in nightstand mode

开发的时候运行apple watch程序出错&#xff1a; ailure Reason: The request was denied by service delegate (IOSSHLMainWorkspace) for reason: Busy ("Cannot launch apps while in nightstand mode"). 这是因为&#xff1a; 将Apple Watch放在充电器上并直立…

4款免费国产开源软件,功能过于强大,常被认为是外国人开发

之前小编分享了一些良心的电脑软件&#xff0c;大部分都是国外的开源软件&#xff0c;就有部分同学在后台说小编有点极端了&#xff0c;国内也是有良心的电脑软件的。 本期就是国产软件专场&#xff0c;今天就给大家推荐几款良心的国产电脑软件&#xff0c;说真的&#xff0c;…

“离职员工”试图打包资料带走,如何防止敏感数据外泄?

2010年5月间&#xff0c;某家电巨头四名前职工非法泄露该家电洗衣机重要生产和采购环节数据&#xff0c;给家电集团造成直接经济损失共计2952.35万元。 2017年1月&#xff0c;某科技巨头消费者终端业务6名员工&#xff0c;离职后拿着该企业终端的知识产权结果赚钱&#xff0c;最…

fork的理解

一. 注意点 1.进程是并发的&#xff0c;主进程和子进程同时进行&#xff0c;效率高2.子进程产生时是完全复制主进程的状态的&#xff0c;只有在产生修改的时候才会单独分配资源。 二. 下面程序一共应该为8个进程&#xff0c;但code的终端看到只有7个进程号的原因。因为fork返…

线程与进程的区别和联系

前言 在上篇文章里&#xff0c;我们知道了进程管理的一些相关知识-->http://t.csdnimg.cn/OVGAD&#xff0c;但是在实际编写代码的过程中&#xff0c;我们都是用一个CPU在工作&#xff0c;无法体现多核的优势&#xff0c;这次咱们在细分一下了解线程~ 什么是线程(Thread)&am…

three-tile: 1. 第一个three-tile程序

上篇介绍了&#xff1a;three-tile&#xff1a; 一个开源的轻量级三维瓦片库-CSDN博客 three-tile 是一个开源的轻量级三维瓦片库&#xff0c;它基于threejs使用typescript开发&#xff0c;提供一个三维地形模型&#xff0c;能轻松给你的应用增加三维瓦片地图。 项目地址&…

自建邮局服务器相比云邮箱有哪些优势特性?

自建邮局服务器如何配置&#xff1f;搭建自建邮局服务器的技术&#xff1f; 尽管云邮箱服务提供了便捷和低成本的解决方案&#xff0c;自建邮局服务器依然具有许多独特的优势和特性&#xff0c;吸引了众多企业和组织。AokSend将深入探讨自建邮局服务器相比云邮箱的主要优势。 …

如何指定多块GPU卡进行训练-数据并行

训练代码&#xff1a; train.py import torch import torch.nn as nn import torch.optim as optim from torch.utils.data import DataLoader, Dataset import torch.nn.functional as F# 假设我们有一个简单的文本数据集 class TextDataset(Dataset):def __init__(self, te…

本地部署私人知识库的大模型!Llama 3 + RAG!

在今天的的教程中&#xff0c;我们将打造更加个性化的大模型&#xff0c;可以定制搭载私人知识库的本地大模型&#xff01; 我们探讨Meta AI 的尖端 Llama 3 语言模型构建强大的检索增强生成 &#xff08;RAG&#xff09; 来实现。通过利用 Llama 3 和 RAG 技术的功能&#xf…

雨季的文物保护

随着夏季的到来&#xff0c;高温和多雨给文物保护带来了新的挑战。在这个季节&#xff0c;文物不仅面临着物理和化学损害的风险&#xff0c;还可能因为管理不善而遭受人为破坏。因此&#xff0c;探讨如何在夏季炎热天气中做好文物保护工作&#xff0c;对于维护文化遗产的完整性…

【深度学习】图形模型基础(7):机器学习优化中的方差减少方法(1)

摘要 随机优化是机器学习中至关重要的组成部分&#xff0c;其核心是随机梯度下降算法&#xff08;SGD&#xff09;&#xff0c;这种方法自60多年前首次提出以来一直被广泛使用。近八年来&#xff0c;我们见证了一个激动人心的新进展&#xff1a;随机优化方法的方差降低技术。这…

小白学c嘎嘎(第二天)入门基础下

温馨提醒&#xff1a;本篇文章起&#xff0c;文章内容排版将更新&#xff0c;层层深入 基础知识 回顾 引用的语法格式&#xff1a;类型& 引⽤别名 引⽤对象; 引用特性 1. 引⽤在定义时必须初始化 2. ⼀个变量可以有多个引⽤ 3. ⼀旦引⽤⼀个实体&#xff0c;再不…

药监局瑞数后缀补环境教学

声明 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01; (联系看首页&#xff09; 前言 之前用…

【python算法学习2】冒泡排序的写法

目的&#xff1a;学习冒泡排序的写法 1 定义 1.1百度百科 冒泡排序_百度百科在程序设计语言中&#xff0c;排序算法主要有冒泡排序、快速排序、选择排序以及计数排序等。冒泡排序&#xff08;Bubble Sort&#xff09;是最简单和最通用的排序方法&#xff0c;其基本思想是&…