1. KL散度
KL散度(Kullback-Leibler divergence),也称为相对熵(relative entropy),是由Solomon Kullback和Richard Leibler在1951年引入的一种衡量两个概率分布之间差异的方法。KL散度不是一种距离度量,因为它不满足距离度量的对称性和三角不等式的要求。但是,它仍然被广泛用于量化两个概率分布之间的“接近程度”。
在机器学习和统计学中,KL散度经常用于衡量模型的拟合程度。例如,在变分推断中,KL散度被用来度量近似后验分布与真实后验分布之间的差异;而在信息论中,KL散度被用来比较信源编码的效率。另外,KL散度还在自然语言处理、计算机视觉以及其他需要比较概率分布的领域中有着广泛应用。
2. ELBO
ELBO 是 Evidence Lower BOund 的缩写,中文可以翻译为“证据下界”。在贝叶斯统计和机器学习中,尤其是变分推断(Variational Inference)中,ELBO 被用来近似计算后验分布,并作为对数似然函数的一个下界。
ELBO 的第一项是数据的对数似然的期望值,代表了模型对数据的拟合程度;第二项是变分分布与先验分布之间的 KL 散度,它惩罚了变分分布远离先验分布的程度。
1.3 变分推断
变分推断(Variational Inference, VI)是一种用于近似复杂概率分布的技术,在贝叶斯统计和机器学习中非常有用。它通常用于处理那些后验分布难以精确计算的问题。在这些情况下,变分推断通过构造一个可管理的近似分布来代替真正的后验分布,并试图使这个近似分布尽可能接近真实分布。
变分推断的核心思想是将原本的推断问题转化为一个优化问题。具体来说,变分推断会从一个参数化的分布族中选择一个分布来近似真实的后验分布。这个过程涉及到最小化两个分布之间的差异,常用的是Kullback-Leibler散度(KL散度),这是一个衡量两个概率分布之间差异的非对称指标。
变分推断的目标是最小化KL散度:
变分推断在处理大规模数据集时特别有效,因为它避免了如马尔可夫链蒙特卡罗(MCMC)方法那样需要大量计算资源的抽样过程。此外,变分推断也可以与现代深度学习框架结合,使得复杂的模型能够被有效地训练。