如下图的一个简单样本,如果我们不知道图中的样本是出自几个高斯分布,那我们如果求这个图中的样本应该归属于几个高斯分布那?直观看上去,有同学可能说是4个,有同学可能说是2个,然而如果是高维数据那?可能我们画都没有办法把它画出来,这个时候连直观上去猜都没有办法猜。
这个问题实际上是一个数据的统计聚类问题。
这里假设如果每个数据都给一个参数,
并且假设
这里面如果是一个连续的分布,那么
所以不能从一个连续的分布中来取。
那么我们想通过一种方法,获得H的一个离散的版本,即,这里面的DP代表Dirichlet Process,即狄利克雷过程,这里面的是一个scalar,且,表征H的离散版本G有多离散,越小,G越离散;越大,G越不离散。极端情况,,那么G就是一个值,如果,G就是H。
G被称为H的随机测度。
总结,任意一个样本都对应一个产生它的分布,且这个分布的参数为;又出自分布H,H可能是连续的也可能是离散的,可以同归DP产生G的一个随机测度