引言

上一节引出了基于狄利克雷过程的预测任务，本节将对该预测任务进行求解。

回顾：基于狄利克雷过程的预测过程

在已知隐变量样本集合 $\theta = \{\theta^{(i)}\}_{i=1}^N$ 的条件下，关于一个陌生样本 $\hat {\theta}$ 的后验概率分布 $\mathcal P(\hat \theta \mid \theta)$ 可表示为：
$\mathcal P(\hat \theta \mid \theta) = \sum_{\mathcal G} \mathcal P(\hat \theta \mid \mathcal G) \cdot \mathcal P(\mathcal G \mid \theta)$
其中 $\mathcal P(\mathcal G \mid \theta)$ 是指随机测度 $\mathcal G$ 的后验概率分布；而 $\mathcal P(\hat \theta \mid \mathcal G)$ 表示关于陌生隐变量样本的预测分布。

这个预测分布最终会得到一个 $\theta$ 具体数值的概率分布。但实际上，我们对预测出的 $\theta$ 数值并不关心，我们更关心的是哪些 $\theta^{(i)}$ 样本，它们的 $\theta$ 数值相等。
因为一旦 $\theta^{(i)} = \theta^{(j)}(i \neq j;\theta^{(i)},\theta^{(j)} \in \theta)$ 这就意味着对应的 $\theta^{(i)}\Rightarrow x^{(i)},\theta^{(j)} \Rightarrow x^{(j)}$ 属于同一类别。但 $\theta^{(i)} = \theta^{(j)} = ?$ 这个值我们并不关心。

假设每个真实样本均隐含地存在一个聚类标签： $\mathcal Z = \{z^{(i)}\}_{i=1}^N$ ，那么最终的将预测过程转化为： $\mathcal P(\hat z \mid \mathcal Z)$ 。
关于真实样本 $\hat x$ 最终被划分到了哪个具体类别——才是真正关心的信息,而 $\mathcal Z$ 则表示数据集合中样本点对应的标签结果。

预测任务的求解过程

关于预测任务的转化结果表达如下：
$\mathcal P(\hat z = m \mid \mathcal Z) \quad \mathcal Z = \{z^{(1)},z^{(2)},\cdots,z^{(N)}\}$
其中 $\hat z$ 是对应陌生样本的隐含标签；而 $m$ 则表示这个离散标签可选择的某个结果。首先，通过贝叶斯定理，可以将上式表示为如下形式：
$\mathcal P(\hat z = m \mid \mathcal Z) = \frac{\mathcal P(\hat z = m,\mathcal Z)}{\mathcal P(\mathcal Z)}$

其次将狄利克雷过程引入进来。但由于狄利克雷过程中可能包含无穷多个随机变量 $\theta_1,\theta_2,\cdots,\theta_{\infty}$ (它的随机变量数量由 $\alpha$ 决定)。关于对狄利克雷过程中随机变量的积分是复杂的。这里退而求其次，首先引入一个狄利克雷分布：
$\mathcal P(\mathcal G) = \text{DP}(\alpha,\mathcal H)= \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D})]$
上式 $\mathcal P(\mathcal G)$ 明显是随机测度 $\mathcal G$ 的先验分布，而随机测度 $\mathcal G$ 就是通过狄利克雷过程 $\text{DP}(\alpha,\mathcal H)$ 生成的，因而 $\mathcal P(\mathcal G) = \text{DP}(\alpha,\mathcal H)$ ；

$\mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})$ 分别表示随机测度 $\mathcal G$ 的的样本空间被划分成 $\mathcal D$ 个区域，各个区域原子数量的结果。根据狄利克雷过程的核心性质，可以将上式转化为：
$\mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D})] = \text{Dir}[\alpha \mathcal H(a_1),\alpha \mathcal H(a_2),\cdots,\alpha \mathcal H(a_{\mathcal D})]$
这里不妨设基本测度 $\mathcal H$ 是一个均匀分布，则有：
$\begin{cases} \mathcal H(a_1) = \mathcal H(a_2)= \cdots = \mathcal H(a_{\mathcal D}) = \frac{1}{\mathcal D} \quad \sum_{d=1}^{\mathcal D} \mathcal H(a_d) = 1 \\ \text{Dir}[\alpha \mathcal H(a_1),\alpha \mathcal H(a_2),\cdots,\alpha \mathcal H(a_{\mathcal D})] = \text{Dir} \left(\underbrace{\frac{\alpha}{\mathcal D},\frac{\alpha}{\mathcal D},\cdots,\frac{\alpha}{\mathcal D}}_{\mathcal D个}\right) \end{cases}$
至此，将狄利克雷分布引入到 $\mathcal P(\hat z = m \mid \mathcal Z)$ 中：
$\begin{aligned} \mathcal P(\hat z = m \mid \mathcal Z) & = \frac{\mathcal P(\hat z = m,\mathcal Z)}{\mathcal P(\mathcal Z)} \\ & = \frac{\sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \mathcal P[\hat z = m,\mathcal Z \mid \mathcal G(a_1),\cdots, \mathcal G(a_{\mathcal D})] \cdot \mathcal P[\mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})]}{\sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \mathcal P[\mathcal Z \mid \mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})] \cdot \mathcal P[\mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})]} \\ \end{aligned}$
再将狄利克雷分布代入，有：
$\mathcal P(\hat z = m \mid \mathcal Z) = \frac{\sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \mathcal P[\hat z = m,\mathcal Z \mid \mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})] \cdot \text{Dir}\left(\frac{\alpha}{\mathcal D},\frac{\alpha}{\mathcal D},\cdots,\frac{\alpha}{\mathcal D}\right)}{\sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \mathcal P[\mathcal Z \mid \mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})] \cdot \text{Dir}\left(\frac{\alpha}{\mathcal D},\frac{\alpha}{\mathcal D},\cdots,\frac{\alpha}{\mathcal D}\right)}$
通过观察，分子分母非常相似，先从求解分子开始：
$\sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \mathcal P[\hat z = m,\mathcal Z \mid \mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})] \cdot \text{Dir}\left(\frac{\alpha}{\mathcal D},\frac{\alpha}{\mathcal D},\cdots,\frac{\alpha}{\mathcal D}\right)$
其中 $\mathcal P[\hat z = m,\mathcal Z \mid \mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})]$ 表示关于 $\hat z,\mathcal Z$ 的似然分布，是一个多项式分布。根据指数族分布的共轭性质，积分内的乘积结果同样是狄利克雷分布。将积分号内各项的概率密度函数表示出来：
该项本质上是关于后验分布的推导过程

分子用符号 $\mathcal I_{numer}$ 表示。
其中 $\hat z,\mathcal Z$ 表示聚类标签的具体分布，并且它们的分布与随机测度 $\mathcal G$ 的离散数量相同。假设 $\hat z,\mathcal Z$ 的离散随机变量是 $z_1,\cdots,z_{\mathcal D}$ .
$\mathcal I_{numer} = \sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \left(\frac{\left(\sum_{d=1}^{\mathcal D} z_d\right)!}{z_1! \cdots z_{\mathcal D}!} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{z_d}\right) \cdot \left(\frac{\Gamma \left[\alpha\sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D}\right]}{\prod_{d=1}^{\mathcal D}\Gamma(\alpha\sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D})}\prod_{d=1}^{\mathcal D}\mathcal G(a_d)^{\frac{\alpha}{\mathcal D} - 1}\right)$

从概率密度积分的角度观察：

由于多项式分布是狄利克雷分布的共轭先验，根据贝叶斯定理，分子积分内的项必然与狄利克雷分布之间存在常数的系数关系：
这里假设这个常数项是 $\mathcal C = \mathcal P(\hat z,\mathcal Z)$ ,对应的后验狄利克雷分布记作 $\text{Dir}_{post}$ .
$\begin{aligned} & \mathcal C \cdot \text{Dir}_{post} = \mathcal P[\hat z = m,\mathcal Z \mid \mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})] \cdot \text{Dir}\left(\frac{\alpha}{\mathcal D},\frac{\alpha}{\mathcal D},\cdots,\frac{\alpha}{\mathcal D}\right) \\ & \Rightarrow \text{Dir}_{post} \propto \mathcal P[\hat z = m,\mathcal Z \mid \mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})] \cdot \text{Dir}\left(\frac{\alpha}{\mathcal D},\frac{\alpha}{\mathcal D},\cdots,\frac{\alpha}{\mathcal D}\right) \\ & \Rightarrow \mathcal I_{numer} = \sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \mathcal C \cdot \text{Dir}_{post} \propto \sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \text{Dir}_{post} \end{aligned}$
针对上式第二步， $\propto$ 左右两侧的概率分布分别对各自的随机变量进行积分：
$\begin{aligned} 1 = \sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \text{Dir}_{post} & \propto \sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \left(\frac{\left(\sum_{d=1}^{\mathcal D} z_d\right)!}{z_1! \cdots z_{\mathcal D}!} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{z_d}\right) \cdot \left(\frac{\Gamma \left[\alpha\sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D}\right]}{\prod_{d=1}^{\mathcal D}\Gamma(\alpha\sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D})}\prod_{d=1}^{\mathcal D}\mathcal G(a_d)^{\frac{\alpha}{\mathcal D} - 1}\right) \\ & = \underbrace{\left\{\frac{\left(\sum_{d=1}^{\mathcal D} z_d\right)!}{z_1! \cdots z_{\mathcal D}!} \cdot \frac{\Gamma \left[\alpha\sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D}\right]}{\prod_{d=1}^{\mathcal D}\Gamma(\alpha\sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D})}\right\}}_{前项} \cdot \underbrace{\sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \left[\prod_{d=1}^{\mathcal D}\mathcal G(a_d)^{z_d + \frac{\alpha}{\mathcal D} - 1}\right]}_{后项} \end{aligned}$
关于后项 $\sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \left[\prod_{d=1}^{\mathcal D}\mathcal G(a_d)^{z_d + \frac{\alpha}{\mathcal D} - 1}\right]$ 可以近似地看作前项的倒数：
- 之所以是近似，是因为 $1$ 和前项X后项之间仅是 $\propto$ 关系，而不是 $=$ 关系。
- $\Gamma$ 函数是一个以 $\exp$ 为底的指数函数，将连乘项直接代入到 $\Gamma$ 函数中。并且 $\sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D} = 1$ 直接消掉了。
- $\sum_{d=1}^{\mathcal D}$ 本身就表示多项式分布的随机变量集合，这里直接使用 $\mathcal Z$ 进行表示。
  $\begin{aligned} \sum_{\mathcal G(a_1)},\cdots,\sum_{\mathcal G(a_{\mathcal D})} \left[\prod_{d=1}^{\mathcal D}\mathcal G(a_d)^{z_d + \frac{\alpha}{\mathcal D} - 1}\right] & \propto \frac{z_1 !\cdots z_{\mathcal D}!}{\left(\sum_{d=1}^{\mathcal D} z_d\right)!} \cdot \frac{\prod_{d=1}^{\mathcal D} \Gamma \left(\alpha \sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D}\right)}{\Gamma \left[\alpha \sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D}\right]} \\ & = \frac{\prod_{d=1}^{\mathcal D} \Gamma \left(\alpha + z_d\right)}{\Gamma \left[\alpha + \mathcal Z\right]} \end{aligned}$

最终整理，可以得到关于分子 $\mathcal I_{numer}$ 表示如下：
$\mathcal I_{numer} = \left\{\frac{\left(\sum_{d=1}^{\mathcal D} z_d\right)!}{z_1! \cdots z_{\mathcal D}!} \cdot \frac{\Gamma \left[\alpha\sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D}\right]}{\prod_{d=1}^{\mathcal D}\Gamma(\alpha\sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D})}\right\} \cdot \frac{\prod_{d=1}^{\mathcal D} \Gamma \left(\alpha + z_d\right)}{\Gamma \left[\alpha + \mathcal Z\right]}$
但需要做几点说明：

虽然 $\frac{\left(\sum_{d=1}^{\mathcal D} z_d\right)!}{z_1! \cdots z_{\mathcal D}!}$ 描述的是多项式分布的系数，但 $z_1,\cdots,z_{\mathcal D}$ 分别表示统计样本属于各个划分的数量，这种统计方式在聚类任务中是不合理的。
例如某样本分布及对应划分如下图所示：

上述2组，每组4个样本分布完全相同，两种划分方式的多项式分布系数均相同，均等于6；但从聚类角度观察，它们是差异极大的两种聚类。因而对 $\mathcal I_{numer}$ 表示时，删除多项式分布系数的影响。
关于狄利克雷分布的系数 $\frac{\Gamma \left[\alpha\sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D}\right]}{\prod_{d=1}^{\mathcal D}\Gamma(\alpha\sum_{d=1}^{\mathcal D} \frac{1}{\mathcal D})}$ ，无论是分子还是分母，关于先验分布均是从同一个狄利克雷过程中生成的。这意味着划分空间数量 $\mathcal D$ 是固定的。分子分母项可以同时消掉该部分系数。

最终，可以将分子 $\mathcal I_{numer}$ 表示为：
$\mathcal I_{numer} \Rightarrow \frac{\prod_{d=1}^{\mathcal D} \Gamma \left(\alpha + z_d\right)}{\Gamma \left[\alpha + \mathcal Z\right]}$