引言

上一节介绍了受限玻尔兹曼机的模型表示(Representation)，本节将介绍推断任务(Inference)。

回顾：受限玻尔兹曼机的模型表示

针对玻尔兹曼机概率图结构过于复杂，计算代价过于庞大的问题，提出一种关于结点间边的约束方式：只有隐变量和观测变量之间存在边连接，隐变量、观测变量内部无边连接。
已知一个受限玻尔兹曼机表示如下：
受限玻尔兹曼机——示例
从图中可以看出，受限玻尔兹曼机将随机变量集合 $\mathcal X$ 分成两个部分：
$\mathcal X = (x_1,x_2,\cdots,x_p)^T = \begin{pmatrix} h \\ v\end{pmatrix}$

其中蓝色结点表示观测变量包含的随机变量集合(这里使用向量表示) $(v_1,v_2,\cdots,v_n)^T$ ；
白色结点表示隐变量包含的随机变量集合 $(h_1,h_2,\cdots,h_m)^T$ ；
并且有 $m + n = p$ 。

基于该模型，随机变量集合 $\mathcal X$ 的联合概率分布 $\mathcal P(\mathcal X)$ 表示如下：
$\begin{aligned} \mathcal P(\mathcal X) = \mathcal P(h,v) & = \frac{1}{\mathcal Z} \exp \{- \mathbb E(h,v)\} \\ & = \frac{1}{\mathcal Z} \exp (v^T \mathcal W h + b^T v + c^Th) \\ & = \frac{1}{\mathcal Z} \left\{\prod_{j=1}^m \prod_{i=1}^n \exp (v_i \cdot w_{ij} \cdot h_j)\prod_{i=1}^n \exp (b_iv_i) \prod_{j=1}^m \exp (c_jh_j)\right\} \end{aligned}$
其中 $\mathcal W,b,c$ 分别表示针对结点和边的权重信息：
$\mathcal W = \begin{pmatrix} w_{11},w_{12},\cdots,w_{1m} \\ w_{21},w_{22},\cdots,w_{2m} \\ \vdots \\ w_{n1},w_{n2},\cdots,w_{nm} \\ \end{pmatrix}_{n \times m} \quad b = \begin{pmatrix} b_1 \\b_2 \\ \vdots \\ b_n \end{pmatrix}_{n \times 1} \quad c = \begin{pmatrix} c_1 \\ c_2 \\ \vdots \\ c_m \end{pmatrix}_{m \times 1}$

推断任务求解——后验概率(posterior)

关于受限玻尔兹曼机的推断任务，是基于模型参数 $\mathcal W,b,c$ 均已给定(模型已知)，将随机变量 $v, h$ 的概率分布求解出来。这里主要求解两方面的概率结果：

后验概率：包括观测变量后验 $\mathcal P(v \mid h)$ ，以及隐变量后验 $\mathcal P(h \mid v)$ 。
边缘概率：主要关注观测变量边缘概率分布： $\mathcal P(v)$

基于隐变量的后验概率求解

这里以隐变量后验 $\mathcal P(h \mid v)$ 为例，进行求解。 $\mathcal P(h \mid v)$ 本质上是针对隐变量集合的联合后验概率分布 进行求解：
$\mathcal P(h \mid v) = \mathcal P(h_1,h_2,\cdots,h_m \mid v)$

为了简化运算，定义随机变量集合 $\mathcal X$ 服从伯努利分布(Bernoulli Distribution)。从而无论是观测变量还是隐变量，都仅包含两种选择方式： ${0,1\}$ 。

然而根据受限玻尔兹曼机的特殊约束，在 $v$ 被观测的条件下，任意两个隐变量 $h_i,h_j \in h;i\neq j$ 之间均存在条件独立性。即：
详见马尔可夫随机场的结构表示中的’全局马尔可夫性‘(Global Markov Property)，由于 $h_i,h_j$ 之间不存在直接关联关系，因而它们只可能与某一观测变量之间达成关联关系。如果该观测变量被观测， $h_i,h_j$ 之间路径阻塞，两者自然条件独立。
$h_i \perp h_j \mid v$
因而，可以将 $\mathcal P(h \mid v)$ 简化为：
$\mathcal P(h \mid v) = \prod_{l=1}^m \mathcal P(h_l \mid v)$
仅需求解出 $\mathcal P(h_l \mid v)$ 即可。

首先求解 $\mathcal P(h_l = 1 \mid v)$ ，回顾已知条件——模型给定意味着随机变量 $\mathcal X$ 、隐变量 $h$ 、观测变量 $v$ 的 概率密度函数/联合概率分布 $\mathcal P(\mathcal X),\mathcal P(h),\mathcal P(v)$ 均是已知的。因此，这里将 除去 $h_l$ 之外剩余的其他隐变量 $h_{-l} = \{h_j\}_{j \neq l}$ 引入：
为什么可以将 $h_{-l}$ 直接写在条件概率的条件部分:因为 $h_{-l}$ 中的所有隐变量结点均与 $h_l$ 条件独立。这相当于 $h_{-l}$ 是无关条件，不影响 $h_l$ 后验概率结果。
$\begin{aligned} \mathcal P(h_l = 1\mid v) = \mathcal P(h_l =1\mid h_{-l},v) \end{aligned}$
使用贝叶斯定理将其展开：
后续推导，前式均使用 $\Delta$ 进行表示。
$\begin{aligned} \Delta & = \frac{\mathcal P(h_l=1,h_{-l},v)}{\mathcal P(h_{-l},v)} \\ & = \frac{\mathcal P(h_l=1,h_{-l},v)}{\sum_{h_l = 0,1} \mathcal P(h_l,h_{-l},v)}\\ & = \frac{\mathcal P(h_l = 1,h_{-l},v)}{\mathcal P(h_l = 1,h_{-l},v) + \mathcal P(h_l = 0,h_{-l},v)} \end{aligned}$
如何求解 $\mathcal P(h_l = 1,h_{-l},v)$ ？此时关于 $h, v$ 的联合概率分布 $\mathcal P(h,v)$ 是已知的，它就是 $\mathcal P(\mathcal X)$ 。这里利用联合概率分布 $\mathcal P(h,v)$ 对 $\mathcal P(h_l = 1,h_{-l},v)$ 进行求解。将表示联合概率分布的能量函数 分解成两部分：
$\mathbb E(h,v) = -\left(\sum_{j=1}^m \sum_{i=1}^n v_i \cdot w_{ij} \cdot h_j + \sum_{i=1}^n b_iv_i + \sum_{j=1}^m c_jh_j\right)$
- 和 $h_l$ 有关的部分：
  和隐变量 $h_l$ 结点相关的部分表示如下。
  
  当 $h_l$ 被确定之后， $\mathcal A_{h_l}(v)$ 函数和其他隐变量结点之间没有联系; $\mathcal H_l(v)$ 表示‘和隐变量’ $h_l$ 相关的、仅包含 $v$ 一种变量的函数(因为模型已知，模型参数 $w_{il},c_l$ 均已知)。
  $\begin{aligned} \mathcal A_{h_l}(v) & = h_l \sum_{i=1}^n w_{il} \cdot v_i + c_l \cdot h_l \\ & = h_l \left(\sum_{i=1}^n w_{il} \cdot v_i + c_l\right) \\ & = h_l \cdot \mathcal H_l(v) \end{aligned}$
- 剩余和 $h_l$ 无关的分布：
  除了上述的图描述，剩余的子图全部是‘与 $h_l$ 无关的分布’,用 $\mathcal H_{-l}(h_{-l},v)$ 表示。该式子和除去 $h_l$ 之外的其他结点均有关联。
  $\begin{aligned} \mathcal H_{{-l}}(h_{-l},v) & = \sum_{j \neq l}^m \sum_{i=1}^n h_j \cdot w_{ji} \cdot v_i + \sum_{i=1}^n b_i v_i + \sum_{j \neq l}^m c_j h_j \\ \mathbb E(h,v) & = - (\mathcal A_{h_l}(v) + \mathcal H_{-l}(h_{-l},v)) \\ & = - \left[ h_l \cdot \mathcal H_l(v) + \mathcal H_{-l}(h_{-l},v)\right] \end{aligned}$
至此，回归公式 $\Delta$ ：
- 分子部分可表示为：
  将 $h_l=1$ 代入。
  $\begin{aligned} \mathcal P(h_l=1,h_{-l},v) & = \frac{1}{\mathcal Z} \exp [ - \mathbb E(h,v)] \\ & = \frac{1}{\mathcal Z} \exp \left[\mathcal H_l(v) + \mathcal H_{-l}(h_{-l},v)\right] \end{aligned}$
- 分母部分可表示为：
  将 $h_l=0$ 代入。
  $\begin{aligned} \mathcal P(h_l = 1,h_{-l},v) + \mathcal P(h_l = 0,h_{-l},v) & = \frac{1}{\mathcal Z} \exp \left[\mathcal H_l(v) + \mathcal H_{-l}(h_{-l},v)\right] + \frac{1}{\mathcal Z} \exp [\mathcal H_{-l}(h_{-l},v)] \end{aligned}$
此时分子、分母同时除以分子：
$\frac{1}{\mathcal Z},\mathcal H_{-l}(h_{-l},v)$ 均消掉了。
$\begin{aligned} \Delta & = \frac{\mathcal P(h_l = 1,h_{-l},v)}{\mathcal P(h_l = 1,h_{-l},v) + \mathcal P(h_l = 0,h_{-l},v)} \\ & = \frac{1}{1 + \frac{\mathcal P(h_l = 0,h_{-l},v)}{\mathcal P(h_l = 1,h_{-l},v)}} \\ & = \frac{1}{1 + \frac{\frac{1}{\mathcal Z} \exp [\mathcal H_{-l}(h_{-l},v)]}{\frac{1}{\mathcal Z} \exp \left[\mathcal H_l(v) + \mathcal H_{-l}(h_{-l},v)\right]}} \\ & = \frac{1}{1 + \exp \{-\mathcal H_l(v)\}} \end{aligned}$
这个格式实际上就是 $\text{Sigmoid}$ 函数的表达形式：
$\text{Sigmoid}(x) = \frac{1}{1 + e^{-x}}$
因此，基于伯努利分布的离散型随机变量，受限玻尔兹曼机中基于观测变量 $v$ 给定(已被观测) 的条件下，某隐变量 $h_l$ 的后验概率分布 $\mathcal P(h_l = 1 \mid v)$ 可以使用 $\text{Sigmoid}$ 函数进行表示：
哈哈，叠了一堆buff~
此时的表达式中全部是已知的量。 $w_{il},c_l$ 是模型参数; $v_i(i=1,2,\cdots,n)$ 表示观测值。
$\begin{aligned} \mathcal P(h_l = 1 \mid v) & = \sigma [\mathcal H_l(v)] \\ & = \frac{1}{1 + \exp [- \mathcal H_l(v)]} \\ & = \frac{1}{1 + \exp \left[-\left(\sum_{i=1}^n w_{li} \cdot v_i + c_l\right)\right]} \end{aligned}$

此时 $\mathcal P(h_l = 1 \mid v)$ 已经求解。同理， $\mathcal P(h_l = 0 \mid v) = 1 - \mathcal P(h_l = 1 \mid v)$ ，从而关于 $\mathcal P(h_l \mid v)$ 的条件概率分布求解完毕：
$\mathcal P(h_l \mid v) = \begin{cases} \frac{1}{1 + \exp \left[-\left(\sum_{i=1}^n w_{li} \cdot v_i + c_l\right)\right]} \quad h_l =1 \\ \quad \\ \frac{\exp \left[-\left(\sum_{i=1}^n w_{li} \cdot v_i + c_l\right)\right]}{1 + \exp \left[-\left(\sum_{i=1}^n w_{li} \cdot v_i + c_l\right)\right]} \quad h_l = 0 \end{cases}$
从而，关于所有隐变量结点的后验概率分布 $\mathcal P(h \mid v)$ 即可求解：
$\mathcal P(h \mid v) = \prod_{j=1}^m \mathcal P(h_j \mid v)$

基于观测变量的后验概率求解

后验概率 $\mathcal P(v \mid h)$ 求解过程和 $\mathcal P(h \mid v)$ 求解思路完全相同：
$\mathcal P(v \mid h) = \prod_{i=1}^n \mathcal P(v_i \mid h)$
由于随机变量集合 $v$ 中各随机变量相互独立，依然从 $v$ 选择一个随机变量 $v_k$ 进行求解。由于 $v_k$ 同样是伯努利分布，因而 $\mathcal P(v_k = 1 \mid h)$ 可表示为：
对分母进行积分~
这次先将分子、分母同时除以 $\mathcal P(v_k = 1,v_{-k},h)$ ;
$\begin{aligned} \mathcal P(v_k = 1 \mid h) & = \mathcal P(v_k = 1 \mid v_{-k},h) \\ & = \frac{\mathcal P(v_k = 1,v_{-k},h)}{\mathcal P(v_{-k},h)}\\ & = \frac{\mathcal P(v_k = 1,v_{-k},h)}{\mathcal P(v_k = 1,v_{-k},h) + \mathcal P(v_k = 0,v_{-k},h)} \\ & = \frac{1}{1 + \frac{\mathcal P(v_k = 0,v_{-k},h)}{\mathcal P(v_k = 1,v_{-k},h)}} \end{aligned}$
此时，需要求解 $\mathcal P(v_k = 0,v_{-k},h),\mathcal P(v_k = 1,v_{-k},h)$ 。此时与 $v_k$ 相关的(存在边相连接的)随机变量集合为：
与某观测变量相关的随机变量集合
依然将结点分成两部分，与 $v_k$ 相关的和无关的。对应的能量函数表示如下：
$\begin{aligned} \mathbb E(h,v) & = -[v_k \cdot \mathcal V_k(h) + \mathcal V_{-k}(v_{-k},h)] \\ & \begin{cases} \mathcal V_k(h) = \sum_{j=1}^m w_{kj} \cdot h_j + b_k \\ \mathcal V_{-k}(v_{-k},h) = \sum_{j=1}^m \sum_{i \neq k}^n h_j \cdot w_{ji} \cdot v_i + \sum_{i\neq k}^n b_i v_i + \sum_{j=1}^m c_j h_j \end{cases} \end{aligned}$
将 $v_k= 1，v_k= 0$ 代入，有：
$\begin{cases} \mathcal P(v_k = 0,v_{-k},h) = \frac{1}{\mathcal Z} \exp \{\mathcal V_{-k}(v_{-k},h)\} \\ \mathcal P(v_k = 1,v_{-k},h) = \frac{1}{\mathcal Z} \exp \{\mathcal V_k(h) + \mathcal V_{-k}(v_{-k},h)\} \end{cases}$
最终，得到 $\mathcal P(v_k = 1 \mid h)$ 结果如下：
$\begin{aligned} \mathcal P(v_k = 1 \mid h) & = \frac{1}{1 + \exp [-\mathcal V_k(h)]} \\ & = \frac{1}{1 + [-\sum_{j=1}^m w_{kj} \cdot h_j + b_k]} \end{aligned}$

受限玻尔兹曼机与神经网络的联系

重新观察表示 $\mathcal P(h_l \mid v)$ 的 $\text{Sigmoid}$ 函数：
$\text{Sigmoid} \left(\sum_{i=1}^n w_{il} \cdot v_i + c_l\right)$
$\text{Sigmoid}$ 函数内部明显是一个线性计算：
观测变量集合 $(v_1,v_2,\cdots,v_n)^T$ 是自变量; $\mathcal W_l = (w_{1l},w_{2l}\cdots,w_{nl})^T$ 表示权重信息; $c_l$ 表示偏置信息。
$\begin{aligned} \sum_{j=1}^n w_{lj} \cdot v_j + c_l & = (w_{1l},w_{2l},\cdots,w_{nl})\begin{pmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{pmatrix} + c_l \\ & = \mathcal W_l^T \cdot v + c_l \end{aligned}$
因此，可以将 受限玻尔兹曼机和神经网络关联起来。将每一个观测变量 $v_i(i=1,2,\cdots,n)$ 看做一个神经元；因而受限玻尔兹曼机的隐变量可看成 激活函数是 $\text{Sigmoid}$ 函数的神经网络的隐藏层。