引言

本节将介绍高斯网络

回顾：

条件独立性

在概率图模型——背景介绍中介绍了条件独立性，条件独立性的核心思想是：给定某随机变量集合 $\mathcal X_{\mathcal A}$ 的条件下，可能存在随机变量集合 $\mathcal X_{\mathcal B},\mathcal X_{\mathcal C}$ 内部结点之间存在关联，但 $\mathcal X_{\mathcal B},\mathcal X_{\mathcal C}$ 之间不存在关联：
$\mathcal X_{\mathcal B} \perp \mathcal X_{\mathcal C} \mid \mathcal X_{\mathcal A}$
并且 $\mathcal X_{\mathcal A},\mathcal X_{\mathcal B},\mathcal X_{\mathcal C}$ 是三个不相交的特征集合。

概率图模型

在概率图模型——背景介绍中介绍了概率图模型(Probabilisitc Graphical Model,PGM)。从图的表示角度观察，它可以分为有向图和无向图两种：

基于有向图的概率图模型又称贝叶斯网络(Bayesian Network)，也称信念网络(Belief Network)。
从条件独立性的角度观察，贝叶斯网络的条件独立性表达包含三种经典情况：
- 同父结构(Common Parent)，对应概率图结构表示如下：
  
  上图结构表现的现象是：给定结点 $i_1$ 的取值，结点 $i_2,i_3$ 条件独立。
  $i_2 \perp i_3 \mid i_1$
- 顺序结构(Sequence)，对应概率图结构表示如下：
  
  上图结构表现的现象是：给定结点 $i_2$ 的取值，结点 $i_1,i_3$ 相互独立。
  $i_1 \perp i_3 \mid i_2$
- $\mathcal V$ 型结构(V-Structure)，对应概率图结构表示如下：
  
  该结构表现的现象是：给定 $i_3$ 结点的条件下， $i_1,i_2$ 必不独立；相反， $i_3$ 取值未知的条件下， $i_1,i_2$ 相互独立。
  $i_3 \mid i_1 \perp i_2$
基于无向图的概率图模型又称马尔可夫网络(Markov Network)，也称马尔可夫随机场(Markov Random Field)。
相比于贝叶斯网络，马尔可夫随机场中描述变量之间的依赖关系 仅包含一种格式：

该结构表现的现象是：给定 $i_1$ 结点的条件下，结点 $i_2,i_3$ 相互独立。
$i_2 \perp i_3 \mid i_1$

高斯网络

高斯网络介绍

高斯网络(Gaussian Network)，又称高斯概率图模型(Gaussian Probabilistic Graphical Model)。它同样也是一种概率图模型。
从随机变量的类型角度观察，将随机变量分为离散型随机变量核连续型随机变量两种。已经介绍的随机变量是离散型随机变量的有：

高斯混合模型(Gaussian Mixture Model,GMM)，其隐变量 $\mathcal Z$ 包含离散的 $|\mathcal K|$ 个取值，每个取值条件下的观测变量服从高斯分布：
$\mathcal P(\mathcal X) = \sum_{k=1}^{\mathcal K} \alpha_k \cdot \mathcal N(\mu_{k},\Sigma_k) \quad \sum_{k=1}^{\mathcal K} \alpha_k = 1$
隐马尔可夫模型(Hidden Markov Model,HMM)：隐变量 $\mathcal I$ 是离散型随机变量，观测变量 $\mathcal O$ 没有要求。
条件随机场(Condition Random Field,CRF)：隐变量 $\mathcal I$ 是离散型随机变量，观测变量 $\mathcal O_{1:T}$ 常以序列形式出现。

而高斯网络是随机变量是连续型随机变量 的一种代表模型，其核心思想是：随机变量都是连续型随机变量，并且随机变量服从高斯分布。同上，根据图的表示，高斯网络同样分为有向图和无向图两种表达形式：

高斯贝叶斯网络(Gaussian Beyasian Network,GBN)
高斯马尔可夫网络(Gaussian Markov Network,GMN)

高斯网络的条件独立性

假设一个高斯图模型表示如下：
高斯图模型——示例
这只是一个简单的马尔可夫网络，并且每个结点都是一个一维随机变量。这里的随机变量均是连续型随机变量，并且均服从高斯分布：
$x_i \sim \mathcal N(\mu_i,\Sigma_i)$
假设随机变量集合的维数是 $p$ ，整个高斯图模型中所有随机变量对应的概率密度函数 $\mathcal P(\mathcal X)$ 表示为：
$\begin{aligned} \mathcal X & = (x_1,x_2,\cdots,x_p)^T \\ \mathcal P(\mathcal X) & = \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left[-\frac{1}{2} (x - \mu)^T \Sigma^{-1}(x - \mu)\right] \end{aligned}$
这明显是一个多元高斯分布。一个高斯图模型和一个多元高斯分布存在映射关系。其中 $\mu$ 表示多元高斯分布的期望， $\Sigma$ 表示多元高斯分布的协方差矩阵。
其中，期望 $\mu$ 表示为：
$\mu = [\mu_i]_{p \times 1} = \begin{pmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_p \end{pmatrix}_{p \times 1}$
协方差矩阵 $\Sigma$ 表示为：
$\Sigma = [\sigma_{ij}]_{p \times p} = \begin{pmatrix} \sigma_{11},\sigma_{12},\cdots,\sigma_{1p} \\ \sigma_{21},\sigma_{22},\cdots,\sigma_{2p} \\ \vdots \\ \sigma_{p1},\sigma_{p2},\cdots,\sigma_{pp} \\ \end{pmatrix}_{p \times p}$
其中 $\sigma_{ij}$ 表示随机变量 $x_i,x_j$ 的协方差结果：
这里没有写成 $(x_i - \mu_i)(x_j - \mu_j)^T$ 因为已经设定的一维随机变量。
$\sigma_{ij} = Cov(x_i,x_j) = \mathbb E\left[(x_i - \mu_i)(x_j - \mu_j)\right]$

随机变量之间的边缘独立

根据协方差的定义，如果在同一物理量纲(基准)的条件下， $Cov(x_i,x_j) = 0$ ，那个称随机变量 $x_i,x_j$ 是不相关的。从独立性的角度观察，即 $x_i,x_j$ 相互独立：
这个相互独立意味着 $x_i$ 和 $x_j$ 在不观察其他变量的条件下是‘边缘独立/绝对独立’的，这种独立在现实世界的问题中并不常见。
$\begin{aligned} \sigma_{ij} = 0 & \Rightarrow x_i \perp x_j \\ \sigma_{ij} = 0 & \Rightarrow \mathcal P(x_i,x_j) = \mathcal P(x_i)\mathcal P(x_j) \end{aligned}$
如果两个随机变量之间的基准存在差异，对应的 $\sigma_{ij}$ 也可能存在很大差异。为此可以引入相关系数(Correlation Coefficient)：
$\begin{aligned} \rho_{ij} & = \frac{Cov(x_i,x_j)}{\sqrt{\mathcal D(x_i)}\sqrt{\mathcal D(x_j)}} \\ & = \frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sigma_{jj}}} \end{aligned}$
如果相关系数 $\rho_{ij} = 0$ 称 $x_i,x_j$ 不相关。

随机变量之间的条件独立

条件独立性本质上是为了简化运算提出的一种假设，从而在概率图模型中得到映射。
关于高斯网络的条件独立性，引入一个概念：精度矩阵(Precision Matrix)，也称作 信息矩阵(Information Matrix)。它是协方差矩阵的逆矩阵：
第一次遇到‘精度矩阵’是在推断任务之边缘概率分布与条件概率分布,记录一下时间点~
$\Lambda = \Sigma^{-1} = \begin{pmatrix} \lambda_{11},\lambda_{12},\cdots,\lambda_{1p} \\ \lambda_{21},\lambda_{22},\cdots,\lambda_{2p} \\ \vdots \\ \lambda_{p1},\lambda_{p2},\cdots,\lambda_{pp} \\ \end{pmatrix}_{p \times p}$
关于精度矩阵 $\Lambda$ 与条件独立性的关联关系表示如下：
其中 $x_{-i-j}$ 表示随机变量集合 $\mathcal X$ 中除去 $x_i,x_j$ 之外的其他随机变量。
$\lambda_{ij} = 0 \Leftrightarrow x_i \perp x_j \mid x_{-i-j}$
精度矩阵的核心在于：精度矩阵中的元素与条件独立性(概率图的映射)紧密结合在一起。