机器学习第7章贝叶斯分类器

7.1 贝叶斯决策论

对分类任务来说，在所有相关概率都己知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。假设有N种可能的类别标记，即 $\gamma =\left \{ c_{1},c_{2},...,c_{N} \right \}$ , $\lambda _{ij}$ 是将一个真实标记为 $c_{j}$ 的样本误分类为 $c_{i}$
所产生的损失。基于后验概率 $P\left ( c_{i}\mid x \right )$ 可获得将样本 $x$ 分类为 $c_{i}$ 所产生的期望损失，，即在样本 $x$ 上的“条件风险”。 $R(c_i\mid\boldsymbol{x})=\sum_{j=1}^N\lambda_{ij}P(c_j\mid\boldsymbol{x})$
我们的任务是寻找一个判定准则 $h$ ： $\chi \mapsto \gamma$ 以最小化总体风险 $R\left(h\right)=\mathbb{E}_{\boldsymbol{x}}\left[R\left(h\left(\boldsymbol{x}\right)\mid\boldsymbol{x}\right)\right]$
对每个样本 $x$ ,若 $h$ 能最小化条件风险 $R\left ( h\left ( x \right )\mid x \right )$ ,则总体风险 $R\left ( h \right )$ 也将被最小化。故此，贝叶斯判定准则由此产生：为最小化总体风险，只需在每个样本上选择那个能使条件风险 $R\left ( c\mid x \right )$ 最小的类别标记，即
${h}^{ * }\left( \mathbf{x}\right) = \underset{c \in \mathcal{Y}}{\arg \min }R\left( {c \mid \mathbf{x}}\right)$
$h^{*} \left ( x \right )$ 称为贝叶斯最优分类器, $R\left ( h^{*}\right )$ 称为贝叶斯风险,1- $R\left ( h^{*}\right )$ 反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。
要想使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率 $P\left ( c\mid x \right )$ ,下面介绍两种策略尽可能准确地估计出后验概率。
（1）判别式模型：给定 $x$ ，可通过直接建模 $P\left ( c\mid x \right )$ 来预测 $c$ 。
（2）生成式模型：先对联合概率分布 $P\left ( x\mid c \right )$ 建模,再由此获得 $P\left ( c\mid x \right )$ 。
总的来说：贝叶斯决策论是一种基于概率统计的决策理论，它基于最大后验概率来作出分类决策。在分类问题中，我们选择具有最高后验概率的类别作为最终分类结果。

7.2 极大似然估计

令 $D_{c}$ 表示训练集 $D$ 中第c类样本组成的集合，，假设这些样本是独立同分布的，则参数 $\theta _{c}$ 对于数据集 $D_{c}$ 的似然是
$P\left( {{D}_{c} \mid {\mathbf{\theta }}_{c}}\right) = \mathop{\prod }\limits_{{\mathbf{x} \in {D}_{c}}}P\left( {\mathbf{x} \mid {\mathbf{\theta }}_{c}}\right)$
对 $\theta _{c}$ 进行极大似然估计，就是去寻找能最大化似然 $P\left ( D_{c}\mid \theta _{c} \right )$ 的参数值 $\hat{\theta } _{c}$ 。例如，在连续属性情形下，假设概率密度函数 $p\left( {\mathbf{x} \mid c}\right) \sim \mathcal{N}\left( {{\mathbf{\mu }}_{c},{\mathbf{\sigma }}_{c}^{2}}\right)$ ，则参数 $\mu _{c}$ 和 $\sigma _{c} ^{2}$ 的极大似然估计为
${\widehat{\mu }}_{c} = \frac{1}{\left| {D}_{c}\right| }\mathop{\sum }\limits_{{x \in {D}_{c}}}x$
${\widehat{\sigma }}_{c}^{2} = \frac{1}{\left| {D}_{c}\right| }\mathop{\sum }\limits_{{\mathbf{x} \in {D}_{c}}}\left( {\mathbf{x} - {\widehat{\mathbf{\mu }}}_{c}}\right) {\left( \mathbf{x} - {\widehat{\mathbf{\mu }}}_{c}\right) }^{\mathrm{T}}$
也就是说，通过极大似然法得到的正态分布均值就是样本均值，方差就是 $\left( {\mathbf{x} - {\widehat{\mathbf{\mu }}}_{c}}\right) {\left( \mathbf{x} - {\widehat{\mathbf{\mu }}}_{c}\right) }^{\mathrm{T}}$ 的均值。

7.3 朴素贝叶斯分类器

为避免难以从有限的训练样本直接估计类条件概率 $P\left ( x\mid c \right )$ 这个障碍，朴素贝叶斯分类器采用了"属性条件独立性假设" ：对已知类别，假设所有属性相互独立。换言之，假设每个属性独立地对分类结果发生影响。基于属性条件独立性假设
$P\left( {c \mid \mathbf{x}}\right) = \frac{P\left( c\right) P\left( {\mathbf{x} \mid c}\right) }{P\left( \mathbf{x}\right) } = \frac{P\left( c\right) }{P\left( \mathbf{x}\right) }\mathop{\prod }\limits_{{i = 1}}^{d}P\left( {{x}_{i} \mid c}\right)$
其中d为属性数目， $x_{i}$ 为 $x$ 在第i个个属性上的取值。
朴素贝叶斯分类器的表达式如下：
${h}_{nb}\left( \mathbf{x}\right) = \underset{c \in \mathcal{Y}}{\arg \max }P\left( c\right) \mathop{\prod }\limits_{{i = 1}}^{d}P\left( {{x}_{i} \mid c}\right)$
显然，朴素贝叶斯分类器的训练过程就是基于训练集 $D$ 来估计类先验概率 $P\left ( c \right )$ ,并为每个属性估计条件概率 $P\left ( x_{i}\mid c \right )$ 。
其中类先验概率为
$P\left( c\right) = \frac{\left| {D}_{c}\right| }{\left| D\right| }$
对离散属性，条件概率为
$P\left( {{x}_{i} \mid c}\right) = \frac{\left| {D}_{c,{x}_{i}}\right| }{\left| {D}_{c}\right| }$
对连续属性，条件概率为
$p\left( {{x}_{i} \mid c}\right) = \frac{1}{\sqrt{2\pi }{\sigma }_{c,i}}\exp \left( {-\frac{{\left( {x}_{i} - {\mu }_{c,i}\right) }^{2}}{2{\sigma }_{c,i}^{2}}}\right)$

7.4 半朴素贝叶斯分类器

半朴素贝叶斯分类器的基本想法是适当考虑一部分属性问的相互依赖信息，从而既不需进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”（ODE）是半朴素贝叶
斯分类器最常用的一种策略。即
$P\left( {c \mid \mathbf{x}}\right) \propto P\left( c\right) \mathop{\prod }\limits_{{i = 1}}^{d}P\left( {{x}_{i} \mid c,p{a}_{i}}\right)$
其中 $pa_{i}$ 为属性 $x_{i}$ 所依赖的属性，称为 $x_{i}$ 的父属性。若 $x_{i}$ 和 $pa_{i}$ 都已知，可以通过相关方法估计概率值 $P\left( {{x}_{i} \mid c,p{a}_{i}}\right)$ ，问题的关键就转化为如何确定每个属性的父属性。最直接的做法是假设所有属性都依赖于同一个属性，称为“超父”，然后通过交叉验证等模型选择方法来确定超父属性，由此形成了SPODE方法。
在这里插入图片描述
在（b）图中，所有属性都依赖 $x_{1}$ ,故 $x_{1}$ 是超父属性。

7.5 贝叶斯网

贝叶斯网，亦称“信念网”，，它借助有向无环图来刻画属性之间的依赖关系，并使用条件概率表来描述属性的联合概率分布。
一个贝叶斯网 $B$ 由结构 $G$ 和参数 $\Theta$ 构成，即 $G,\Theta >$ , $G$ 表示一个有向无环图， $\Theta$ 描述图中的边之间的依赖关系。

7.5.1 结构

给定父结点集，贝叶斯网假设每个属性与它的非后裔属性独立，于是 $G,\Theta >$ 将这些属性的联合概率分布定义为
${P}_{B}\left( {{x}_{1},{x}_{2},\ldots ,{x}_{d}}\right) = \mathop{\prod }\limits_{{i = 1}}^{d}{P}_{B}\left( {{x}_{i} \mid {\pi }_{i}}\right) = \mathop{\prod }\limits_{{i = 1}}^{d}{\theta }_{{x}_{i} \mid {\pi }_{i}}$
下图显示了贝叶斯网中三个变量之间的典型依赖关系。
在这里插入图片描述

7.5.2 学习

贝叶斯网络的学习包括参数学习和结构学习。参数学习是指从数据中学习节点之间的条件概率分布，而结构学习是指从数据中学习网络的拓扑结构。

7.5.3 推断

在贝叶斯网络中，推断是指根据已知观测值推断其他变量的状态。常用的推断算法包括变量消元、近似推断和马尔可夫链蒙特卡洛等。

7.6 EM算法

EM算法是常用的估计参数隐变量的利器，它是一种迭代式的方法，其基本想法是:若参数 $\Theta$ 已知，则可根据训练数据推断出最优隐变量Z的值（E步）；反之，若Z的值已知，则可方便地对参数 $\Theta$ 做极大似然估计（M步）
以初始值 $\Theta^{0}$ 为起点，可迭代执行以下步骤直至收敛:
（1）基于 $\Theta^{t}$ 推断隐变量Z的期望，记为 $Z^{t}$ ;
（2）基于已观测变量X和 $Z^{t}$ 对参数 $\Theta$ 做极大似然估计，记为 $Z^{t+1}$

这就是EM算法原型。
若我们不是取Z的期望，而是基于 $\Theta^{t}$ 计算隐变量Z的概率分布 $P\left ( Z\mid X,\Theta ^{t} \right )$ ，则EM算法的步骤是
（1）E步：以当前参数 $\Theta^{t}$ 推断隐变量分布 $P\left ( Z\mid X,\Theta ^{t} \right )$ ,并计算对数似然 $LL(\Theta \mid X,Z)$ 关于Z的期望
$Q\left( {\Theta \mid {\Theta }^{t}}\right) = {\mathbb{E}}_{\mathbf{Z} \mid \mathbf{X},{\Theta }^{t}}{LL}\left( {\Theta \mid \mathbf{X},\mathbf{Z}}\right)$
（2）M步：寻找参数最大化期望似然，即
${\Theta }^{t + 1} = \underset{\Theta }{\arg \max }\;Q\left( {\Theta \mid {\Theta }^{t}}\right)$