【一起啃书】《机器学习》第七章贝叶斯分类器

文章目录

- - 第七章贝叶斯分类器
  - - 7.1 贝叶斯决策论
    - 7.2 极大似然估计
    - 7.3 朴素贝叶斯分类器
    - 7.4 半朴素贝叶斯分类器
    - 7.5 贝叶斯网
    - 7.6 EM算法

第七章贝叶斯分类器

7.1 贝叶斯决策论

对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记，假设有 $N$ 中可能的类别标记，即 $y = \{ {c_1},{c_2},...,{c_N}\}$ ， ${\lambda _{ij}}$ 是将一个真实标记为 $c_j$ 的样本误分类为 $c_i$ 所产生的损失，基于后验概率 $P({c_i}|{\bf{x}})$ 可获得将样本 $\bf{x}$ 分类为 $c_i$ 所产生的期望损失，即在样本 $\bf{x}$ 上的“条件风险”：
$R({c_i}|{\bf{x}}) = \sum\limits_{j = 1}^N {{\lambda _{ij}}P({c_j}|{\bf{x}})}$
我们的任务是寻找一个判定准则 $\mapsto y$ 以最小化总体风险：
${\mathbb{E}_{\bf{x}}}[R(h({\bf{x}})|{\bf{x}})]$
显然，对每个样本 $\bf{x}$ ，若 $h$ 能最小化条件风险 $R(h({\bf{x}})|{\bf{x}})$ ，则总体风险 $R (h)$ 也将被最小化，这就产生了贝叶斯判定准则：为最小化总体风险，只需在每个样本上选择那个能使条件风险 $R(c|\bf{x})$ 最小的类别标记，即
${h^*}({\bf{x}}) = \mathop {\arg \min }\limits_{c \in y} R(c|{\bf{x}})$
此时， $h^*$ 称为贝叶斯最优分类器，与之对应的 $R(h^*)$ 称为贝叶斯风险， $1-R(h^*)$ 反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。

不难看出，欲使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率 $P(c|\bf{x})$ ，然而在现实任务中这通常难以直接获得，所以机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 $P(c|\bf{x})$ ，目前共有以下两种策略：

判别式模型：给定 $\bf{x}$ ，可通过直接建模 $P(c|\bf{x})$ 来预测 $c$
生成式模式：先对联合概率分布 $P(\bf{x},c)$ 建模，然后再由此获得 $P(c|\bf{x})$

$P(c|{\bf{x}}) = \frac{{P({\bf{x}},c)}}{{P({\bf{x}})}} = \frac{{P(c)P({\bf{x}}|c)}}{{P({\bf{x}})}}$

其中 $P (c)$ 是类“先验”概率， $P(\bf{x}|c)$ 是样本 $\bf{x}$ 相对于类标记 $c$ 的类条件概率（也叫“似然”）， $P(\bf{x})$ 是用于归一化的“证据”因子。对于给定的样本 $\bf{x}$ ，证据因子 $P(\bf{x})$ 与类标记无关，因此估计 $P(c|\bf{x})$ 的问题就转化为如何基于训练数据 $D$ 来估计先验 $P (c)$ 和似然 $P(\bf{x}|c)$ 。

类先验概率 $P (c)$ 表达了样本空间中各类样本所占的比例，根据大数定律，当训练集包含充足的独立同分布样本时， $P (c)$ 可通过各类样本出现的概率来进行估计。

对类条件概率 $P(\bf{x}|c)$ 来说，由于它涉及关于 $\bf{x}$ 所有属性的联合概率，直接根据样本出现的概率来估计将会遇到严重的困难。

先验概率：在没有观察到新信息之前，对某个事件或参数的主观概率估计。
后验概率：在观察到新信息之后，对某个事件或参数的概率重新估计。
似然：在某个事件或参数已知的情况下，观察到新信息的概率。

7.2 极大似然估计

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计，假设 $P(\bf{x}|c)$ 具有确定的形式并且被参数向量 $\theta_c$ 唯一确定，那么需要用训练集 $D$ 来估计参数 $\theta_c$ 。

下面先介绍统计学界两个学派对于参数估计的看法：

频率主义学派：参数未知，但是客观存在的固定值，可通过优化似然函数等准则来确定参数值，这也形成了统计学习。
贝叶斯学派：参数是未观察到的随机变量，其本身也有分布，可假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布，这也形成了贝叶斯学习。

下面来介绍源于频率主义学派的极大似然估计，令 $D_c$ 表示训练集 $D$ 中第 $c$ 类样本组成的集合，假设这些样本是独立同分布的，则参数 $\theta_c$ 对于数据集 $D_c$ 的似然是
$P({D_c}|{\theta _c}) = \prod\limits_{{\bf{x}} \in {D_c}} {P({\bf{x}}|{\theta _c})}$
考虑到连乘操作易造成下溢（小实值连乘），通常使用对数似然，如下所示
$LL({\theta _c}) = \log P({D_c}|{\theta _c}) = \sum\limits_{{\bf{x}} \in {D_c}} {\log P({\bf{x}}|{\theta _c})}$
这样对 $\theta_c$ 进行极大似然估计，寻找到能最大化似然 $P(D_c|\theta_c)$ 的参数值 $\hat{\theta}_c$ ，如下所示
${\hat\theta _c} = \mathop {\arg \max }\limits_{{\theta _c}} LL({\theta _c})$
下面对极大似然举个例子

7.3 朴素贝叶斯分类器

基于贝叶斯公式来估计后验概率的主要困难在于：类条件概率是所有属性上的联合概率，难以从有限的训练样本直接估计而得；而且基于有限训练样本直接估计联合概率，在计算上将会遭遇组合爆炸问题，在数据上将会遭遇样本稀疏问题（属性数越多，问题越严重）。

为避开这个障碍，朴素贝叶斯分类器采用了“属性条件独立性假设”：对已知类别，假设所有属性相互独立，也就是假设每个属性独立地对分类结果发生影响，如下所示，其中 $d$ 为属性数目， $x_i$ 为 $\bf{x}$ 在第 $i$ 个属性上的取值。
$P(c|{\bf{x}}) = \frac{{P(c)P({\bf{x}}|c)}}{{P({\bf{x}})}} = \frac{{P(c)}}{{P({\bf{x}})}}\prod\limits_{i = 1}^d {P({{x}_i}|c)}$
贝叶斯判定准则如下所示
${h_{nb}}({\bf{x}}) = \mathop {\arg \max }\limits_{c \in y} P(c)\prod\limits_{i = 1}^d {P({x_i}|c)}$
令 $D_c$ 表示训练集 $D$ 中第 $c$ 类样本组成的集合，若有充足的独立同分布样本，则可容易地估计出类先验概率 $\frac{{\left| {{D_c}} \right|}}{{\left| D \right|}}$ 。

对离散属性而言，令 $D_{c,x_i}$ 表示 $D_c$ 中在第 $i$ 个属性上取值为 $x_i$ 的样本组成的集合，则条件概率 $P(x_i|c)$ 可估计为
$P({x_i}|c) = \frac{{\left| {{D_{c,{x_i}}}} \right|}}{{\left| {{D_c}} \right|}}$
对连续属性可考虑概率密度函数，假定 $p({x_i}|c) \sim N({\mu _{c,i}},\sigma _{c,i}^2)$ ，其中 $\mu _{c,i}$ 和 $\sigma _{c,i}^2$ 分别是第 $c$ 类样本在第 $i$ 个属性上取值的均值和方差，则有
$p({x_i}|c) = \frac{1}{{\sqrt {2\pi } {\sigma _{c,i}}}}\exp ( - \frac{{{{({x_i} - {\mu _{c,i}})}^2}}}{{2\sigma _{c,i}^2}})$
下面对朴素贝叶斯分类器举个例子

7.4 半朴素贝叶斯分类器

半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息，从而既不需进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”是半朴素贝叶斯分类器最常用的一种策略，假设每个属性在类别之外最多仅依赖于一个其他属性，即
$P(c|{\bf{x}}) \propto P(c)\prod\limits_{i = 1}^d {P({x_i}|c,p{a_i})}$
其中 $pa_i$ 为属性 $x_i$ 所依赖的属性，称为 $x_i$ 的父属性，为了确定每个属性的父属性，最直接的做法是假设所有属性都依赖于同一个属性，称为“超父”，然后通过交叉验证等模型选择方法来确定超父属性。

7.5 贝叶斯网

贝叶斯网借助有向无环图来刻画属性之间的依赖关系，并使用条件概率表来描述属性的联合概率分布。具体来说，一个贝叶斯网 $B$ 由结构 $G$ 和参数 $\Theta$ 两部分构成，即 $\left\langle {G,\Theta } \right\rangle$ 。网络结构 $G$ 是一个有向无环图，其每个结点对应于一个属性，若两个属性有直接依赖关系，则它们由一条边连接起来；参数 $\Theta$ 定量描述这种依赖关系，假设属性 $x_i$ 在 $G$ 中的父结点集为 ${\pi _i}$ ，则 $\Theta$ 包含了每个属性的条件概率表 ${\theta _{{x_i}|\pi {}_i}} = {P_B}({x_i}|{\pi _i})$ 。

下面举例说明一下贝叶斯网，如下图所示，“色泽”直接依赖于“好瓜”和“甜度”，而“根蒂”则直接依赖于“甜度”，进一步可以从条件概率表中得到“根蒂”对“甜度”的量化依赖关系，如 $P$ (根蒂=硬挺|甜度=高)=0.1等。

（1）结构

贝叶斯网结构有效地表达了属性间的条件独立性，给定父结点集，贝叶斯网假设每个属性与它的非后裔属性独立，于是 $\left\langle {G,\Theta } \right\rangle$ 将属性 $x_i,x_2,...,x_d$ 的联合概率分布定义为
${P_B}({x_1},{x_2},...,{x_d}) = \prod\limits_{i = 1}^d {{P_B}({x_i}|{\pi _i})} = \prod\limits_{i = 1}^d {{\theta _{{x_i}|{\pi _i}}}}$
下图给出了贝叶斯网中三个变量之间的典型依赖关系，在“同父”结构中，给定父结点 $x_1$ 的取值，则 $x_3$ 与 $x_4$ 条件独立；在“顺序”结构中，给定 $x$ 的值，则 $y$ 与 $z$ 条件独立； $V$ 型结构又叫“冲撞”结构，给定子结点 $x_4$ 的取值， $x_1$ 与 $x_2$ 必不独立，而若 $x_4$ 的取值完全未知，则 $V$ 型结构下 $x_1$ 与 $x_2$ 却是相互独立的。这样的独立性又叫“边际独立性”。

为了分析有向图中变量间的条件独立性，可使用“有向分离”：

找出有向图中的所有 $V$ 型结构，在 $V$ 型结构的两个父结点之间加上一条有向边。
将所有有向边改为无向边。

（2）学习

贝叶斯网学习的首要任务就是根据训练数据集来找出结构最“恰当”的贝叶斯网，“评分搜索”是求解这一问题的常用方法，通过定义一个评分函数来评估贝叶斯网与训练数据的契合程度，然后基于这个评分函数来寻找结构最优的贝叶斯网。

常用评分函数通常基于信息论准则，此类准则将学习问题看作一个数据压缩任务，学习的目标是找到一个能以最短编码长度描述训练数据的模型。对于贝叶斯网学习而言，模型就是一个贝叶斯网，同时，每个贝叶斯网描述了一个在训练数据上的概率分布，自有一套编码机制能使那些经常出现的样本有更短编码，所以我们应该选择那个综合编码长度最短的贝叶斯网，这就是“最小描述长度”准则。

给定训练集 $D = \{ {x_1},{x_2},...,{x_m}\}$ ，贝叶斯网 $\left\langle {G,\Theta } \right\rangle$ 在 $D$ 上的评分函数可写为如下所示，其中 $\left| B \right|$ 是贝叶斯网的参数个数， $f(\theta )$ 表示描述每个参数 $\theta$ 所需的编码位数。
$f(\theta )\left| B \right| - LL(B|D)$
式中第一项是计算编码贝叶斯网 $B$ 所需的编码位数，第二项是计算 $B$ 所对应的概率分布 $P_B$ 对 $D$ 描述得有多好。于是，学习任务就转化为一个优化任务，也就是寻找一个贝叶斯网 $B$ 使评分函数 $s (B ∣ D)$ 最小。

若 $f(\theta)=1$ ，即每个参数用 $1$ 编码位描述，则得到 $A I C$ 评分函数
$\left| B \right| - LL(B|D)$
若 $f(\theta ) = \frac{1}{2}\log m$ ，即每个参数用 $\frac{1}{2}\log m$ 编码位描述，则得到 $B I C$ 评分函数
$\frac{{\log m}}{2}\left| B \right| - LL(B|D)$
若 $f(\theta)=0$ ，即不计算对网络进行编码的长度，则评分函数退化为负对数似然，相应的，学习任务退化为极大似然估计。

（3）推断

推断指的是通过已知变量观测值来推测待查询变量的过程，最理想的是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率，但这是一个 $NP$ 难问题，在现实应用中，贝叶斯网的近似推断常用吉布斯采样来完成，这是一种随机采样办法，如下所示。

7.6 EM算法

现实生活往往会遇到“不完整”的训练样本，例如西瓜的根蒂已脱落，无法看出是“蜷缩”还是“硬挺”。未观测变量的学名是“隐变量”。令 $\bf{X}$ 表示已观测变量集， $\bf{Z}$ 表示隐变量集， $\Theta$ 表示模型参数。若想对 $\Theta$ 做极大似然估计，则应最大化对数似然
$LL(\Theta |{\bf{X}},{\bf{Z}}) = \ln P({\bf{X}},{\bf{Z}}|\Theta )$
然而由于 $\bf{Z}$ 是隐变量，上式无法直接求解，此时可以通过对 $\bf{Z}$ 计算期望，来最大化已观测数据的对数“边际似然”
$LL(\Theta |{\bf{X}}) = \ln P({\bf{X}}|\Theta ) = \ln \sum {_{\bf{Z}}P({\bf{X}},{\bf{Z}}|\Theta )}$
$EM$ 算法是常用的估计参数隐变量的利器，它是一种迭代式的方法，其基本想法是：若参数 $\Theta$ 已知，则可根据训练数据推断出最优隐变量 $\bf{Z}$ 的值( $E$ 步)；反之，若 $\bf{Z}$ 的值已知，则可方便地对参数 $\Theta$ 做极大似然估计( $M$ 步)。