（二）基于Bayes方法的道路分割

一、实验目的

1、实验目标

学习掌握Bayes定理（Bayes Theorem）的基本原理及推导过程，以及公式中的先验概率、条件概率、后验概率、相似度等概念。在MATLAB的概率分布函数基础上，通过编写程序，实现图像块内结果统计和序贯信息融合2类方法下对3张不同图像的道路分割。实验过程中通过控制变量分析影响分类效果的因素，并对比SVM分类进行定量评估。

2、实验涉及到的学习内容

Bayes公式，先验概率、条件概率、后验概率、相似度相关概念，单线索、序贯信息融合融合判定的思想，以及MATLAB概率分布函数的使用方法。

二、实验具体完成情况

1、总体实验方案

        首先对所需要图片素材进行读取，使用程序自动标定样本点，标定完毕后分别存储于正负样本集合中。此时区分正负样本依次求得RGB各通道均值、协方差和先验概率。然后根据正负样本的均值、协方差构建分布函数。根据分布函数和先验概率可以构建2种方法下的判别函数，从而得到某个像素点属于道路与背景的概率。
        在Bayes分割过程中，均采用了图像块的处理思想，但涉及到两种不同的计算的思路。一种是基于图像块内像素点类别统计的判定，每当需要判断单个像素点的类别时，统计所属图像块内所有像素判别结果，中心像素与判别类型多的保持一致。另一种是序贯信息融合，即用图像块内其他像素点的信息作为新融合线索，增加中心点像素的准确率。
        考虑到实验整体需采取控制变量法的思维，对比研究样本数量对分割效果的影响时，若进行手工采样，两次采样则成了完全随机，实则下一次采样的应在前一次采样的基础上追加样本，而不是纯粹的随机。因此再采样方法上，本实验采用自动采样法。将每张图片的6份样本制作成样本集，不同实验均采用相同样本集。

2、具体技术途径

（1）数据收集
        选择包含道路和非道路区域的图像，为确保模型的适用性，要确保道路和背景尽可能的丰富，具备不同类型的特征。
（2）特征提取
        标记图像，将道路区域与非道路区域进行标注，提取其中的RGB值。标注提取的色块根据是否为道路区分正负样本，并分别计算先验概率、均值、协方差。
（3）概率分布函数构建
        根据Bayes公式：

$P\left( \omega _i\mathrm{ } \middle| \mathrm{ }X \right) =\frac{P\left( X\mathrm{ } \right|\mathrm{ }\omega _i)P(\omega _i)}{\sum_{j=1}^M{P\left( X\mathrm{ } \right|\mathrm{ }\omega _i)P}(\omega _i)}=\frac{P\left( X\mathrm{ } \right|\mathrm{ }\omega _i)P(\omega _i)}{P(X)}$

其中， $P(\omega _i)$ 为先验概率， $P\left( X\mathrm{ } \right|\mathrm{ }\omega _i)$ 为类条件概率/似然概率， $P\left( \omega _i\mathrm{ } \middle| \mathrm{ }X \right)$ 为后验概率。本实例中涉及正负2类样本，其中正样本共有 $n$ 个，负样本共有 $\bar{n}$ 个。

本实验需要比较后验概率 $P\left( \omega \mathrm{ } \middle| \mathrm{ }X \right)$ 与 $P\left( \bar{\omega}\mathrm{ } \middle| \mathrm{ }X \right)$ 的大小关系，根据Bayes公式可得到：

$\frac{P\left( \omega \mathrm{ } \middle| \mathrm{ }X \right)}{P\left( \bar{\omega}\mathrm{ } \middle| \mathrm{ }X \right)}=\frac{P\left( X\mathrm{ } \right|\mathrm{ }\omega )\bullet P(\omega )}{P\left( X\mathrm{ } \right|\mathrm{ }\bar{\omega})\bullet P(\bar{\omega})}$

根据上述公式，道路与背景的判定问题即可转换为 $\frac{P\left( X\mathrm{ } \right|\mathrm{ }\omega )\bullet P(\omega )}{P\left( X\mathrm{ } \right|\mathrm{ }\bar{\omega})\bullet P(\bar{\omega})}$ 与1的大小关系或 $P\left( X\mathrm{ } \right|\mathrm{ }\omega )\bullet P(\omega )-\mathrm{ }P\left( X\mathrm{ } \right|\mathrm{ }\bar{\omega})\bullet P(\bar{\omega})$ 与0的大小关系问题。

其中先验概率 $P\left( \omega \right) =\frac{n}{n+\bar{n}}$ ， $P\left( \bar{\omega} \right) =\frac{\bar{n}}{n+\bar{n}}$ ,]，而对于 $P\left( X\mathrm{ } \right|\mathrm{ }\omega )$ 和 $P\left( X\mathrm{ } \right|\mathrm{ }\bar{\omega})$ ，可根据多元正态分布函数（mvnpdf）构建。
多元正态分布是一元正态分布的双变量或多变量泛化。它有两个参数，即均值向量 $\mu$ 和协方差矩阵 $\varSigma$ ，它们类似于一元正态分布的均值和协方差参数。 $\varSigma$ 的对角线元素包含每个变量的协方差，而 $\varSigma$ 的非对角线元素包含变量之间的协方差。

$d$ 维多元正态分布的概率密度函数 (pdf) 是：

$y=f\left( x,\mu ,\mathrm{ }\varSigma \right) =\frac{1}{\sqrt{(2\pi )^d\left| \mathrm{ }\varSigma \right|}}e^{\left[ -\frac{1}{2}(x-\mu )\varSigma ^{-1}(x-\mu )^T \right]}$

其中 $x$ 和 $\mu$ 是 $1\times d$ 向量，而 $\varSigma$ 是 $d\times d$ 对称正定矩阵。
多元正态分布在MATLAB通过mvnpdf函数定义，其结构为 $p = mvnpdf(X, mu, Sigma)$ ，其中X为概率计算点，mu为多元正态分布的均值，Sigma 为多元正态分布的协方差。
各输入参数的维度特征如下：

输入量	维度特征
X	指定为 1×d 数值向量或 n×d 数值矩阵，其中 n 是正整数标量，d 是一个多元正态分布的维度。X 的行对应于观测值（或点），列对应于变量（或坐标）。
mu	多元正态分布的均值，指定为 1×d 数值向量或 n×d 数值矩阵。
Sigma	多元正态分布的协方差，指定为 d×d 对称正定矩阵或 d×d×n 数值数组。

因此对于判断检验点属于哪一类的问题，可转换为2个后验概率的大小比较问题。

$V=\frac{P\left( \omega \mathrm{ } \middle| \mathrm{ }X \right)}{P\left( \bar{\omega}\mathrm{ } \middle| \mathrm{ }X \right)}=\frac{P\left( X\mathrm{ } \right|\mathrm{ }\omega )\bullet P(\omega )}{P\left( X\mathrm{ } \right|\mathrm{ }\bar{\omega})\bullet P(\bar{\omega})}=\frac{f\left( x,\mu _1,\mathrm{ }\varSigma _1 \right) \bullet P(\omega _1)}{f\left( x,\mu _2,\mathrm{ }\varSigma _2 \right) \bullet P(\omega _2)}$

若V>1，则检验点与ω同一类别概率更大，反之与ω ̅同一类别概率更大。

（4）序贯信息融合
Bayes决策方法可以融合多种信息，将各种来源的结果综合在一起进行判断，得到最后结论，以2次观察为例，计算概率公式更新如下：

$P\left( \omega \middle| Z=\left( X_1,X_2 \right) \right) =\frac{P\left( Z \right|\omega )\bullet P(\omega )}{P(Z)}=\frac{P(Z,\omega )}{P(X_1,X_2)}=\frac{P\left( X_2 \right|\omega )\bullet P(\omega |X_1)\bullet P(X_1)}{P(X_2|X_1)\bullet P(X_1)}$

$\frac{P\left( X_2 \right|\omega )\bullet P(\omega |X_1)}{P(X_2|X_1)}=\frac{P\left( X_2 \right|\omega )\bullet P(\omega |X_1)}{P\left( X_2 \middle| \omega \right) \bullet P\left( \omega \middle| X_1 \right) +P(X_2|\bar{\omega})\bullet P(\bar{\omega}|X_1)}$

对于二分类问题，融合线索下的判别公式推导如下：

$W=\frac{P\left( \omega \mathrm{ } \middle| Z=\left( X_1,X_2 \right) \right)}{P\left( \bar{\omega}\mathrm{ } \middle| Z=\left( X_1,X_2 \right) \right)}=\frac{P\left( X_2 \right|\omega )\bullet P(\omega |X_1)}{P\left( X_2 \right|\bar{\omega})\bullet P(\bar{\omega}|X_1)}=\frac{P\left( X_2 \right|\omega )\bullet P\left( X_1 \right|\omega )\bullet P(\omega )}{P\left( X_2 \right|\bar{\omega})\bullet P\left( X_1 \right|\bar{\omega})\bullet P(\bar{\omega})}$

当W>1时，则检验点与ω同一类别概率更大，反之与ω ̅同一类别概率更大。以此类推，融合n条线索的情况下，概率比较公式如下：

$W=\frac{P\left( \omega \mathrm{ } \middle| Z=\left( X_1,X_2,\cdots ,X_n \right) \right)}{P\left( \bar{\omega}\mathrm{ } \middle| Z=\left( X_1,X_2,\cdots ,X_n \right) \right)}=\frac{P\left( X_n \right|\omega )\cdots P\left( X_2 \right|\omega )\bullet P\left( X_1 \right|\omega )\bullet P(\omega )}{P\left( X_n \right|\omega )\cdots P\left( X_2 \right|\omega )\bullet P\left( X_1 \right|\bar{\omega})\bullet P(\bar{\omega})}$

（5）程序自动采样与样本集制作
每张图均按照5、10、20、40、80、160对样本的顺序制作样本集合，均采用程序自动采样。具体思路如下：
首先通过手动抠图得到3张测试图的道路、背景区域示意图，如图1所示。自动采样前，首先遍历所有模板图像素颜色类型，得到各测试图的道路、背景坐标并存储于矩阵中。运行分割程序时，通过rng函数设定固定的随机数因子，再用rand函数为道路和背景生成随机的坐标索引，这样就可以通过随机索引和坐标矩阵定位到样本位置。而且该方法可以确保每次样本点的增加都是在前一次采样的基础上追加样本点，可以确保下一对样本得到的实验结果完全由增加的样本决定。

（6）像素类别统计方法下的分割实验

a.图像块的大小对分割结果的影响
以图像B为例，采用80对样本的样本集，然用概率分布函数和先验概率进行预测。通过调整图像块大小，统计图像块内道路、背景像素个数，并根据像素数量多的类别来判定中心点属于道路还是背景，下面为不同图像块尺寸下得到的分割结果。

        图像块的处理思想与取均值消除个体误差的思路类似，通过1×1、3×3、5×5、7×7的图像块大小试验，可以大致观察出随着图像块尺寸的增大，背景和道路区域的噪声都有不同程度的减少。
        b. 样本点采集对分割情况的影响
        从统计学的角度来说，样本点数量和正负样本点的比重对概率是有影响的。而分割实验本身，用到了先验概率和mvnpdf概率密度函数，以及先验概率。在做分割实验前，研究先验概率对实验结果的影响是必要的。
        根据Bayes概率公式的原理，先验概率是指根据以往经验和分析得到的概率，表达式为 $P\left( \omega \right) =\frac{n}{n+\bar{n}}$ ，其中 $n$ 和 $\bar{n}$ 分别为正负样本数。设 $P=\frac{S_n}{S}$ ,其中 $S_n$ 为图像中道路区域的面积，S为全图面积。当 $P\left( \omega \right) \rightarrow P$ 时，先验概率表达越准确。因此在进行样本采集时，应尝试样本密度相同，才能使先验概率更为准确。
        因此，从控制变量的角度出发，根据每张图的道路与背景的比重估计一个接近真实的先验概率是有益的。因此进行下面实验前，可先根据模板图读取结果得到先验概率，待分割的A、B、C张图像的先验概率分别为 $P_A(\omega )=21.54$ 、 $P_B(\omega )=59.69$ 、 $P_C(\omega )=38.57$ 。
        在后续的实验中，为避免样本集的属性使得每张图的先验概率均为0.5的情况，采集的样本均只用于计算均值和协方差。先验概率则采用基于模板得到的准确值。

对于图像A，当取5和40对样本时部分天空被识别成了道路，且5和10对样本时部分道路的水洼被识别成了天空，随着样本数量的增加，分割效果逐步提升，但当样本数达到80和160对时，道路尽头分割效果略有下降。

对于图像B。样本点数为5和10的时候分割得到的道路中，存在的一定的黑点，不同数量的样本集得到的分割效果大体相当。

        对于图像C，当取5、 10对样本时，分割效果严重失真。从第20对样本的结果开始，分割效果逐步优化。随着样本点的增加，分割的结果越来越准确，当样本数达到160组时，左侧的阴影区域的道路也被成功识别，但是远处道路区域的识别效果略有降低。
        （6）序贯信息融合下的分割实验
        序贯信息融合下分割实验，本质上就是将周边点的属性类型作为融合的线索，以此来判断中心点的属性类别。相当于周边像素点的概率分布函数值，更新中心点的类条件概率。下面针对3张测试图在不同样本点下进行序贯信息融合分割试验。

随着样本数增加，图像的分割效果与单线索下RGB色域分割实验情况类似，但是当40对样本时，单线索分割得到的结果中，天空的明暗交界处被识别成了道路，但相同样本集下序贯信息融合分割不存在此情况。

对于图像B，序贯信息融合下，分割效果与单线索分割效果相当。随着样本数量的增加，分割效果趋于稳定。

        对于图像C，序贯信息融合下，分割效果与单线索分割效果相当。随着样本数量的增加，分割效果逐步改善。
        （7）SVM分割实验
        为保证实验条件一致，进行SVM分割实验时，仍然沿用5、10、20、40、80、160对样本的样本集，判断中心像素点的属性时，采用类别统计的思想，即在3×3的图像块内统计其周边多个像素点的属性类别，并默认与多的统计结果保持一致。
        实验中，用到的为线性空间SVM，采集的样本为RGB值，求解方法为在原空间求解。

对于图像A，当样本数量为5和10组，分类效果明显不够理想，这是样本涵盖不够全面的缘故。随着样本数量的增加，样本更能覆盖不同特征的背景后，分割效果明显好转，但是天空与道路的样本在RGB空间距离较小，导致尽管样本增加，但是仍然避免不了天空被错分成了道路。

对于图像B，原图像的背景与道路颜色均相对单一，因此受采样的影响相对较小，即便是5和10对样本的情况，仍然能确保与样本较多时的分割情况大体相当。但是对于20和40组的样本，道路区域出现了一定噪声，当样本继续追加后情况消失，可能是因为样本分布的原因。

对于图像C，采用5和10对的样本集时，道路区域分割效果较好，但树林和天空区域效果较差。对比相应的样本集，这是样本特征不够丰富的原因。随着样本的逐步丰富，树林区域的背景识别更为精准，但天空区域仍然还是被识别为道路，主要原因还是因为在RGB空间天空与道路的特征较为接近。

3、实验结果与分析

（1）图像块大小对分割效果的影响

        由上表可知，保持采样点不变的情况下，图像块划分越细，得到的结果噪声越为明显。随着图像块的增大，程序会自动根据每个图像块中道路与背景像素的比重来评判该图像块的类别，起到了一定的滤除噪声效果，使得背景越来越纯净，道路轮廓越来越清晰。准确率方面，呈现出背景识别的成功率略有提升，而道路因为进一步被“腐蚀”，导致道路识别成功率略有下降。
        （2）3种实验方案效果对比
        本次实验全程均采用图像块的处理思想，其中SVM分割是基于所属图像块内的像素类别统计来判断中心点像素的类别，而Bayes分割在在采用次思想的基础上，额外增加了序贯信息融合的方式。下面将以上3中实验方案的整体识别准确率随样本的变化绘制在XY平面图中。

        a. 像素类别统计下SVM与Bayes分割效果分析
        对比蓝色与橙色线条走势，可以发现两者均随着样本数量的增加准确率逐步提升。但是对于SVM方法，如果遇到图像A和C的复杂场景，可以会由于颜色RGB颜色空间下样本的分布特性，使得其整体正确率不如Bayes方法。但是道路与背景颜色均相对单一的情况下，例如图像B，SVM与Bayes的分割效果整体相当。因此总体来看，Bayes方法整体更优。
        b. 像素类别统计与序贯信息融合下Bayes分割效果分析
对比灰色与橙色的线条走势，对比图像A、B、C，发现两者走势基本相同，但是大部分情况下，灰色线条的Y坐标要比橙色大，因此两者性能总体相当，但序贯信息融合的方法在准确率上略微领先。
（2）3张图片样本特征分析
    使用160对样本的样本集，对图像A、B、C的样本分布情况绘制的RGB空间采样分布图。

在采用同样的随机数因子的情况下，样本数依次增加，对图像A、B、C分别绘制样本均值与协方差（取协方差矩阵元素平均值）变化趋势图。

        对比样本空间分布图和均值、协方差变化趋势，可以得出以下结论。
        对于线性SVM来说，其分割效果主要取决于样本空间分布情况，若正负样本空间分布特点越明显，则线性SVM的分割性能越好，例如图像B。样本增加对分割性能的提升主要在于提升了分割超平面的精确度，但是若采用硬间隔，则会受错误样本的影响较大。
        对于Bayes来说，将图23-25与图29-31可发现，虽然图像复杂程度会对Bayes的分割效果产生影响，但是这种影响明显小于SVM。这主要是因为Bayes分割受样本RGB空间的分布特点影响较小，更多取决于先验概率和概率分布函数的精准度。可以说，样本均值和协方差在Bayes分类器中用于描述类别的特征分布，从而影响对图像的分类决策。更具体地说，样本均值表示了类别在特征空间中的中心，协方差矩阵描述了特征之间的关联性和分布的形状。这些信息一起影响了分类器对图像的分类结果。

三、实验心得与体会

1、Bayes方便进行多信息融合

对于使用SVM的分割实验，当涉及多种类别信息时，不可避免的需要将不同信息融入同一空间进行处理（例如将RGB数据与XY坐标融合组成5维信息），若不同类别的特征数值差异较大时还需要进行归一化处理）。若使用Bayes分割，可直接将不同的数据类别分别构造概率分布函数，再通过序贯信息融合进行判断。

2、Bayes一对多分类避免了样本不均衡的问题

对于SVM分割，当需要进行一对多分类时，某个区域可能不属于任何类别，分类时也可能存在样本不均衡问题。例如道路颜色单一，而背景颜色复杂时，对于SVM的考验较大。对于Bayes分类器，可通过构建多个概率分布函数进行判别。

3、Bayes对于多分类的问题处理更为便捷

对于分类数为n的分类问题，若采用SVM则需要n(n-1)/2次分类操作，当分类类别增大时，SVM的处理效率大大降低。而对于Bayes分类，则可根据不同样本分别构建概率分布函数，带入检验点数据后，哪个后验概率大则可认为数据属于哪一类。

四、存在的主要问题和建议

存在问题：一是使用Bayes和SVM进行分割实验时，只针对RGB空间进行了样本采集，没有思考在HSV、Lab和YCrCb的样本尝试；二是Bayes序贯信息融合判断时，只对临近像素进行了信息融合，没有与HSV、Lab和YCrCb的判断结果进行融合；三是对于背景复杂的分割问题，仍然按照二分类问题处理，没有转化成多分类问题。
改进建议：一是尝试在不同样本空间进行分割实验，或者不同样本空间下判断结果进行序贯融合来判断。二是将复杂的背景进行多分类处理，例如区分树林、草地、天空，多分类处理完毕后，再进行二分类将不属于道路的像素全部赋为黑色。