第六章 支持向量机
1.间隔与支持向量
支持向量机的原理是寻找与支持向量具有最大间隔的划分超平面。支持向量机具有一个重要性质: 训练完成后,大部分的训练样本都不需保留,最终模型仅与支持向量有关.
首先,超平面的方程为:
点到超平面的距离为:
两个异类支持向量到超平面的距离之和为(间隔)
在满足约束条件下最大化间隔:
2.对偶问题
通过拉格朗日对偶定理可以推出原问题的对偶问题等价于:
其中,
KKT条件为:
3.核函数
在现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面。对这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分.例如在图 6.3 中若将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分超平面.幸运的是,如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分.
但是求解无穷维的内积是困难的,因此,我们引入核函数:
定理 6.1表明只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用.事实上,对于一个半正定核矩阵,总能找到一个与之对应的映射.换言之,任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空间”(Reproducing Kernel Hilbert Space,简称 RKHS)的特征空间
4.软间隔与正则化
在前面的问题中,我们一直假定训练样本在样本空间或特征空间中是线性可分的,即存在一个超平面能将不同类的样本完全划分开.然而,在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分;退一步说,即便恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的.
缓解该问题的一个办法是允许支持向量机在一些样本上出错.为此,要引入“软间隔”(soft margin)的概念。具体来说,前面介绍的支持向量机形式是要求所有样本均满足约束(6.3),即所有样本都必须划分正确,这称为“硬间隔”(hard margin),而软间隔则是允许某些样本不满足约束:
此时,恰好在最大间隔边界上的点为支持向量。
当然,在最大化间隔的同时,不满足约束的样本应尽可能少.于是,优化目标可替换为:
于是,训练级的误差可写成更为一般的形式:
5.支持向量回归
此时,支持向量必定落在间隔带之外。
6.核方法
第七章 贝叶斯分类器
1.贝叶斯决策论
贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个能使条件风险 R(c|a)最小的类别标记,即
于是,最小化分类错误率的贝叶斯最优分类器为
根据贝叶斯定理:
其中,P(c)是类“先验”(prior)概率; P(x|c)是本 相对于类记c的类条件概率(class-conditional probability),或称为“似然”(likelihood); P(x)是用于归一化的“证据”(evidence)因子.对给定样本,证据因子 P(x)与类标记无关,因此估计P(c|x)问题就转化为如基于练据D来估计先验P(c) 和似然P(x|c).
类先验概率 P(c) 表达了样本空间中各类样本所占的比例,根据大数定律当训练集包含充足的独立同分布样本时,P(c)可通过各类样本出现的频率来进行估计.
对类条件概率 P(x|c) 来说由于它涉及关于所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。
2.极大似然估计
··
3.朴素贝叶斯分类器
朴素贝叶斯分类器采用了“属性条件独立性假设”,对已知类别,假设所有属性相互独立.换言之,假设每个属性独立地对分类结果发生影响.
朴素贝叶斯分类器的训练过程就是基于训练集 D来估计类先验概率P(c),并为每个属性估计条件概率 P(xi|c)
令D表示训练集D中第 c 类样本组成的集合,若有充足的独立同分布样本,则可容易地估计出类先验概率:
连续属性可以使用其概率分布函数:
为了避免连乘式中出现概率为0的情况,使用拉普拉斯修正。
4.半朴素贝叶斯分类器
半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系.“独依赖估计”是半朴素贝叶
斯分类器最常用的一种策略.顾名思议所谓“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他属性,即
AODE是一种基于集成学习机制、更为强大的独依赖分类器,与SPODE 通过模型选择确定超父属性不同AODE,尝试将每个属性作为超父来构建 SPODE,然后将那些具有足够训练数据支撑的 SPODE 集成起来作为最终结果,即
5.贝叶斯网
贝叶斯网亦称“信念网”,它借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布.
结构:
在“同父”结构中给定父结点x1的取值x3与x4条件独立
在“顺序”结构z中,给定x的值,则y与条件独立
V型结构(Vstructure)亦称“冲撞”结构,给定子结点x4的取值x1与x2必不独立,若x4的取值完全未知则V型结构下x1与x2是相独立的:
学习
常用评分函数通常基于信息论准则,此类准则将学习问题看作一个数据压缩任务,学习的目标是找到一个能以最短编码长度描述训练数据的模型
需要注意的是,网络越复杂,拟合程度越好,似然越大,而网络越简单,拟合程度越差,似然越小。
推断
最理想的是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率,但是,这样的“精确推断”已被证明是 NP 难的[Cooper,1990];换言之当网络结点较多、连接稠密时,难以进行精确推断,此时需借助“近似推断”通过降低精度要求,在有限时间内求得近似解.在现实应用中,贝叶斯网的近似
推常使用吉布斯采样
6.EM算法