12.1 基础知识
计算学习理论研究的关于通过计算来进行学习的理论。即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。
12.2 PAC学习
计算学习理论中最基本的是概率近似正确(PAC)学习理论。
令c表示概念,这是从样本空间X到标记空间Y的映射,它决定示例x的真实标记y,若对任何样例(x,y)有c(x)=y成立,则称c为目标概念;所有我们希望学得的目标概念所构成的集合称为概念类,用符号C表示。
给定学习算法,它所考虑的所有可能概念集合称为假设空间,用符号H表示。由于学习算法事先并不知道概念类的真实存在,因此H和C通常是不同的,学习算法会把自认为可能的目标概念集中起来构成H,对h属于H,由于并不能确定它是否真是目标概念,因此称为假设。显然,假设h也是从样本空间X到标记空间Y的映射。
若目标概念c∈H,则H中存在假设能将所有示例按与真实标记一致的方式完全分开,我们则称该学习算法是可分的,亦称一致的;
若目标概念c不属于H,则H中不存在任何假设能将所有示例完全正确分开,称该问题对学习算法是不可分的,亦称不一致的。
对于给定训练集D,我们希望基于学习算法学得的模型所对应的假设尽可能接近目标概念c。即以较大的概率学得误差满足预设上限的模型;
形式化地说,令1-σ表示置信度,可定义:
显然,PAC学习给出了一个抽象地刻画机器学习能力地框架。
PAC学习中一个关键因素是假设空间H的复杂度。H包含了学习算法所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即H=C,这称为“恰PAC可学习”;直观地看,这意味着学习算法的能力与学习任务恰好匹配,然而这并不实际。
一般而言,H越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大,|H|有限时,我们称H为“有限假设空间”,否则称为无限假设空间。
12.3 有限假设空间
12.3.1 可分情形
可分情形意味着目标概念c属于假设空间H,即c∈H。给定包含m个样例的训练集D,如何找出满足误差参数的假设呢?
容易想到一种简单的学习策略:既然D中样例标记都是由目标概念c赋予的,并且c存在于假设空间H中,那么,任何在训练集D上出现标记错误的假设肯定不是目标概念c 。于是,我们只需保留与D一致的假设,剔除与D不一致的假设即可。若训练集D足够大,则可不断借助D中的样例剔除不一致的假设,直到H中仅剩下一个假设为止,这个假设就是目标概念c。通常情形下,由于训练集规模有限,假设空间H中可能存在不止一个于D一致的等效假设,对这些等效假设,无法根据D来对它们的优劣做进一步区分。
12.3.2 不可分情形
12.4 VC维
现实学习任务所面临的通常是无限假设空间,例如实数域中的所有区间,R^d空间中的所有线性超平面。欲对此种情形的可学习性进行研究,需度量假设空间的复杂度。最常见的方法是考虑假设空间的VC维。
介绍VC维之前,我们先引入几个概念:增长函数、对分和打散。
给定假设空间H和示例D={x1,x2,x3,…,xm},H中每个假设h都能对D中示例赋予标记,标记结果可表示为
h|D = {(h(x1),h(x2),…,h(xm))}
随着m的增大,H中所有假设对D中的示例所能赋予标记的可能结果数也会增大。
12.5 Rademacher复杂度
12.4节说到,基于VC维的泛化误差界是分布无关、数据独立的,也就是说,对任何数据分布都成立。这使得基于VC维的可学习性分析结果具有一定的普适性;但从另一方面来说,由于没有考虑数据自身,基于VC维得到的泛化误差界通常比较松,对那些与学习问题的典型情况相差甚远的较坏分布来说尤其如此。
Rademacher复杂度是另一种刻画假设空间复杂度的途径,与VC维不同的是,它在一定程度上考虑了数据分布。
12.6 稳定性
无论是基于VC维还是Rademacher复杂度来推导泛化误差界,所得到的结果均与具体学习算法无关,对所有学习算法都适用。这使得人们能够脱离具体学习算法的设计来考虑学习问题本身的性质,但在另一方面,若希望获得与算法有关的分析结果,则需另辟蹊径。稳定性分析是这方面一个值得关注的方向。顾名思义,算法的 “稳定性”考察的是算法在输入发生变化时,输出是否会随之发生较大的变化。学习算法的输入是训练集,因此下面我们先定义训练集的两种变化。