记录西瓜书课后习题的思考与参考答案。
1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。
答:
版本空间:与训练集一致的“假设集合”,称之为“版本空间”(version space)
只包含编号为1和4的两个样例后,数据集为:
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
解题过程可以先列出假设空间,然后通过某种策略对假设空间进行搜索,删除与正例不一致的假设,和反例一致的假设,得到版本空间。
1.2 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算有多少种可能的假设。
答:
合取相当于交集,析取相当于并集。
西瓜共有3个属性,特征值数量分别为2,3,3,记为(A1,A2);(B1,B2,B3);(C1,C2,C3),因此可以构造一个3*4*4=48
个假设的假设空间。
48个假设中:
0个属性泛化时,单个合取式可以表示的假设有2*3*3=18
种,这也是18种特征组合,将18种单个合取式组合后根据二项式定理,可能的假设有2^18
种,并且不存在冗余的关系,也就是说这是可能的假设数量上限。
当属性泛化时,单个合取式之间存在冗余关系,组合后之间也有冗余关系
1个属性泛化时,单个合取式可以表示的假设有2*3+3*3+2*3=21
种
2个属性泛化时,单个合取式可以表示的假设有2+3+3=8
种
3个属性泛化时,单个合取式可以表示的假设有1种
k最大为48,即从48个合取范式中选择k个进行组合,k=1时(最多包含1个合取范式),能表示48+1=49
种假设
k为2时,合取式之间就可能存在冗余关系,去除冗余后,能表示898种
…
参考链接
1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,设计一种归纳偏好用于假设选择。
答:
通常使用奥卡姆剃刀原则,也可以剔除相同特征向量,但标签不同的数据。
另一解答:
在训练过程中选择满足最多样本的假设。也可以对每个假设,求得其准确率。准确率=(符合假设的条件且为好瓜的样例数量)/(符合假设的条件的样例数量)。选择准确率最高的假设。
参考链接
1.4
参考链接