1.1
针对西瓜分类分题进行讲解
属性: 3个属性
色泽:(青绿,乌黑,浅白)
根蒂:(蜷缩,硬挺,稍蜷)
敲声:(浊响,清脆,沉闷)
假设空间: 属性所有可能取值组成的可能的样本
假设空间的个数:4 * 4 * 4+1 = 49个,
求法:这三个值组成一个向量,这个向量的每个属性的可能
取值的集合就是假设空间。每个属性可以取通配符 *,为都符合
的意思,上面的+1是存在 Ø的情况
1 色泽=*,根蒂=*,敲声=*
2 色泽=青绿,根蒂=*,敲声=*
3 色泽=乌黑,根蒂=*,敲声=*
4 色泽=*,根蒂=蜷缩,敲声=*
5 色泽=*,根蒂=硬挺,敲声=*
6 色泽=*,根蒂=稍蜷,敲声=*
7 色泽=*,根蒂=*,敲声=浊响
8 色泽=*,根蒂=*,敲声=清脆
9 色泽=*,根蒂=*,敲声=沉闷
10 色泽=青绿,根蒂=蜷缩,敲声=*
11 色泽=青绿,根蒂=硬挺,敲声=*
12 色泽=青绿,根蒂=稍蜷,敲声=*
13 色泽=乌黑,根蒂=蜷缩,敲声=*
14 色泽=乌黑,根蒂=硬挺,敲声=*
15 色泽=乌黑,根蒂=稍蜷,敲声=*
16 色泽=青绿,根蒂=*,敲声=浊响
17 色泽=青绿,根蒂=*,敲声=清脆
18 色泽=青绿,根蒂=*,敲声=沉闷
19 色泽=乌黑,根蒂=*,敲声=浊响
20 色泽=乌黑,根蒂=*,敲声=清脆
21 色泽=乌黑,根蒂=*,敲声=沉闷
22 色泽=*,根蒂=蜷缩,敲声=浊响
23 色泽=*,根蒂=蜷缩,敲声=清脆
24 色泽=*,根蒂=蜷缩,敲声=沉闷
25 色泽=*,根蒂=硬挺,敲声=浊响
26 色泽=*,根蒂=硬挺,敲声=清脆
27 色泽=*,根蒂=硬挺,敲声=沉闷
28 色泽=*,根蒂=稍蜷,敲声=浊响
29 色泽=*,根蒂=稍蜷,敲声=清脆
30 色泽=*,根蒂=稍蜷,敲声=沉闷
31 色泽=青绿,根蒂=蜷缩,敲声=浊响
32 色泽=青绿,根蒂=蜷缩,敲声=清脆
33 色泽=青绿,根蒂=蜷缩,敲声=沉闷
34 色泽=青绿,根蒂=硬挺,敲声=浊响
35 色泽=青绿,根蒂=硬挺,敲声=清脆
36 色泽=青绿,根蒂=硬挺,敲声=沉闷
37 色泽=青绿,根蒂=稍蜷,敲声=浊响
38 色泽=青绿,根蒂=稍蜷,敲声=清脆
39 色泽=青绿,根蒂=稍蜷,敲声=沉闷
40 色泽=乌黑,根蒂=蜷缩,敲声=浊响
41 色泽=乌黑,根蒂=蜷缩,敲声=清脆
42 色泽=乌黑,根蒂=蜷缩,敲声=沉闷
43 色泽=乌黑,根蒂=硬挺,敲声=浊响
44 色泽=乌黑,根蒂=硬挺,敲声=清脆
45 色泽=乌黑,根蒂=硬挺,敲声=沉闷
46 色泽=乌黑,根蒂=稍蜷,敲声=浊响
47 色泽=乌黑,根蒂=稍蜷,敲声=清脆
48 色泽=乌黑,根蒂=稍蜷,敲声=沉闷
49 Ø
训练集: 人为给定的训练数据
注:不同的训练集合会求出不同的版本空间
求版本空间:
对应着给出的已知数据集,将与正样本不一致的、与负样本一致的假设删除。
更据训练集依次删除假设空间里的数据样本:
(1,(色泽=青绿、根蒂=蜷缩、敲声=浊响),好瓜)
可以删除假设空间中的3、5、6、8、9、11-15、17-21、23-30、32-49
(2,(色泽=乌黑、根蒂=蜷缩、敲声=浊响),好瓜)
可以删除剩余假设空间中的2、10、16、31
(3,(色泽=青绿、根蒂=硬挺、敲声=清脆),坏瓜)
可以删除剩余假设空间中的1
(4,(色泽=乌黑、根蒂=稍蜷、敲声=沉闷),坏瓜)
剩余假设空间中无可删除的假设
学习过后剩余的假设为:
4 色泽=*,根蒂=蜷缩,敲声=*
7 色泽=*,根蒂=*,敲声=浊响
22 色泽=*,根蒂=蜷缩,敲声=浊响
这三个就是这个训练集下的版本空间
总结:
1、写出假设空间:先列出所有可能的样本点(即特征向量)
(即每个属性都取到所有的属性值)
2、对应着给出的已知数据集,将与正样本不一致的、与负样本
一致的假设删除。
若表1.1只含编号为1和4的两个样例,则数据集如下
表 1.1 西瓜数据集
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
从一般到特殊或是从特殊到一般对整个假设空间进行搜索,删除与正例1不一致的假设,或与反例4一致的假设,最终得到版本空间为:
1.(色泽=青绿)∧(根蒂= ∗ )∧(敲声= ∗ )
2.(色泽= ∗ )∧(根蒂=蜷缩)∧(敲声= ∗ )
3.(色泽= ∗ )∧(根蒂= ∗ )∧(敲声=浊响)
4.(色泽=青绿)∧(根蒂=蜷缩)∧(敲声= ∗ )
5.(色泽=青绿)∧(根蒂= ∗ )∧(敲声=浊响)
6.(色泽= ∗ )∧(根蒂=蜷缩)∧(敲声=浊响)
7.(色泽=青绿)∧(根蒂=蜷缩)∧(敲声=浊响)
相关参考:
https://zhuanlan.zhihu.com/p/355235881
https://blog.csdn.net/weixin_43592261/article/details/106197907?spm=1001.2101.3001.6650.4&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-4-106197907-blog-123402713.pc_relevant_recovery_v2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-4-106197907-blog-123402713.pc_relevant_recovery_v2&utm_relevant_index=6