周志华《机器学习》版本空间

初步理解：

1，数据输入模型后会形成一个假设空间（包含所有可能输入的样本）。

2，然后通过训练数据，抽取那些和训练数据特征相匹配的假设，就得到了版本空间。版本空间就是训练后的模型。

3，如果预测的数据A 是版本空间里没有匹配到，那么就会返回false。

4，如果数据A是true，但是模型预测错了呢？那么就把数据A 打上true的标签放到模型里进行训练，更新版本空间。

转自：https://www.zhihu.com/question/40237283/answer/92414386

版本空间定义：

版本空间(version space)是概念学习中与已知数据集一致的所有假设(hypothesis)的子集集合。

对于二维空间中的“矩形”假设（上图），绿色加号代表正类样本，红色小圈代表负类样本。 GB 是最大泛化正假设边界(maximally General positive hypothesis Boundary), SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary). GB与SB所围成的区域中的矩形即为版本空间中的假设，也即GB与SB围成的区域就是版本空间。

在一些需要对假设的泛化能力排序的情形下，就可以通过GB与SB这两个上下界来表示版本空间。在学习的过程中，学习算法就可以只在GB、SB这两个代表集合上操作。

表1.1的训练数据集对应的假设空间应该如下：
1 色泽＝＊，根蒂＝＊，敲声＝＊
2 色泽＝青绿，根蒂＝＊，敲声＝＊
3 色泽＝乌黑，根蒂＝＊，敲声＝＊
4 色泽＝＊，根蒂＝蜷缩，敲声＝＊
5 色泽＝＊，根蒂＝硬挺，敲声＝＊
6 色泽＝＊，根蒂＝稍蜷，敲声＝＊
7 色泽＝＊，根蒂＝＊，敲声＝浊响
8 色泽＝＊，根蒂＝＊，敲声＝清脆
9 色泽＝＊，根蒂＝＊，敲声＝沉闷
10 色泽＝青绿，根蒂＝蜷缩，敲声＝＊
11 色泽＝青绿，根蒂＝硬挺，敲声＝＊
12 色泽＝青绿，根蒂＝稍蜷，敲声＝＊
13 色泽＝乌黑，根蒂＝蜷缩，敲声＝＊
14 色泽＝乌黑，根蒂＝硬挺，敲声＝＊
15 色泽＝乌黑，根蒂＝稍蜷，敲声＝＊
16 色泽＝青绿，根蒂＝＊，敲声＝浊响
17 色泽＝青绿，根蒂＝＊，敲声＝清脆
18 色泽＝青绿，根蒂＝＊，敲声＝沉闷
19 色泽＝乌黑，根蒂＝＊，敲声＝浊响
20 色泽＝乌黑，根蒂＝＊，敲声＝清脆
21 色泽＝乌黑，根蒂＝＊，敲声＝沉闷
22 色泽＝＊，根蒂＝蜷缩，敲声＝浊响
23 色泽＝＊，根蒂＝蜷缩，敲声＝清脆
24 色泽＝＊，根蒂＝蜷缩，敲声＝沉闷
25 色泽＝＊，根蒂＝硬挺，敲声＝浊响
26 色泽＝＊，根蒂＝硬挺，敲声＝清脆
27 色泽＝＊，根蒂＝硬挺，敲声＝沉闷
28 色泽＝＊，根蒂＝稍蜷，敲声＝浊响
29 色泽＝＊，根蒂＝稍蜷，敲声＝清脆
30 色泽＝＊，根蒂＝稍蜷，敲声＝沉闷
31 色泽＝青绿，根蒂＝蜷缩，敲声＝浊响
32 色泽＝青绿，根蒂＝蜷缩，敲声＝清脆
33 色泽＝青绿，根蒂＝蜷缩，敲声＝沉闷
34 色泽＝青绿，根蒂＝硬挺，敲声＝浊响
35 色泽＝青绿，根蒂＝硬挺，敲声＝清脆
36 色泽＝青绿，根蒂＝硬挺，敲声＝沉闷
37 色泽＝青绿，根蒂＝稍蜷，敲声＝浊响
38 色泽＝青绿，根蒂＝稍蜷，敲声＝清脆
39 色泽＝青绿，根蒂＝稍蜷，敲声＝沉闷
40 色泽＝乌黑，根蒂＝蜷缩，敲声＝浊响
41 色泽＝乌黑，根蒂＝蜷缩，敲声＝清脆
42 色泽＝乌黑，根蒂＝蜷缩，敲声＝沉闷
43 色泽＝乌黑，根蒂＝硬挺，敲声＝浊响
44 色泽＝乌黑，根蒂＝硬挺，敲声＝清脆
45 色泽＝乌黑，根蒂＝硬挺，敲声＝沉闷
46 色泽＝乌黑，根蒂＝稍蜷，敲声＝浊响
47 色泽＝乌黑，根蒂＝稍蜷，敲声＝清脆
48 色泽＝乌黑，根蒂＝稍蜷，敲声＝沉闷
49 Ø

图1.1下面的那段话描述了学习的过程：

搜索过程中可以不断删除与正例不一致的假设、和（或）与反例一致的假设。最终将会获得与训练集一致（即对所有训练样本能够进行正确判断）的假设，这就是我们学得的结果。

按照上述过程进行学习：
（1，（色泽＝青绿、根蒂＝蜷缩、敲声＝浊响），好瓜）
可以删除假设空间中的3、5、6、8、9、11-15、17-21、23-30、32-49
（2，（色泽＝乌黑、根蒂＝蜷缩、敲声＝浊响），好瓜）
可以删除剩余假设空间中的2、10、16、31
（3，（色泽＝青绿、根蒂＝硬挺、敲声＝清脆），坏瓜）
可以删除剩余假设空间中的1
（4，（色泽＝乌黑、根蒂＝稍蜷、敲声＝沉闷），坏瓜）
剩余假设空间中无可删除的假设

学习过后剩余的假设为
4 色泽＝＊，根蒂＝蜷缩，敲声＝＊
7 色泽＝＊，根蒂＝＊，敲声＝浊响
22 色泽＝＊，根蒂＝蜷缩，敲声＝浊响
这就是最后的“假设集合”，也就是“版本空间”。