什么叫做VC维

参考《机器学习导论》

假设我们有一个数据集，包含N个点。这N个点可以用2N种方法标记为正例和负例。因此，N个数据点可以定义2N种不同的学习问题。如果对于这些问题中的任何一个，我们都能够找到一个假设h属于H，将正例和负例分开，那么我们就称H散列N个点。也就是说，可以用N个点定义的任何学习问题都能够用一个从H中抽取的假设无误差地学习。可以被H散列的点的最大数量称为H的VC维，记为VC(H)，它度量假设类H的学习能力。

通常我更喜欢用自由度来近似表达假设类的学习能力。

通常，在实际生活中，世界是平滑变化的，在大多数时间内具有相同的标记，我们并不需要担心所有可能的标记。有很多不止4个点的数据集都可以通过VC(H)=4的假设类来学习。因此，具有较小的VC维的假设类也是有应用价值的，并且比那些较大的VC维更可取。