数据挖掘【5】分类问题（二）

紧接上期，有的时候问题会稍微复杂一点，

要将三角和圆圈分开，一条线无法做到，需要两条直线。所以分界面可以是简单的一条直线，也可以是曲线或者多条曲线围成的区域。其实它就是对空间进行了一个划分，因为我们把每一个分析对象进行了量化，变换成为了N维空间中的点，对这些点进行划分就是分类。

下图中红蓝点分别代表两种对象，我们假设为小猫小狗，图中有两个分类器，也就是两个分类面，

一种是绿色曲线，一种是黑色曲线。绿色曲线正确的区分了所有对象，所有蓝点都在上方，所有红点都在下方，没有分错任何一个点，黑色线则有分错的点，然而，我们需要的是黑色的线，虽然它有分错的点，但它是平滑的，绿色的线曲里拐弯，实际上是在跟着数据走，我们称之为过度拟合(overfitting)，类似于一个学生死记硬背，将每一个例题都生硬的记忆，没有形成一个合理的分界面，最终也无法解出真题。在数据挖掘中，我们会选择黑色的分界面，即使它会犯一些错误。

做分类的时候，我们会将数据分为两部分，一部分用来训练，叫做训练集（Training Set），用来生成模型（Generated Models），另一部分用来测试，叫做测试集（Test Set），用来评估模型（evaluation），如果模型准确率不高，则要再次生成模型。

如果用同一个数据集进行训练与测试，就相当于用例题进行考试，即使得了满分，也没有意义，这是初学者容易犯的错误，需要特别注意。

官网：http://www.lenbor.com