数据挖掘【3】分类问题（一）

本期向大家介绍数据挖掘中具体的技术应用，算法中的分类问题（Classification）。

什么叫分类问题？你给我一堆人过来，每个人有一些属性、标签，身高、体重、年龄诸如此类的属性，然后你让我预测什么呢，比如说好人还是坏人，我建一个模型，能做这件事情，这就叫做分类。

我为什么能给他打标签，好人还是坏人呢？因为我以前已经见过一批打过标签的人，已经知道了好人长什么样，坏人长什么样，所以现在再来一个人，就可以根据以前学到的这些知识，判断新来的这个人是好是坏。

给一些训练集，训练出一个模型，使得以后再来一个不在训练集内的未知的对象时，可以预测它是什么样子的，它是红的还是白的，是猫还是狗，所有这样的东西，是可以去训练，可以去预测的。

分类中有很多的算法，包括决策树啊（Decision Trees）、KNN近邻算法（K-Nearest Neighbours）、神经网络（Neural Networks）、支持向量机（Support Vector Machines），这些我们以后都会慢慢去介绍。

分类的应用也非常的广，医学上的诊断，这个人有病没病，根据他的体检报告进行分析，这就是一种分类问题，有病没病，或者说肿瘤是恶性良性，都是可以做一种判断的，其他比如客户，他会不会流失，移动调到联通，联通跳到电信，这些都是可以预测的。

分类（Classification）听上去好像有一些玄乎，怎么就可以去建一个模型，然后去预测一些东西，其实说白了，它就是分界线（Boundaries）。

我们有一个二维的问题，横坐标是一个人的收入，纵坐标是一个人的存款，现在这个人他要去贷款，那银行内部是有一套模型用来评估这个贷款的风险，如上图所示，这个模型会划出一条线，将高收入高存款的客户划入低风险区，其他诸如高收入低存款的月光族，以及高存款但是流水不足的客户划入高风险区。

未完待续。

官网：http://www.lenbor.com