实验楼 1. k-近邻算法实现手写数字识别系统--《机器学习实战 》

首先看看一些关键词:K-NN算法,训练集,测试集,特征(空间),标签

举实验楼中的样例,通俗的讲讲K-NN算法:电影有两个分类(标签)-动作片-爱情片。两个特征--打斗场面--亲吻画面。

将那些数字和分类用图像表示大概如下:

两个红圆圈分别代表两种电影,他们包含了表中的数据,求解中间蓝色方框(就一个点(X,Y))属于哪一类,k-nn算法的解决方式是计算方框到两圆的距离,离谁近就属于谁。再具体点就是通过特征值来计算,假设接吻镜头次数=x,打斗=y,那么根据计算方式 d = ((X - x)^2 + (Y - y)^2)^0.5  可以得到如图数据:

然后是k值的选择(尽可能小原则),可以看到前三个数据与后三个数据有巨大差距,那k就取3吧,所以未知电影归于爱情片。

这就是K-NN算法我的理解。对于实验楼中提到的算法优缺点还有待研究,后期再补上。(未完待续.....)2017/7/14  1:39:0

天下飞羽,花落凡尘
原文地址:https://www.cnblogs.com/AngelYuFan/p/7164073.html