K近邻(KNN)

工作原理

K-Nearest Neighbor,KNN。是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个邻居的信息来进行预测。通常,在分类任务中可使用投票法,选择K个样本中出现最多的类别标记作为预测结果;在回归任务中使用平均法,将K个样本的实值输出标记的平均值作为预测结果;还可以基于距离远近进行加权平均或加权投票。

特点

knn有一个明显的不同之处,没有显式的训练过程,训练阶段仅仅把样本保存起来。

k不同时,预测结果会不一致。另一方面,采用不同的距离计算方式,找出的近邻也会有显著差别。

最近邻分类器虽简单,但它的泛化错误率不超过贝叶斯最优分类器的错误率的两倍。

在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍。

原文地址:https://www.cnblogs.com/chenshaowei/p/12778769.html