最近邻与K近邻算法思想

在关于径向基神经网络的一篇博文机器学习之径向基神经网络（RBF NN）中已经对最近邻思想进行过描述，但是写到了RBF中有些重点不够突出，所以，这里重新对最近邻和K近邻的基本思想进行介绍，简洁扼要的加以总结。

最近邻的基本思想

保存所有观察到的有标签的样本，然后对新来的测试样本，在标签样本集中找到与测试样本最接近的标签样本，然后将该标签样本作为测试样本的输出。这是一种典型的监督式学习。在机器学习中有着非常重要的应用。只是对于最近邻来讲，训练似乎变了含义，它几乎不做训练，仅仅是存储观测过的样本及标签，并没有学到什么Hypothesis。所以算作是非常lazy的学习算法。在训练时lazy，那么在测试时就要费劲了，因为它需要计算每个标签样本与输入测试样本之间的相似度，运算花销较大。这就体现了磨刀不误砍柴工中磨刀和不磨刀的区别：如果磨刀了，在砍柴的时候就省事儿了，如果不磨刀，在砍柴的时候就得费劲了。

稍微拓展一下，我们选出最相似的k个邻居，然后由着k个邻居进行投票，或者线性融合，然后再输出，这样的模型就叫做k最近邻模型。在实际应用中K近邻的鲁棒性比最近邻要好许多。实际上将K近邻的相似度作为投票权重融合起来，这样的方法与统计分析中的蒙特卡洛方法颇为神似。

***********************************

2015-8-7