统计学习方法学习记录(三) k近邻搜索

 

距离度量

 

 

 

 

k值选择

 

 

 分类决策规则:

 

 

KD树

 

 

K近邻并没有显式的学习过程,也就是不需要对训练集进行学习。预测过程中直接遍历预测点与所有点的距离,并找到最近的K个点即可。找到K个最近点后,使用多数表决(即投票)的方式确定预测点的类别。

kd树作为binary search tree的高维存在,举个栗子:

另外附一张图,求S的球体内潜在包含的点,并通过多数原则确认S的类别

 

 

在应用过程中,最主要是需要对kd树的搭建,解决最主要的高维特征间求距离慢的问题。其次对topK排序进行优化,只需求得Min top k 即可

 

原文地址:https://www.cnblogs.com/ChrisInsistPy/p/13614332.html