K近邻法

k-NN是一种基本分类回归方法。k近邻法输出为实例类别，可以取多类

k-NN假定给定一个训练集，其中的实例类别已定。分类时，对于新实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式预测。因此，k-NN不具有显式的学习过程

(k)的选择、距离度量及分类决策规则(如多数表决)是k-NN的三个基本要素

k-NN使用的模型实际上对应于对特征空间的划分。当训练集、距离度量、k值和分类决策规则确定后，对于任何一个新的输入实例，它所属的类唯一的确定。

K值的选择

线性扫描：计算输入实例与每一个训练实例的距离，计算量太大

kd树是一种对k维空间中的实例点进行存储以便对其进行快速搜索的树形数据结构。kd树是二叉树，表示对k维空间的一个划分。构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分，构成一系列的k维超矩形区域。kd树的每个节点对应于一个k维超矩形区域。

平衡kd树（中位数作为切分点）不一定是搜索效率最优的

输入：数据集T，其中(x_i=(x^{(1),cdots,x^{(k)}})^T)
输出：kd树
1. 开始：构造根节点，根节点对应于包含(T)的k维空间的超矩形区域。选择(x^{(1)})为坐标轴，以(T)中所有的实例的(x^{(1)})坐标的中位数为且分点，将根节点对应的超矩形区域切分为左右两个子区域。将落在切分超平面上的点保存在根节点。
2. 对深度为(j)的节点，选择(x^{(l)})作为切分坐标轴，(l=j(mod k)+1)(依次选取各坐标轴)，取该坐标轴实例的中位数作为切分点，继续切分。
3. 直到两个子区域没有实例存在时停止，从而形成kd树的区域划分

kd树的最近邻搜索算法：

如果实例点是随机分布的，kd树搜索的平均复杂度为(O(log N))，(N)为训练样本数。kd树适合训练实例数远大于空间维数的情况。当空间维数接近实例数时，效率接近线性扫描