分类模型-K近邻（KNN）

1、KNN概述

最简单最初级的分类器，就是将全部的训练数据所对应的类别都记录下来，当测试对象的属性和某个训练对象的属性完全匹配时，便可以对其进行分类

K近邻（k-nearest neighbour,KNN）是一种基本分类方法，通过测量不同特征值之间的距离进行分类。

k近邻的四路是：如果一个样本在特征控件中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中k通常是不大于20的整数

KNN算法中，所选择的邻居都是已经正确分类的对象

2、KNN示例

绿色园要被决定赋予哪个类是红色三角形还是蓝色四方形？
如果k=3，由于红色三角形所占比例为2/3，绿色园将被赋予红色三角形哪个类
如果k=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类

KNN算法的结果很大程度取决于K的选择

3、KNN距离计算

KNN中，通过计算对象间距离来作为各个对象之间的费相似性指标，避免了对象之间的匹配问题，在这里距离一般使用欧氏距离或曼哈顿距离：

4、KNN算法

在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与测试集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是k个数据中出现次数最多的那个分类，其算法的描述为：

计算测试数据与各个训练数据之间的距离
按照距离的递增关系进行排序
选取距离最小的k个点
确定前k个点所在类别的出现频率
返回前k个2点中出现频率最高的类别作为测试数据的预测分类

5、代码实现

0.引入依赖

1 import numpy as np
2 import pandas as pd
3 
4 # 这里直接引入 sklearn 里的数据集，iris鸡尾花
5 from sklearn.datasets import load_iris
6 # 切分数据集为训练集和测试集
7 from sklearn.model_selection import train_test_split
8 # 计算分类预测的准确率
9 from sklearn.metrics import accuracy_score

1.数据加载和预处理

 1 iris = load_iris()
 2 df = pd.DataFrame(data=iris.data,columns = iris.feature_names)
 3 df['class']=iris.target
 4 df['class']=df['class'].map({0:iris.target_names[0],1:iris.target_names[1],2:iris.target_names[2]})
 5 df.describe()
 6 
 7 x = iris.data
 8 y = iris.target.reshape(-1,1)
 9 
10 # 划分训练集和测试集
11 x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=35,stratify=y)
12 print(x_train.shape,y_train.shape)
13 print(x_test.shape,y_test.shape)

2. 核心算法实现

 1 # 距离函数定义
 2 def l1_distance(a,b):
 3     return np.sum(np.abs(a-b),axis=1)
 4 def l2_distance(a,b):
 5     return np.sqrt(np.sum((a-b)**2,axis=1))
 6 # 分类器实现
 7 class KNN(object):
 8     # 定义一个初始化方法，是类的构造方法
 9     def __init__(self,n_neighbors=1,dist_func=l1_distance):
10         self.n_neighbors=n_neighbors
11         self.dist_func=dist_func
12         
13     # 训练模型方法
14     def fit(self,x,y):
15         self.x_train = x
16         self.y_train = y
17         
18     # 模型预测方法
19     def predict(self,x):
20         # 初始化预测分类数组
21         y_pred=np.zeros((x.shape[0],1),dtype=self.y_train.dtype)
22         
23         # 遍历输入的x数据点,取出每一个数据点的序号i和数据x_test
24         for i,x_test in enumerate(x):
25             # x_test跟所有训练数据计算距离
26             distances = self.dist_func(self.x_train,x_test)
27             # 得到的距离按照由近到远排序,取出索引值
28             nn_index = np.argsort(distances)
29             # 选取最近的k个点，保存他们对应的分类类别
30             nn_y = self.y_train[nn_index[: self.n_neighbors]].ravel()
31             # 统计类别出现频率最高的那个，赋给y_pred[i]
32             y_pred[i]=np.argmax(np.bincount(nn_y))
33         
34         return y_pred

3. 测试

 1 # 定义一个knn实例
 2 knn = KNN(n_neighbors = 3)
 3 # 训练模型
 4 knn.fit(x_train,y_train)
 5 # 传入测试数据，做预测
 6 y_pred=knn.predict(x_test)
 7 # 求出预测准确率
 8 accuracy = accuracy_score(y_test,y_pred)
 9 
10 print("预测准确率：",accuracy)
11 
12 # 定义一个knn实例
13 knn = KNN()
14 # 训练模型
15 knn.fit(x_train,y_train)
16 # 保存结果list
17 result_list=[]
18 # 针对不同的参数选取，做预测
19 for p in [1,2]:
20     knn.dist_func=l1_distance if p==1 else l2_distance
21     # 考虑不同的k取值,步长为2
22     for k in range(1,10,2):
23         knn.n_neighbors=k
24         # 传入测试数据，做预测
25         y_pred=knn.predict(x_test)
26         # 求出预测准确率
27         accuracy = accuracy_score(y_test,y_pred)
28         result_list.append([k,'l1_distance' if p==1 else 'l2_distance',accuracy])
29     
30 df = pd.DataFrame(result_list,columns=['k','距离函数','预测准确率'])
31 df