一、sklearn实现K邻近分类算法

一、K邻近算法的基本概念

  一个样本在特征空间中最邻近(距离)的K个样本大多数属于某一个类别,则该样本也属于这个类别。

二、sklearn使用欧氏距离实现KNN算法

# 倒入sklearn库中的KNN算法类
from sklearn.neighbors import KNeighborsClassifier

# 创建KNN算法实例并设置K值
KNN_classifier = KNeighborsClassifier(n_neighbors=4)

# 传入训练样本数据拟合KNN模型
KNN_classifier.fit(train_x, train_y)

# 传入测试样本数据进行预测,并返回预测结果
KNN_classifier.predict(test_x)
View Code

三、sklearn使用train_test_split来测试模型的性能(iris鸢尾花数据)

import numpy as np

# 导入sklearn模块的数据集
from sklearn import datasets

# 导入sklearn模块中的随机拆分数据的模块
from sklearn.model_selection import train_test_split 

# 导入sklearn模块中的KNN算法模块
from sklearn.neighbors import KNeighborsClassifier

# 取iris数据集
iris = datasets.load_iris() 

X = iris.data  # 样本特征集(150, 4)
y = iris.target # 样本标签集(150,)

# 随机拆分数据,默认test_size=0.2 20%拆分
# random_state = 666 设置随机种子
# X_train.shape = (112, 4)
# X_test.shape = (38, 4)
# y_test.shape = (38,)
# y_train.shape = (112,)
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=666)

# 创建KNN算法实例并设置K值
KNN_classifier = KNeighborsClassifier(n_neighbors=6) 

# 传入训练样本数据拟合KNN模型
KNN_classifier.fit(X_train, y_train)

# 传入测试样本数据进行预测,并返回预测结果
y_predict = KNN_classifier.predict(X_test)

# 验证预测准确率
sum(y_predict == y_test)/len(y_test) # 0.9210526315789473
View Code

四、sklearn实现预测准确率算法

import numpy as np
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

# 判断模型预测准确率的模型
from sklearn.metrics import accuracy_score

# 导入手写数据集
digits = datasets.load_digits()
# X样本数据集:(1797, 64)
# y标签数据集:(1797,)
X = digits.data
y = digits.target

# 按2:8随机拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y ,test_size=0.2)

# 生成KNN算法实例,并设置K=3
KNN_classifier = KNeighborsClassifier(n_neighbors=3)

# KNN拟合模型
KNN_classifier.fit(X_train, y_train)

# 通过拟合的KNN模型预测结果,并返回预测结果集
y_predict = KNN_classifier.predict(X_test)

# 返回预测准确率
accuracy_score(y_test, y_predict) # 0.9916666666666667
# KNN_classifier.score(X_test, y_test)
View Code

五、sklearn通过网格搜索来优化KNN算法中的超参数

1、超参数和模型参数

  • 超参数:在算法运行前需要决定的参数
  • 模型参数:算法运行过程中学习到的参数

2、KNN算法中的超参数

  • K值:邻近的点的数量选择
  • 距离权重
  • p值

3、距离权重超参数

定义:一般距离权重是距离的倒数值

EXP:

  当1个样本的最近的3个样本(A类一个,B类两个),距离A类为1个单位,距离B类分别是3个和4个单位,不考虑距离权重时,样本是B类,考虑距离权重时,距离A类的权重为1,B类权重为1/3+1/4=7/12为A类;当3个点是3类是不考虑权重则属于3个类别的概率相同,所以KNN算法应当考虑距离权重。

sklearn.KNeighborsClassifier类中有一个weights参数默认是uniform(不考虑距离权重),distance(考虑距离权重)

4、p超参数

距离的定义有:欧氏距离、曼哈顿距离、明科夫实际距离、....

sklearn.KNeighborsClassifier类中有一个p参数,接受整型值(默认值为2,欧氏距离)

5、网格搜索寻找最优超参数

from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

# 导入网格搜索模块
from sklearn.model_selection import GridSearchCV

# 导入手写数据集
digits = datasets.load_digits()

# X样本数据集:(1797, 64)
# y标签数据集:(1797,)
X = digits.data
y = digits.target

# 按2:8随机拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y ,test_size=0.2)

# 定义网格搜索参数
# weights='distance', p参数才有意义
param_grid = [    
    {
        'weights':['uniform'],
        'n_neighbors': [i for i in range(1, 11)]
    },
    {
        'weights':['distance'],
        'n_neighbors': [i for i in range(1, 11)],
        'p': [i for i in range(1, 6)]
    }]

# 创建KNN算法类实例
KNN_clf = KNeighborsClassifier()

# 创建网格搜索类实例
# n_jobs设置并行运行,默认是1,-1是最大并行运行
# verbose=int 设置输出
grid_search = GridSearchCV(KNN_clf, param_grid,n_jobs=2, verbose=2)

# 拟合网格搜索算法
grid_search.fit(X_train, y_train)

# 搜索到的最优参数的分类器
# 可以直接调用knn_clf.precdi
knn_clf = grid_search.best_estimator_

# 搜索到的最优参数
grid_search.best_params_

# 最优参数下的准确率
grid_search.best_score_

# 使用最优参数分类器预测
knn_clf.predict(X_test)

# 使用最优参数分类器预测的准确率
knn_clf.score(X_test, y_test)
View Code

六、sklearn实现数据归一化

1、数据归一化的概念

把数据映射到同一尺度上,数据归一化可以让算法更快收敛

2、常用的数据归一化的方法

  • 最值归一化:当数据有明显边界时,把所有数据映射到0-1之间,x_scale = (x-x_min)/(x_max-x_main)
  • 均值方差归一化:当数据没有明显边界时,把所有数据归一到均值为0方差为1的分布中,x_scale = (x - x_mean)/ s  (s为方差),测试集的均值方差归一化使用的是训练集的x_mean和s
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

iris = datasets.load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)

standard_scaler = StandardScaler()
standard_scaler.fit(X_train)

# 均值
standard_scaler.mean_

# 方差
standard_scaler.var_

# 标准差
standard_scaler.scale_

# 训练集归一化操作
X_train = standard_scaler.transform(X_train)

# 测试集归一化操作
X_test = standard_scaler.transform(X_test)
KNN_clf = KNeighborsClassifier(n_neighbors=3)
KNN_clf.fit(X_train, y_train)
KNN_clf.score(X_test, y_test)
View Code

七、总结sklearn实现并优化KNN算法的流程

1、流程

  • 导入数据
  • 使用train_test_split随机拆分数据
  • 使用StandardScaler对数据进行均值方差归一化
  • 使用GridSearchCV网格搜索来优化k值、距离权重和p值等超参数
  • 使用accuracy_score或者score来取得预测值的准确率

2、优缺点

  • 优点:天然的单、多分类算法,简单、效果好
  • 缺点:
    •   效率低,每一样本的计算复杂度高
    •   高度数据相关
    •   预测结果不具备可解释性
    •   维数灾难,处理高维度数据会出现问题
原文地址:https://www.cnblogs.com/jp-mao/p/10430778.html