k近邻算法-6.更多思考

k近邻算法的思考

k近邻的缺点

1.效率低下

如果训练集有m个样本,n个特征,预测一个新的数据,需要O(m*n)
优化:使用数结构,KD-Tree,Ball-Tree

2.高度数据相关

对outline更敏感,如果使用三近邻算法,在预测的样本中间如果有两个错误,则足够影响结果的准确性,尽管空间中有大量正确的样本。

3.预测结果不具有可解释性

只找到了和预测的这些样本比较近的样本,我们就说要预测的样本属于这个类别,但为什么属于这个样本我们无从得知,更多时候,我们只拿到结果是远远不够的。

4.维数灾难

随着维度的增加,看似相近的两个点之间的距离变的越来越大

解决办法:降维

机器学习的一般流程:

原文地址:https://www.cnblogs.com/shuai-long/p/11183245.html