美国 2006 年机器学习和知识发现年会数据挖掘使用率较高算法排名

在美国 2006 年机器学习和知识发现年会,数据挖掘(Data Mining)哪些算法使用率较高?现场投票结果可以给我们一点线索。数据挖掘有十大经典算法为:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB 和 CART。

表 美国2006年机器学习和知识发现年会数据挖掘使用率较高算法排名

算法

票数

百分率

典型算法

决策树 Decision Tree 127 62.6% C4.5、CART
回归 Regression 104 51.2%  
聚类算法 Clustering 102 50.2% K-Means、BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)
描述性统计分析 Statistics(descriptive) 94 46.3%  
可视技术 Visualization 66 32.5%  
关联法则 Association Rules 53 26.1% GSP(Generalized Sequential Pattern)、Apriori
时序 Sequence/Time series Analysis 35 17.2%  
神经网络 Neural Nets 35 17.2%  
支持向量机 Support Vector Machine(SVM) 32 15.8%  
贝叶斯 Bayesian 32 15.8% NB(Naive Bayesian)
Boosting 30 14.8% AdaBoost
近邻 Nearest Neighbours 26 12.8% K Nearest Neighbours(KNN)
模型合成 Hybrid Methods 24 11.8%  
其他 Other 23 11.3%  
遗传算法 Genetic Algorithms 23 11.3%  
Bagging 22 10.8%  
  共203人投票    

由于是自愿投票,对投票人的背景、行业和领域没有任何限制,因此本结果在代表性方面当然不够完整。但是,我们还是可以通过这个调查粗略了解目前数据挖掘算法的态势。总的来说,用于分类和预测的决策树和回归算法,以及用于描述聚类分析占主导地位。

决策树和逻辑回归从技术角度看,都不是太高深的算法。但是能得到普遍应用,说明他们在解决不同行业,不同领域中,数据挖掘问题上都有很好的功效,说明企业管理人员对这些算法接受程度较好,也反映了企业拥有的数据并不是复杂到一定要用高深的算法可能应对。此外不可忽视的是,这些算法在运算速度上都有一定优势。

原文地址:https://www.cnblogs.com/liuning8023/p/Data_Mining_Algorithm.html