美国 2006 年机器学习和知识发现年会数据挖掘使用率较高算法排名

在美国 2006 年机器学习和知识发现年会，数据挖掘（Data Mining）哪些算法使用率较高？现场投票结果可以给我们一点线索。数据挖掘有十大经典算法为：C4.5，K-Means，SVM，Apriori，EM，PageRank，AdaBoost，KNN，NB 和 CART。

表美国2006年机器学习和知识发现年会数据挖掘使用率较高算法排名

算法	票数	百分率	典型算法
决策树 Decision Tree	127	62.6%	C4.5、CART
回归 Regression	104	51.2%
聚类算法 Clustering	102	50.2%	K-Means、BIRCH（Balanced Iterative Reducing and Clustering using Hierarchies）
描述性统计分析 Statistics（descriptive）	94	46.3%
可视技术 Visualization	66	32.5%
关联法则 Association Rules	53	26.1%	GSP（Generalized Sequential Pattern）、Apriori
时序 Sequence/Time series Analysis	35	17.2%
神经网络 Neural Nets	35	17.2%
支持向量机 Support Vector Machine（SVM）	32	15.8%
贝叶斯 Bayesian	32	15.8%	NB（Naive Bayesian）
Boosting	30	14.8%	AdaBoost
近邻 Nearest Neighbours	26	12.8%	K Nearest Neighbours（KNN）
模型合成 Hybrid Methods	24	11.8%
其他 Other	23	11.3%
遗传算法 Genetic Algorithms	23	11.3%
Bagging	22	10.8%
	共203人投票

由于是自愿投票，对投票人的背景、行业和领域没有任何限制，因此本结果在代表性方面当然不够完整。但是，我们还是可以通过这个调查粗略了解目前数据挖掘算法的态势。总的来说，用于分类和预测的决策树和回归算法，以及用于描述聚类分析占主导地位。

决策树和逻辑回归从技术角度看，都不是太高深的算法。但是能得到普遍应用，说明他们在解决不同行业，不同领域中，数据挖掘问题上都有很好的功效，说明企业管理人员对这些算法接受程度较好，也反映了企业拥有的数据并不是复杂到一定要用高深的算法可能应对。此外不可忽视的是，这些算法在运算速度上都有一定优势。