mahout算法说明【0.8版本】

原文地址http://mahout.apache.org/users/basics/algorithms.html

算法

原始论文：多核机器学习的Map Reduce

有关MapReduce的论文:

对于一般机器学习相关的论文，视频，书籍，请参阅Machine Learning Resources

被标记为已集成的算法已加入到mahout开发版本。目前正在开发的算法，都标注有一个链接到具体解决方法的JIRA问题。通常情况下这些问题包含的补丁由补丁的重要程度以及解决问题所花费的时间来决定.迄今尚未触及的算法被标记为open。

What, When, Where, Why (but not How or Who) -是关于什么情况下使用什么算法以及需要注意什么错误的技巧或者提示【页面是空的】

分类算法

最常见的文本分类算法的一般介绍可以发现在谷歌:http://answers.google.com/answers/main?cmd=threadview&id=225316 已经实现或者计划实现的mahout算法信息请访问一下的页面。

全面支持算法

逻辑回归(SGD)

朴素贝叶斯统计/补充贝叶斯-------------------------翻译

随机森林 (integrated -MAHOUT-122,MAHOUT-140,MAHOUT-145)

隐马尔可夫模型(HMM) (MAHOUT-627, MAHOUT-396, MAHOUT-734) - 使用Map-Reduce做训练

建议弃用或者不完全算法：

支持向量机 (SVM) (open:MAHOUT-14,MAHOUT-232 and MAHOUT-334)

感知器算法 (open:MAHOUT-85)

神经网络 (open, butMAHOUT-228 might help)

受限玻尔兹曼机 (open,MAHOUT-375, GSOC2010)

在线学习算法 (integrated,MAHOUT-702)

Boosting (awaiting patch commit,MAHOUT-716)

聚类算法

全面支持

参考阅读

Canopy聚类 (MAHOUT-3 - integrated)

K-均值聚类(MAHOUT-5 - integrated)

模糊K均值 (MAHOUT-74 - integrated)

均值漂移聚类 (MAHOUT-15 - integrated）

狄里克雷过程聚类 (MAHOUT-30 - integrated)

LDA聚类(MAHOUT-123 - integrated)

EM聚类（期望最大化聚类） (EM) (MAHOUT-28)

Minhash聚类 (MAHOUT-344 - integrated)

~~Top Down聚类 (MAHOUT-843 - integrated)[原文中不再有]~~

建议弃用或者不完全算法：

层次聚类 (MAHOUT-19，MAHOUT-843)

谱聚类 (MAHOUT-363 - integrated)

回归

局部加权线性回归 (open)

降维/维约简

全面支持

奇异值分解 (available since 0.3)

Stochastic Singular Value Decomposition with PCA workflow (PCA and dimensionality reduction workflow is now integrated with SSVD)

建议弃用或者不完全算法：

主成分分析 (PCA) (open)

~~独立成分分析 (open)~~[原文中不再有]~~~~

高斯判别分析(GDA) (open)

进化算法

NOTE: *Watchmaker支持已被从0.7版本删除

向量相似度原文中不再有~~~~

Mahout 实现了一个向量与另一个或者更多向量相比较的算法. 这可以用在计算文档相似度等方面。

行相似分析 - 构建倒排索引，然后计算项目有共同出现之间的距离。这是一个完全分布式的计算。
向量分析 – Does a map side join between a set of "seed" vectors and all of the input vectors.

Other

全面支持

RowSimilarityJob---构建反向索引，然后计算具有共同出现的项目之间的距离。这是一个完全分布式的计算。
VectorDistanceJob--做了一套“种子”向量和所有的输入向量之间的映射方的联接。
集合方法扩展----找到标记的文字共同的位置，运行在Hadoop的

模式挖掘【弃用】

并行FP Growth 算法 (Also known as Frequent Itemset mining)