Apache Mahout

Apache Mahout的机器学习库的目标是建立可扩展的机器学习库

可扩展到相当大的数据集。我们的核心算法，聚类，分类和批量基于协同过滤的实现Apache Hadoop之上使用的map / reduce范式。但是，我们并不限制基于Hadoop的实现贡献：贡献单个节点或在非Hadoop集群上运行的欢迎。核心库进行了高度优化，以获得较好的性能也非分布式算法

可扩展性，以支持您的业务情况。 Mahout的是一个商业友好的Apache软件许可下分发。

目前Mahout的主要支持四个用例：建议挖掘用户的行为，并试图找到用户可能会喜欢的项目。聚类例如文本文件，然后将它们成组主题相关的文档。从分类学的重新审视和分类文件记录一个特定类别的样子，未标记的文件能够分配到正确的类别（希望）。频繁项集挖掘项目组采用一组（查询会话中，购物车的内容），并确定，其中个别项目通常一起出现。

共同筛选
用户和基于项目的引荐人
K均值，模糊K-均值聚类
均值漂移聚类
Dirichlet过程聚类
潜在狄利克雷分配
奇异值分解
并行频繁模式挖掘
互补朴素贝叶斯分类
随机森林基于决策树分类
高性能的Java集合

http://mahout.apache.org/

可以和hadoop良好的结合

http://opennlp.apache.org/

OpenNLP库是基于机器学习工具包，用于处理自然语言文本。