初识Spark(Spark系列)

1.Spark

Spark是继Hadoop之后,另外一种开源的高效大数据处理引擎,目前已提交为apach顶级项目。

效率:

据官方网站介绍,Spark是Hadoop运行效率的10-100倍(随内存计算、磁盘计算的不同而不同)。

语言:

支持的语言包括java、scala、python等,此外还支持SQL查询。

模块:

Spark的模块分为 Spark SQL、 MLlib、 GraphX、 Spark Streaming四个模块,在同一个应用中可以无缝的使用以上四个模块。

运行环境:

 Hadoop,Mesos,单机, 云环境

数据源:

支持HDFS、HBase、MongoDB、Cassandra以及其他Hadoop可以读取的数据源。

2.MLlib:

基于Spark的机器学习库。

针对迭代次数较多的算法和模型,比较适合在spark的MLlib中执行。

算法包括:K-means、奇异值分解、SVM、贝叶斯等

待续...

日期:2014-11-13

原文地址:https://www.cnblogs.com/Deron/p/4095758.html