初识Spark（Spark系列）

1.Spark

Spark是继Hadoop之后，另外一种开源的高效大数据处理引擎，目前已提交为apach顶级项目。

效率：

据官方网站介绍，Spark是Hadoop运行效率的10-100倍（随内存计算、磁盘计算的不同而不同）。

语言：

支持的语言包括java、scala、python等，此外还支持SQL查询。

模块：

Spark的模块分为 Spark SQL、 MLlib、 GraphX、 Spark Streaming四个模块，在同一个应用中可以无缝的使用以上四个模块。

运行环境：

Hadoop，Mesos，单机，云环境

数据源：

支持HDFS、HBase、MongoDB、Cassandra以及其他Hadoop可以读取的数据源。

2.MLlib：

基于Spark的机器学习库。

针对迭代次数较多的算法和模型，比较适合在spark的MLlib中执行。

算法包括：K-means、奇异值分解、SVM、贝叶斯等

待续...

日期：2014-11-13

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/Deron/p/4095758.html