Spark-大数据计算引擎

Spark简介:

    Spark是一个快速且通用的集群计算平台,可以处理大数据量时候,比如几T到几P量级时候只需要几秒钟到几分钟,相对于hadoop几分钟到几小时速度是很快的,通用是指Spark的使用场景非常多。

 官网地址:http://spark.apache.org/

Spark特点:

  1.Spark是快速的:

    1).Spark扩充了MapReduce计算模型

    2).  Spark是基于内存的计算,

  2.Spark是通用的:

    Spark的设计容纳了其他分布式系统拥有的功能,包括批处理(hadoop),迭代式计算(机器学习),交互查询(hive)和流处理(storm)等。

    优点:

      降低了维护成本。

  3.Spark是高度开放的

    Spark提供了Python,java,Scala,sql的API和丰富的内置库。

   相比与MapReduce编程模型,Spark提供了更加灵活的DAG(Directed Acyclic Graph) 编程模型, 不仅包含传统的map、reduce接口, 还增加了filter、flatMap、union等操作接口,使得编写Spark程序更加灵活方便。

原文地址:https://www.cnblogs.com/songgj/p/10827984.html