1、Spark简介(Python版)

此文为个人学习笔记如需系统学习请访问http://dblab.xmu.edu.cn/blog/1709-2/

Spark具有如下几个主要特点：

 运行速度快 Spark使用先进的DAG（Directed Acyclic Graph，有向无环图）执行引擎，以支持循环数据流与内存计算，基于内存的执行速度可比Hadoop MapReduce快上百倍，基于磁盘的执行速度也能快十倍；

 容易使用 支持使用Scala、Java、Python和R语言进行编程、拥有简洁的API、可以通过Spark Shell进行交互式编程

 通用性 完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件

 运行模式多样 可运行于独立的集群模式中，或者运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

Hadoop存在如下一些缺点：

 表达能力有限   计算都必须要转化成Map和Reduce两个操作，但这并不适合所有的情况，难以描述复杂的数据处理过程；
 磁盘IO开销大   每次执行时都需要从磁盘读取数据，并且在计算完成后需要将中间结果写入到磁盘中，IO开销较大；基于磁盘IO开销大
 延迟高   一次计算可能需要分解成一系列按顺序执行的MapReduce任务，任务之间的衔接由于涉及到IO开销，会产生较高延迟。而且，在前一个任务执行完成之前，其他任务无法开始，难以胜任复杂、多阶段的计算任务。

相比于MapReduce，Spark主要具有如下优点：

 Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比MapReduce更灵活；
 Spark提供了内存计算，中间结果直接放到内存中，带来了更高的迭代运算效率；
 Spark基于DAG的任务调度执行机制，要优于MapReduce的迭代执行机制。（DAG意思是有向无环图，所谓有向无环图是指任意一条边有方向，且不存在环路的图。）

Spark生态系统：

 复杂的批量数据处理：时间跨度通常在数十分钟到数小时之间；（过去mapreduce,spark:）
 基于历史数据的交互式查询：时间跨度通常在数十秒到数分钟之间；（过去Impala,spark:）
 基于实时数据流的数据处理：时间跨度通常在数百毫秒到数秒之间。（过去Storm,spark:）

Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX 等组件

*  Spark Core：Spark Core包含Spark的基本功能，如内存计算、任务调度、部署模式、故障恢复、存储管理等。Spark建立在统一的抽象RDD之上，使其可以以基本一致的方式应对不同的大数据处理场景；通常所说的Apache Spark，就是指Spark Core；
*  Spark SQL：Spark SQL允许开发人员直接处理RDD，同时也可查询Hive、HBase等外部数据源。Spark SQL的一个重要特点是其能够统一处理关系表和RDD，使得开发人员可以轻松地使用SQL命令进行查询，并进行更复杂的数据分析；
*  Spark Streaming：Spark Streaming支持高吞吐量、可容错处理的实时流数据处理，其核心思路是将流式计算分解成一系列短小的批处理作业。Spark Streaming支持多种数据输入源，如Kafka、Flume和TCP套接字等；
*  MLlib（机器学习）：MLlib提供了常用机器学习算法的实现，包括聚类、分类、回归、协同过滤等，降低了机器学习的门槛，开发人员只要具备一定的理论知识就能进行机器学习的工作；
*  GraphX（图计算）：GraphX是Spark中用于图计算的API，可认为是Pregel在Spark上的重写及优化，Graphx性能良好，拥有丰富的功能和运算符，能在海量数据上自如地运行复杂的图算法。