深入探究Spark -- 基本组成

DAG:Directed Acyclic Graph,有向无环图
RDD:Resilient Distributed Dataset 弹性分布式数据集,一种分布式的内存抽象,将工作集缓存到内存中,实现了复用。
 
用户使用交互接口(Driver)与Spark集群的Cluster Manager进行交互,CM进行调度和资源管理。管理的是Worker Node(包括Executor、Task、Cache)
 
 
Spark Streaming将流式计算分解成短小的批处理作业。
 
 
MLlib实现了许多算法,包括分类、回归、聚类、协同过滤、降维等
 
Spark SQL 提供与外部数据源便捷的访问,交互式的查询
 
GraphX ETL、试探性分析、迭代式的图计算
原文地址:https://www.cnblogs.com/kinghey-java-ljx/p/8516927.html