Spark体系架构
zhuangzai
Spark体系架构包括如下三个主要组件:
- 数据存储
- API
- 管理框架
接下来让我们详细了解一下这些组件。
数据存储:
Spark用HDFS文件系统存储数据。它可用于存储任何兼容于Hadoop的数据源,包括HDFS,HBase,Cassandra等。
API:
利用API,应用开发者可以用标准的API接口创建基于Spark的应用。Spark提供Scala,Java和Python三种程序设计语言的API。
下面是三种语言Spark API的网站链接。
资源管理:
Spark既可以部署在一个单独的服务器也可以部署在像Mesos或YARN这样的分布式计算框架之上。
下图2展示了Spark体系架构模型中的各个组件。
图2 Spark体系架构