Spark 笔记

1. Spark是什么?

2. Spark的特点

1、内存进行计算,速度快(有些必须在磁盘计算的复杂逻辑,也比MR快)

3. Spark组件

1、Spark Core 实现了Spark 的基本功能。包含 任务调度、内存管理、错误恢复、与存储系统交互等

包含 弹性分布式数据集 RDD 的 API 定义。(RDD表示分部在多个计算节点上可以并行操作的元素集合,是Spark的主要变成抽象)

2、Spark SQL 是Spark用来操作结构化数据的程序包。通过SparkSQL,可以用SQL或者Hive来查询数据。

3、Spark Streaming 对实时数据进行流式计算的组件

4、MLlib 提供常见机器学习(ML)功能的程序库,提供了很多机器学习算法,分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。

5、GraphX 是用来操作图的程序库,可以进行并行的图计算

4、

原文地址:https://www.cnblogs.com/zhangqian27/p/9209550.html