spark学习进度01（安装环境搭建集群搭建）

1、spark的相关特点

速度快、易用、通用、兼容

速度快::
+
--
* Spark 的在内存时的运行速度是 Hadoop MapReduce 的100倍
* 基于硬盘的运算速度大概是 Hadoop MapReduce 的10倍
* Spark 实现了一种叫做 RDDs 的 DAG 执行引擎, 其数据缓存在内存中可以进行迭代处理
--

易用::
+
--
[source,java]
----
df = spark.read.json("logs.json")
df.where("age > 21")
.select("name.first")
.show()
----
* Spark 支持 Java, Scala, Python, R, SQL 等多种语言的API.
* Spark 支持超过80个高级运算符使得用户非常轻易的构建并行计算程序
* Spark 可以使用基于 Scala, Python, R, SQL的 Shell 交互式查询.
--

通用::
+
--
* Spark 提供一个完整的技术栈, 包括 SQL执行, Dataset命令式API, 机器学习库MLlib, 图计算框架GraphX, 流计算SparkStreaming
* 用户可以在同一个应用中同时使用这些工具, 这一点是划时代的
--

兼容::
+
--
* Spark 可以运行在 Hadoop Yarn, Apache Mesos, Kubernets, Spark Standalone等集群中
* Spark 可以访问 HBase, HDFS, Hive, Cassandra 在内的多种数据库
--

2、安装配置spark

找到对应的spark版本，与hadoop的版本是对应的。

修改sparh.env.sh

进行分发操作：

启动操作：