1.5学习总结：安装Spark

1.Spark简介

2.Spark安装总览

Spark安装配置分为以下6个步骤：下载，上传到虚拟机并解压，配置，配置HistortSerer，分发，启动集群

3.下载

4.上传解压

将本机下载好的安装包上传到虚拟机，我使用的是Xftp6，下载好后进行解压：tar xzvf spark.tgz(这里我对压缩包进行了重命名)

5.配置

为Spark配置JAVA的路径及启动时的主机和端口号

首先进入Spark目录，点开conf目录下有一个spark-env.sh.temeplate文件，复制一份，去掉后缀：cp spark-env.sh.temeplate spark-env.sh

修改此文件，添加以下内容：

export JAVA_HOME=/usr/local/java/jdk1.8.0_261
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

注：第一个写jdk的路径，第二个写主机名

6.配置HistoryServer

6.1 主节点启动Spark，需启动其他节点的worker，配置步骤：

　　同样在conf目录下有一个slaves.template文件，在这个文件中添加所有需要启动worker的主机名，并重命名去掉后缀

6.2 Spark是一个即用即走的工具，运行Spark程序结束后可能无法查看运行结果，过程等信息，可以配置历史服务，查看历史信息

首先复制conf目录下的spark-defaults.conf.template文件并去掉后缀。编辑复制后的文件，添加以下内容：

spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:8021/spark_log
spark.eventLog.compress true

在hadoop中创建日志目录：hdfs dfs -mkdir -p /spark_log（需要首先启动hadoop集群）

7.分发

进入spark安装目录的上一级目录，输入以下命令

8.启动集群

进入spark目录下的sbin目录，执行start-all.sh命令