1.5学习总结:安装Spark

1.Spark简介

2.Spark安装总览

Spark安装配置分为以下6个步骤:下载,上传到虚拟机并解压,配置,配置HistortSerer,分发,启动集群

3.下载

https://spark.apache.org/downloads.html

4.上传解压

将本机下载好的安装包上传到虚拟机,我使用的是Xftp6,下载好后进行解压:tar xzvf spark.tgz(这里我对压缩包进行了重命名)

5.配置

为Spark配置JAVA的路径及启动时的主机和端口号

首先进入Spark目录,点开conf目录下有一个spark-env.sh.temeplate文件,复制一份,去掉后缀:cp spark-env.sh.temeplate spark-env.sh

修改此文件,添加以下内容:

export JAVA_HOME=/usr/local/java/jdk1.8.0_261
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

注:第一个写jdk的路径,第二个写主机名

6.配置HistoryServer

6.1 主节点启动Spark,需启动其他节点的worker,配置步骤:

  同样在conf目录下有一个slaves.template文件,在这个文件中添加所有需要启动worker的主机名,并重命名去掉后缀

6.2 Spark是一个即用即走的工具,运行Spark程序结束后可能无法查看运行结果,过程等信息,可以配置历史服务,查看历史信息

首先复制conf目录下的spark-defaults.conf.template文件并去掉后缀。编辑复制后的文件,添加以下内容:

spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:8021/spark_log
spark.eventLog.compress true

在hadoop中创建日志目录:hdfs dfs -mkdir -p /spark_log(需要首先启动hadoop集群)

7.分发

进入spark安装目录的上一级目录,输入以下命令

 

8.启动集群

 进入spark目录下的sbin目录,执行start-all.sh命令

原文地址:https://www.cnblogs.com/wangzhaojun1670/p/14288544.html