一、spark介绍

二、spark安装前提

搭建spark环境前，需要搭建的环境有：

三、集群规划

节点名称	IP	zookeeper	Master	Worker
alary001	192.168.xx.x1	Zookeeper	Master
alary002	192.168.xx.x2	Zookeeper		worker
alary003	192.168.xx.x3	Zookeeper		worker

四、spark安装

spark清华大学软件镜像下载地址

然后上传至master服务器的/usr/local/目录下

rz spark-2.4.3-bin-hadoop2.7

解压：

tar -zxvf spark-2.4.3-bin-hadoop2.7

重命名：

mv spark-2.4.3-bin-hadoop2.7 spark

五、修改spark环境变量

vi ~/.bashrc

export  SPARK_HOME=/usr/local/spark
export  PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

六、修改spark-env.sh

进入到spark配置文件目录：

cd /usr/local/spark/conf

复制spark-env.sh.template并重命名为spark-env.sh:

cp spark-env.sh.template spark-env.sh

修改配置文件spark-env.sh：

vi spark-env.sh

#指定默认master的ip或主机名
export SPARK_MASTER_HOST=node21  
#指定maaster提交任务的默认端口为7077    
export SPARK_MASTER_PORT=7077 
#指定masster节点的webui端口       
export SPARK_MASTER_WEBUI_PORT=8080 
#每个worker从节点能够支配的内存数 
export SPARK_WORKER_MEMORY=1g        
#允许Spark应用程序在计算机上使用的核心总数（默认值：所有可用核心）
export SPARK_WORKER_CORES=1    
#每个worker从节点的实例（可选配置） 
export SPARK_WORKER_INSTANCES=1   
#指向包含Hadoop集群的（客户端）配置文件的目录，运行在Yarn上配置此项   
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
#指定整个集群状态是通过zookeeper来维护的，包括集群恢复
export SPARK_DAEMON_JAVA_OPTS="      
-Dspark.deploy.recoveryMode=ZOOKEEPER 
-Dspark.deploy.zookeeper.url=alary001:2181,alary002:2181,alary003:2181
-Dspark.deploy.zookeeper.dir=/spark"

七、修改slaves

复制slaves.template成slaves，并修改配置内容

cp slaves.template slaves

vi slaves

修改从节点

alary001
alary002

八、将安装包分发给其他节点

scp -r spark alary002:/usr/local/
scp -r spark alary003:/usr/local/

修改alary002节点上conf/spark-env.sh配置的MasterIP为SPARK_MASTER_IP=alary002

九、启动spark集群

在spark目录下的sbin目录
执行./start-all.sh
使用jps和8080端口，检查集群是否启动成功
进入到spark-shell查看是否正常