Spark安装和配置

Spark可以直接安装在hadoop2上面，主要是安装在hadoop2的yarn框架上面

安装Spark之前需要在每台机器上安装Scala,根据你下载的Spark版本，选择对应的Scala和jdk

Scala的安装就是解压缩，然后配置环境变量，将Scala的执行命令配置到Path上。

Spark的安装和Scala一样，但是Spark还需要对配置文件进行配置

这里给出环境配置:/etc/profile文件

export JAVA_HOME=/usr/local/jdk1.7.0
export HADOOP_HOME=/usr/local/hadoop-2.0.0-cdh4.2.1
export SCALA_HOME=/usr/local/scala-2.10.5
export SPARK_HOME=/usr/local/spark-1.5.0-bin-cdh4

export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

Spark的配置文件相对hadoop的比较简单，只要对spark/conf文件目录下的spark-env.sh和slaves进行配置。

1、spark-env.sh

export JAVA_HOME=/usr/local/jdk1.7.0
export SCALA_HOME=/usr/local/scala-2.10.5
export SPARK_MASTER_IP=192.168.59.100
export SPARK_WORKER_MEMORY=1g
export HADOOP_HOME=/usr/local/hadoop-2.0.0-cdh4.2.1

2、slaves

hadoop100
hadoop101
hadoop102

将Spark和scala分配到所有的机器上，这样就搭好了一个Spark集群

启动Spark

使用Spark的sbin目录下“start-all.sh”脚本文件启动spark