Linux 下spark安装

一.安装前提：

1.java环境（jdk1.8）

2.scala环境（2.0）

3.python 环境（3.5）：注如果使用pyspark的话，这个才是必须的。

二、spark安装

在官网下载安装包：http://spark.apache.org/downloads.html

创建并进入目录：/usr/software/spark目录下

cd /usr/software/spark
wget https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz

解压安装包：

tar -xf    spark-***-bin-hadoop**.tgz(对应着你下载的版本号)

更新profile文件:

sudo vi ~/etc/profile

在profile文件中配置spark的环境变量

#SET SPARK_HOME
export SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7  
export PATH=$SPARK_HOME/bin:$PATH

注：路径 SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7 中的

  spark-2.2.0-bin-hadoop2.7 是解压后的目录

三、运行pyspark

进入spark安装位置, 然后进入spark中的 bin 文件夹

cd  /usr/software/spark/spark-2.2.0-bin-hadoop2.7 /bin
pyspark

若是想用python程序直接启动pyspark的话，需要在/etc/profile文件中配置如下：

# python can call pyspark directly
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/pyspark:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH

此时已配置好。

四：注意事项

自己当时安装时，出现了一个java.notfoundclass的异常，这个是配置问题。导致无法启动pyspark。

解决方法：

在/etc/host文件中绑定主机名和主机地址

主机名：127.0.0.1

主机地址：10.70.31.100 root@xxx后的XXX

问题的解决地址：https://stackoverflow.com/questions/23353477/trouble-installing-pyspark