spark安装

1.升级python2.7(python2.7.3)

wget http://python.org/ftp/python/2.7.3/Python-2.7.15.tar.bz2

tar -jxvf Python-2.7.15.tar.bz2

cd Python-2.7.15

./configure

make all

make install

make clean

make distclean

mv /usr/bin/python /usr/bin/python2.6.6

ln -s /usr/local/bin/python2.7 /usr/bin/python2.7.15

修改yum

vim /usr/bin/yum

头部:!/usr/bin/python2.6.6

2.安装jdk(version 1.8.0)

 yum install -y java-1.8.0-openjdk*

3.安装scala(Scala2.11.8)

下载scala对应版本

tar -zxvf scala.2.11.8.tgz

vim /etc/profile

export SCALA_HOME=/root/scala/scala-2.11.8
export JAVA_HOME=/usr/lib/jvm/java/jre
export PATH=$PATH:$SCALA_HOME/bin

source /etc/profile

安装成功

4.安装hadoop(集群使用)

参考链接

给认证文件授权

chmod 600  ~/.ssh/authorized_keys

http://dblab.xmu.edu.cn/blog/1177-2/

http://www.powerxing.com/install-hadoop/

5.安装spark

参考链接

http://dblab.xmu.edu.cn/blog/1187-2/

集群上运行spark

提交python

1.spark-submit xxx.py (单机运行)

2.spark-submit --master spark://host:7077 --executor -memory 10g xxx.py

--master标记指定集群url

spark://host:port 连接指定端口的spark独立集群。默认7707端口

 yarn:链接到一个YARN集群,当在YARN上运行时,需要设置环境变量HADOOP_CONF_DIR只想hadoop配置目录,获取集群信息。

local :运行本地模式,单核

local[N]:本地模式,多个核心

local[*]:本地模式,使用尽可能多的核心

常见标记:

--master 表示要链接的集群管理器

--deploy-mode:选择本地启动驱动器程序,还是在集群中的一台工作节点启动。默认本地模式

--class 运行Java或scala程序时应用的主类

--name 应用的显示名,显示在网页界面中

--jars:上传放到应用的classpath中的jar包列表,如果依赖少量jar包,可以应用

--files 需要放到应用工作目录中的文件列表。这个参数一般用来放需要分发到各个节点的数据文件

--py-files 需要添加到pythonpath中的文件列表,可以包含.py .egg以及.zip文件

--executor-memory:执行器进程中使用的内存量,字节为单位。可以使用后缀指定更大的单位。(examp:512m(mb) 15g(GB))

--driver-memory:驱动器进程中使用的内存量,字节为单位。可以使用后缀指定更大的单位。同上

 

原文地址:https://www.cnblogs.com/supermanwx/p/9090478.html