yarn 0.9.0 build spark

1. 下载scala并安装。版本为2.10.3。设置SCALA_HOME和PATH环境变量

2. 下载SPARK 0.9.0源代码并解压到/root/Downloads/spark-0.9.0-incubating

http://www.apache.org/dyn/closer.cgi/incubator/spark/spark-0.9.0-incubating/spark-0.9.0-incubating.tgz

注意,也可以下载已经编译好的包。见:

http://www.apache.org/dyn/closer.cgi/incubator/spark/spark-0.9.0-incubating/spark-0.9.0-incubating-bin-hadoop2.tgz

但我们这里向研究一下代码的编译过程,所以直接下载源代码版本

3.到/root/Downloads/spark-0.9.0-incubating下运行./sbt/sbt assembly

在运行过程中出现一些问题,主要是maven repository和git的proxy的问题。主要是由于公司内外设置的原因。还有就是git协议识别的问题,可以收到将git clone git://xxx.yyy.zzz/mmm/nnn.git改为git clone http://xxx.yyy.zzz/mmm/nnn.git手动的执行以下,把需要的东西下载下来。再次运行即可

运行结束后在assembly/target/scala-2.10和example/target/scala-2.10/目录下分布有spark-assembly-0.9.0-incubating-hadoop2.2.0.jar和spark-examples-assembly-0.9.0-incubating.jar。

4.也可以用MAVE build.首先修改maven的环境变量

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

然后运行maven命令:

mvn -Pyarn -Dhadoop.version=2.2.0 -Dyarn.version=2.2.0 -DskipTests clean package

原文地址:https://www.cnblogs.com/littlesuccess/p/3558827.html