Windows上安装运行Spark

1.下载Scala: https://www.scala-lang.org/download/

①注意:必须下载官方要求的JDK版本,并设置JAVA_HOME,否则后面将出现很多麻烦!

②Scala当前最新版本为2.13.0,但是建议不要使用最新的版本,此处下载的是2.11.12

Scala所有版本列表:https://www.scala-lang.org/download/all.html

③设置环境变量

 

2.安装后在cmd中输入scala出现如下提示表示成功

 

3.下载Spark:http://spark.apache.org/downloads.html

4.进入spark-2.3.3-bin-hadoop2.7in,cmd中输入spark-shell

①出现下面错误,表示需要安装python。安装时选择加到系统路径中,安装完cmd中输入python验证是否安装成功。

②出现下面错误,表示找不到Hadoop。需要安装Hadoop并设置HADOOP_HOME的系统路径。关于Windows下的Hadoop安装,可以参考《Windows上安装运行Hadoop》。

③出现下面的WARN可以不用理会,正常使用。

如果实在受不了WARN的话,则在spark-2.3.3-bin-hadoop2.7conflog4j.properties(默认是有template后缀的,直接去掉这个后缀)中增加

log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR

④屏蔽后的显示

 

下面的内容为使用IDEA写一个Scala的demo并使用Spark-submit运行。 

5.下载IDEA的Scala插件

 

6.创建Scala的IDEA项目

 

7.选择相应的JDK和Scala,创建一个HelloWorld项目

 

8.创建一个名字为Hello的Scala Object,会生成一个Hello.scala文件

 

9.在文件中输入如下代码

object Hello {
  def main(args: Array[String]): Unit = {
    println("Hello World");
  }
}

 

10.在IDEA中Run一下,正常显示

 

11.使用Project Structure->Artifacts打包成HelloWorld.jar

 

 12.将HelloWorld.jar拷贝到spark-2.3.3-bin-hadoop2.7in中,在cmd中执行

spark-submit --class Hello HelloWorld.jar

以上。

原文地址:https://www.cnblogs.com/chevin/p/11064854.html