使用IDEA配置spark的运行环境

 刚开始配置时因为各种依赖jar包问题导致环境老是有问题,花费了两三天,特此记录下,方便后来学习使用。

本文使用Idea2020开发工具开发第一个spark程序。使用的编程语言是scala。注意:

* JDK版本要和hadoop集群里的一样
* scala版本要和spark里指定的一致
* hadoop版本要和spark里指定的一致

打开idea,首先安装Scala插件。file->settings,然后按照下图操作,我已经按照完毕,所以显示installed

配置SDK和JDK

添加scala sdk。注意版本问题,要和你安装spark里指定的一致。

新建一个工程,如下图所示:

 

在弹出新建工程的界面选择Java,接着选择SDK,一般默认即可,点击“Next”按钮,如下图:

 

在弹出的选择创建项目的模板页面,不做任何操作,直接点击“Next”按钮。

输入项目名称,点击Finish,就完成了创建新项目的工作,我们的项目名称为:WordCount。

添加依赖jar包,要给项目添加相关依赖包,否则会出错。

点击Idea的File菜单,然后点击“Project Structure”菜单,如下图所示:

依次点击Modules和Dependencies,然后选择“+”的符号,如下图所示:

 

选择hadoop的包,我用得是hadoop2.7.7。把下面的依赖包都加入到工程中,否则会出现某个类找不到的错误。

(1)”/usr/local/hadoop/share/hadoop/common”目录下的所有JAR包;

(2)/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包;

(3)“/usr/local/hadoop/share/hadoop/hdfs”目录下的所有JAR包;

(4)“/usr/local/hadoop/share/hadoop/hdfs/lib”目录下的所有JAR包。

(5)“/usr/local/hadoop/share/hadoop/mapreduce”目录下的所有JAR包。

(6)“/usr/local/hadoop/share/hadoop/mapreduce/lib”目录下的所有JAR包。

(7)“/usr/local/hadoop/share/hadoop/yarn”目录下的所有JAR包。

(8)“/usr/local/hadoop/share/hadoop/yarn/lib”目录下的所有JAR包。

选择spark安装包:

(9)"D:BigDataspark-2.4.7-bin-without-hadoopspark-2.4.7-bin-without-hadoopjars"目录下的所有JAR包。一定注意不要引入下面的_jar文件夹中的jar包,容易出现jar包冲突,报错。(之前说错了,在此更正一下)

 

 

至此项目已经创建好。

代码写好之后,开始打jar包,按照下图打包。点击“File”,然后点击“Project Structure”,弹出如下的界面,

 依次点击"Artifacts" -> "+" -> "JAR" -> "From modules with dependencies",然后弹出一个选择入口类的界面,选择刚刚写好的WordCount类,如下图:

按照上面设置好之后,就开始打jar包,如下图:

 

 点击上图的“Build”之后就会生成一个jar包。jar的位置看下图,依次点击File->Project Structure->Artifacts就会看到如下的界面:

 将打好包的wordcount.jar文件上传到装有hadoop集群的机器中。

参考链接:https://www.cnblogs.com/airnew/p/9540982.html

https://www.cnblogs.com/breg/p/7889917.html

原文地址:https://www.cnblogs.com/wanpi/p/14063917.html