使用IDEA配置spark的运行环境

刚开始配置时因为各种依赖jar包问题导致环境老是有问题，花费了两三天，特此记录下，方便后来学习使用。

本文使用Idea2020开发工具开发第一个spark程序。使用的编程语言是scala。注意：

* JDK版本要和hadoop集群里的一样
* scala版本要和spark里指定的一致
* hadoop版本要和spark里指定的一致

打开idea，首先安装Scala插件。file->settings,然后按照下图操作，我已经按照完毕，所以显示installed

配置SDK和JDK

添加scala sdk。注意版本问题，要和你安装spark里指定的一致。

新建一个工程，如下图所示：

在弹出新建工程的界面选择Java，接着选择SDK，一般默认即可，点击“Next”按钮，如下图：

在弹出的选择创建项目的模板页面，不做任何操作，直接点击“Next”按钮。

输入项目名称，点击Finish，就完成了创建新项目的工作，我们的项目名称为：WordCount。

添加依赖jar包，要给项目添加相关依赖包，否则会出错。

点击Idea的File菜单，然后点击“Project Structure”菜单，如下图所示：

依次点击Modules和Dependencies，然后选择“+”的符号，如下图所示：

选择hadoop的包，我用得是hadoop2.7.7。把下面的依赖包都加入到工程中，否则会出现某个类找不到的错误。

（1）”/usr/local/hadoop/share/hadoop/common”目录下的所有JAR包；

（2）/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包；

（3）“/usr/local/hadoop/share/hadoop/hdfs”目录下的所有JAR包；

（4）“/usr/local/hadoop/share/hadoop/hdfs/lib”目录下的所有JAR包。

（5）“/usr/local/hadoop/share/hadoop/mapreduce”目录下的所有JAR包。

（6）“/usr/local/hadoop/share/hadoop/mapreduce/lib”目录下的所有JAR包。

（7）“/usr/local/hadoop/share/hadoop/yarn”目录下的所有JAR包。

（8）“/usr/local/hadoop/share/hadoop/yarn/lib”目录下的所有JAR包。

选择spark安装包：

(9)"D:BigDataspark-2.4.7-bin-without-hadoopspark-2.4.7-bin-without-hadoopjars"目录下的所有JAR包。一定注意不要引入下面的_jar文件夹中的jar包，容易出现jar包冲突，报错。(之前说错了，在此更正一下)

至此项目已经创建好。

代码写好之后，开始打jar包，按照下图打包。点击“File”，然后点击“Project Structure”，弹出如下的界面，

依次点击"Artifacts" -> "+" -> "JAR" -> "From modules with dependencies"，然后弹出一个选择入口类的界面，选择刚刚写好的WordCount类，如下图：

按照上面设置好之后，就开始打jar包，如下图：

点击上图的“Build”之后就会生成一个jar包。jar的位置看下图，依次点击File->Project Structure->Artifacts就会看到如下的界面：

将打好包的wordcount.jar文件上传到装有hadoop集群的机器中。