将开发的程序打包到正式环境中运行实战篇

　　　　　　　　　　将开发的程序打包到正式环境中运行实战篇

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

一.编写spark的wordcount案例

1>.创建一个maven项目并导入依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.yinzhengjie.bigdata</groupId>
    <artifactId>spark</artifactId>
    <version>1.0</version>

    <dependencies>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.1</version>
        </dependency>

    </dependencies>

    <build>
        <finalName>WordCount</finalName>
        <plugins>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

            <!--打包插件-->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>3.0.0</version>
                <configuration>
                    <archive>
                        <manifest>
                            <mainClass>WordCount</mainClass>
                        </manifest>
                    </archive>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>


</project>

pom.xml文件内容

2>.编写WordCount案例

package com.yinzhengjie.bigdata.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {

    /**
      *   命令行完成WordCount案例:
      *     sc.textFile("/tmp/data/").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
      *
      *    下面是使用开发工具完成Spark WordCount的开发(需要安装Scala环境)
      */

    //创建SparkConf对象
    val  config:SparkConf = new SparkConf()
    config.setMaster("local[*]")
    config.setAppName("WordCount")

    //创建Spark上下文对象
    val sc = new SparkContext(config)

    /**
      *   读取文件，将文件内容一行一行读取出来
      *
      *   需要注意的是,路径查找位置默认从当前的部署环境中查找，如果需要从本地查找:"file:///tmp/data/"
      *
      */
    val lines = sc.textFile(args(0))

    //将每行数据按照空格(" ")切割成多个单词
    val words:RDD[String] = lines.flatMap(_.split(" "))

    //为了统计方便,将单词数据进行结构的转换
    val wordToOne:RDD[(String,Int)] = words.map((_,1))

    //将转换结构后的数据进行分组聚合
    val wordToSum:RDD[(String,Int)] = wordToOne.reduceByKey(_+_)

    //将统计结果采集后打印到控制台
    val result:Array[(String,Int)] = wordToSum.collect()
    result.foreach(println)

    //关闭连接
    sc.stop()
  }
}

二.使用idea工具将开发的程序打包

1>.使用idea工具开始打包

2>.打包完成会生成相应的jar包文件(建议选择有依赖的jar包上传到服务器)

三.将开发的程序打包到正式环境中运行实战案例

1>.准备数据源

[root@hadoop101.yinzhengjie.org.cn ~]# ll /tmp/data/
total 8
-rw-r--r-- 1 root root 46 Jun 28 03:14 1.txt
-rw-r--r-- 1 root root 60 Jun 28 03:14 2.txt
[root@hadoop101.yinzhengjie.org.cn ~]# 
[root@hadoop101.yinzhengjie.org.cn ~]# 
[root@hadoop101.yinzhengjie.org.cn ~]# cat /tmp/data/1.txt 
hello java
java python
kafka shell
spark java
[root@hadoop101.yinzhengjie.org.cn ~]# 
[root@hadoop101.yinzhengjie.org.cn ~]# cat /tmp/data/2.txt 
hello golang
bigdata shell
java python
world java
spark c++
[root@hadoop101.yinzhengjie.org.cn ~]#

[root@hadoop101.yinzhengjie.org.cn ~]# ll /tmp/data/