Spark的基本说明

1、关于Application

用户程序，一个Application由一个在Driver运行的功能代码和多个Executor上运行的代码组成（工作在不同的节点上）。

又分成多个Job，每个Job由多个RDD和一些Action操作组成、job本分多个task组，每个task组称为：stage。

每个task又被分到多个节点，由Executor执行：

在程序中RDD转化其实还未真正运行，真正运行的是操作的时候。

2、程序执行过程

1）构建Spark Application的运行环境，就是启动SparkContext，启动后，向资源管理器

（standalone--spark自己的Master管理资源、Mesos或Yarn）注册且申请运行Executor资源。

2）资源管理器分配Executor资源，并且在各个节点上启动StandaloneExecutorBackend（对Standalone来说），Executor将运行情况随着心跳发送到资源管理器上。

3）SparkContext根据用户程序，构建DAG图，将DAG分解成Stage，划分原则是宽依赖时候划分，把Stage（TaskSet）发送给TaskScheduler。Stage

根据RDD的Partition数量来决定Task的数量；Executor向SparkContext申请Task。Task Scheduler将Task发送给Executor运行，且同时把代码发送给Executor（好像是Master开启HTTP服务，Executor去取代码）。

4）Task在Executor【此程序专属】上运行，多线程运行，线程数看可以运行的核数。

5）Spark Context运行地点和Worker不要分隔太远，中间过程有数据交换。

3、DAG Scheduler

1）根据RDD的依赖关系来划分Stage，简单来说，如果一个子RDD只依赖一个父RDD，则在一个Stage中，否则在多个Stage中，只依赖一个父RDD称为窄依赖，依赖多个父RDD为宽依赖，

发生宽依赖称为Shuffle。

2）当Shuffle数据处理失败的时候，它重新处理之前的数据。

3）它根据RDD构建DAG（有向无环图），然后再进一步找出开销最小的调度方法。将Stage发送给Task Scheduler。

4、Task Scheduler

1）保存维护所有的TaskSet。

2）当Executor向Driver发送心跳的时候，TaskScheduler会根据其资源使用情况分配相应Task，如果允许失败，重试失败的Task。

5、RDD的运行原理

1）根据Spark内部对象或者Hadoop等外部对象创建RDD。

2）构建DAG。

3）划分为Task，分别在多个节点上执行后汇总。

举例：第一个字母排序：

sc.textFile("hdfs://names")

.map(name => (name.charAt(0),name))

.groupByKey()

.mapValues(names =>names.toSet.size)

.collect()

假设文件内容为按行的姓名：

Ah (A,Ah) (A,(Ah,Anlly) [ (A,2),

PPT ---> map----> (P,PPT) ----->groupByKey--->(P,(PPT))-------->mapValues---> (P,1)]

Anlly (A,Anlly)

1）创建RDD、最后的collect为动作不会创建RDD，其他的操作都会创建新的RDD。

2）创建DAG，groupBy()会进行依赖多条上一个RDD的数据，所以多划分为一个阶段。

如图：

3）执行任务，每个阶段必须等上一个阶段执行完成。每个Stage又分成不同的Task执行，每个Task都包含代码+数据。

假设例子中的names下面有四个文件块，那么HadoopRDD中的Partitions自动划分为四个分区对应这四块数据。

就会创建四个Task执行相关任务。

每个Task操作一块数据再执行，以上例子的简单模拟：

import org.apache.spark.{SparkConf, SparkContext}

object NameCountCh {
  def main(args: Array[String]) {
    if (args.length < 1) {
      System.err.println("Usage:<File>")
      System.exit(1)
    }
    val conf = new SparkConf().setAppName("NameCountCh")
    val sc = new SparkContext(conf)

    sc.textFile(args(0))
      .map(name => (name.charAt(0), name))
      .groupByKey()
      .mapValues(names => names.toSet.size)
      .collect().foreach(println)

  }
}

　实际执行过程截图：

执行命令： ./spark-submit --master spark://xxxx:7077 --class NameCountCh --executor-memory 512m --total-executor-cores 2 /data/spark/miaohq/scalaTestApp/scalatest4.jar hdfs://spark29:9000/home/miaohq/testName.txt

1、启动一个HTTP端口：