spark流程跟踪

　　每个action对应一个job，每个job里面会有很多个阶段（stage），其实每个stage都是一个算子（Operation），可能是transformation，可能是action；但是action一定是一个job的最后一个stage，其实action之前的stage都是做DAG而已，真正触发执行其实是在action执行的时候，因为action的操作是基于前面的transformation执行结果基础之上的，这也算是一种懒加载吧。
　　关于DAG，通过看YARN的UI，发现其实只是包括Transformation（在job页面，点击DAG Visualization），但是Job其实是包含两类stage，一部分是DAG（map算子组合）stage，一部分执行（action）stage，一定是最后一个stage；所以在job页面，DAG+stage decription里面描述的action，组合在一起才是一个Job；与之对应的一个job最多只有两个stage，一个stage是map构建的DAG过程，第二个stage
　　举一个栗子：
rdd.map( r => mapFunction(r)).repartitionAndSortWithinPartitions(regionSplitPartitioner).hbaseForeachPartition(this, (it, conn)
　　这段代码的执行将会创建一个job，一般job都是以action名称来描述，这个job的描述就是： foreachPartition at HBaseContext.scala:103，包括了action的类型以及代码位置。
　　这个job就有两个stage：
　　map at HBaseContext.scala:771
　　foreachPartition at HBaseContext.scala:103

　　最后一个概念，就是task，task和stage有关，对应两种task：ShuffleMap task以及Result task两种。前者是指将Map的数据进行分桶，分区；后者指的是将数据发送给Driver。