Spark共享变量和自定义分区

1.共享变量分两种：广播变量和累加器，实现任务间变量共享访问；
2.广播变量：
　　将变量以缓存并只读的方式分发至每个机器节点上。类似于hadoop中的分布式缓存。
　　特点：a.只读；b.在每个节点中缓存；
　　创建方式：调用sc.broadcast()创建广播变量；获取广播变量：bc.value
3.累加器：类似以hadoop中的计数器，进行“加”处理，用于统计处理。
　　创建方式：旧版本-->调用val acc = sc.accumulator(0)创建累加器；
　　　　　　　新版本-->调用val acc = sc.longAccumulator创建累加器，使用acc.add(Long l)

1.自定义分区实现方式：重写继承partitioner类
　　numPartitions: Int：返回创建出来的分区数。
　　getPartition(key: Any): Int：返回给定键的分区编号（0 到numPartitions-1）。
　　equals()：Java 判断相等性的标准方法。这个方法的实现非常重要，Spark 需要用这个
　　方法来检查你的分区器对象是否和其他分区器实例相同，这样Spark 才可以判断两个
RDD 的分区方式是否相同。