025 Spark中的广播变量原理以及测试(共享变量是spark中第二个抽象)

一:来源

1.说明

  为啥要有这个广播变量呢。

  一些常亮在Driver中定义,然后Task在Executor上执行。

  如果,有多个任务在执行,每个任务需要,就会造成浪费。

    

二:共享变量的官网

1.官网

  有两种方式。

  

 三:程序实现

1.Accumulators

  类似于mapreduce中的用于累加数据的共享变量

  这是一个官方的案例。

   

2.官网上的程序

  

3.广播变量程序实现

  作用:

    可以减少网络传输量

    可以解决大表join小表的问题(将小表的数据广播出去)

  注意:

    不能广播RDD,可以广播RDD中的数据。

  

原文地址:https://www.cnblogs.com/juncaoit/p/6429052.html