Spark RDD-行动算子

2.4 Action

行动算子：触发运算，在 Executor 执行，如果想直接在 Driver 端看到结果可以使用 collect 和 foreach 都可以将数据拉取到 Driver 端。

2.4.1 reduce(func) 案例

1. 作用：通过 func 函数聚集 RDD 中的所有元素，先聚合分区内数据，再聚合分区间数据。

2. 需求：创建一个 RDD，将所有元素聚合得到结果

（1）创建一个 RDD[Int]

scala> val rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] at makeRDD at <console>:24

（2）聚合 RDD[Int]所有元素

scala> rdd1.reduce(_+_)
res50: Int = 55

（3）创建一个 RDD[String]

scala> val rdd2 = sc.makeRDD(Array(("a",1),("a",3),("c",3),("d",5)))
rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[86] at makeRDD at <console>:24

（4）聚合 RDD[String]所有数据

scala> rdd2.reduce((x,y)=>(x._1 + y._1,x._2 + y._2))
res51: (String, Int) = (adca,12)

测试：

scala> val rdd = sc.parallelize(1 to 5)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[28] at parallelize at <console>:24

scala> rdd.reduce(_+_)
res17: Int = 15

2.4.2 collect() 案例

从 Executor 端拉取数据到 Driver 端操作：一般用在测试环境中。

1. 作用：在驱动程序中，以数组的形式返回数据集的所有元素。

2. 需求：创建一个 RDD，并将 RDD 内容收集到 Driver 端打印

（1）创建一个 RDD

scala> val rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

（2）将结果收集到 Driver 端

scala> rdd.collect
res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

2.4.3 count() 案例

1. 作用：返回 RDD 中元素的个数

2. 需求：创建一个 RDD，统计该 RDD 的条数

（1）创建一个 RDD

scala> val rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

（2）统计该 RDD 的条数

scala> rdd.count
res1: Long = 10

2.4.4 first() 案例

1. 作用：返回 RDD 中的第一个元素

2. 需求：创建一个 RDD，返回该 RDD 中的第一个元素

（1）创建一个 RDD

scala> val rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

（2）统计该 RDD 的条数

scala> rdd.first
res2: Int = 1

2.4.5 take(n) 案例

1. 作用：返回一个由 RDD 的前 n 个元素组成的数组

2. 需求：创建一个 RDD，统计该 RDD 的条数

（1）创建一个 RDD

scala> val rdd = sc.parallelize(Array(2,5,4,6,8,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24

（2）统计该 RDD 的条数

scala> rdd.take(3)
res10: Array[Int] = Array(2, 5, 4)

2.4.6 takeSample(WithReplacement,num,[seed])

返回一个数组，该数组由从数据集中随机采样的 num 个元素组成，可以选择是否随机数

替换不足的部分，seed 用于指定随机数生成器种子。

2.4.7 takeOrdered(n) 案例

1. 作用：返回该 RDD 排序后的前 n 个元素组成的数组

--相当于先执行 sortBy() 再执行 take()

2. 需求：创建一个 RDD，统计该 RDD 的条数

（1）创建一个 RDD

scala> val rdd = sc.parallelize(Array(2,5,4,6,8,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24

（2）统计该 RDD 的条数

scala> rdd.takeOrdered(3)
res18: Array[Int] = Array(2, 3, 4)

2.4.8 aggregate 案例

1. 参数：(zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)

2. 作用：aggregate 函数将每个分区里面的元素通过 seqOp 和初始值进行聚合，然后用

combine 函数将每个分区的结果和初始值(zeroValue)进行 combine 操作。这个函数最终返回

的类型不需要和 RDD 中元素类型一致。

3. 需求：创建一个 RDD，将所有元素相加得到结果

（1）创建一个 RDD

scala> var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[88] at makeRDD at <console>:24

（2）将该 RDD 所有元素相加得到结果

scala> rdd.aggregate(0)(_+_,_+_)
res22: Int = 55

2.4.9 fold(num)(func) 案例

1. 作用：折叠操作，aggregate 的简化操作，seqop 和 combop 一样。

2. 需求：创建一个 RDD，将所有元素相加得到结果

（1）创建一个 RDD

scala> var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[88] at makeRDD at <console>:24

（2）将该 RDD 所有元素相加得到结果

scala> rdd.fold(0)(_+_)
res24: Int = 55

2.4.10 saveAsTextFile(path)

作用：将数据集的元素以 textfile 的形式保存到 HDFS 文件系统或者其他支持的文件系统，

对于每个元素，Spark 将会调用 toString 方法，将它装换为文件中的文本

开发中常用的读入（textFile）和写出（saveAsTextFile）

2.4.11 saveAsSequenceFile(path)

作用：将数据集中的元素以 Hadoop sequencefile 的格式保存到指定的目录下，可以使

HDFS 或者其他 Hadoop 支持的文件系统。

2.4.12 saveAsObjectFile(path)

作用：用于将 RDD 中的元素序列化成对象，存储到文件中。

2.4.13 countByKey() 案例

1. 作用：针对(K,V)类型的 RDD，返回一个(K,Int)的 map，表示每一个 key 对应的元素个数。

2. 需求：创建一个 PairRDD，统计每种 key 的个数

（1）创建一个 PairRDD

scala> val rdd = sc.parallelize(List((1,3),(1,2),(1,4),(2,3),(3,6),(3,8)),3)
rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[95] at parallelize at <console>:24

（2）统计每种 key 的个数

scala> rdd.countByKey
res63: scala.collection.Map[Int,Long] = Map(3 -> 2, 1 -> 3, 2 -> 1)

测试：

scala> sc.parallelize(Array(1,2,1,2,3,3,3)).map((_,1)).countByKey()
res19: scala.collection.Map[Int,Long] = Map(1 -> 2, 2 -> 2, 3 -> 3)

在开发中可以搭配 Sample 查看数据是否倾斜

2.4.14 foreach(func) 案例

1. 作用：在数据集的每一个元素上，运行函数 func 进行更新。

　　源码：

  def foreach(f: T => Unit): Unit = withScope {
    val cleanF = sc.clean(f)
    sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))
  }

2. 需求：创建一个 RDD，对每个元素进行打印

（1）创建一个 RDD

scala> var rdd = sc.makeRDD(1 to 5,2)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[107] at makeRDD at <console>:24

（2）对该 RDD 每个元素进行打印

scala> rdd.foreach(println(_))
3
4
5
1
2

测试：

scala> rdd.foreach(println)
2
1
4
5
3