pyspark union、intersection、subtract、cartesian用法

union、intersection、subtract、cartesian

rdd1 = sc.parallelize([1,2,4,5,2,3])
rdd2 = sc.parallelize([4,6,5,7,8,6])
rdd1.union(rdd2).collect(): 所有rdd1和rdd2中的item组合(并集),不去重
rdd1.intersection(rdd2).collect(): rdd1 和 rdd2的交集,并且去重
rdd1.subtract(rdd2).collect(): 所有在rdd1中但不在rdd2中的item(差集),不去重
rdd1.cartesian(rdd2).collect(): rdd1 和 rdd2中所有的元素笛卡尔乘积(正交和)

 

原文地址:https://www.cnblogs.com/boye169/p/14540875.html