sample

sample是在数据源取样。

val data = sc.parallelize(1 to 20)
data.sample(true,0.4).collect

sample第一个参数表示是否是重复抽样,如果是true,则抽象的结果可能会有重复的数字。而false代表抽样的结果是没有重复的。

sample第二个参数表示抽样的数量量,0.4代表是40%

原文地址:https://www.cnblogs.com/hark0623/p/4494776.html