java实现spark常用算子之Reduce

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function2;

import java.util.Arrays;
import java.util.List;

/**
 * reduce(fun) 算子：
 * 每次传入两个参数通过fun 的到一个返回值，该返回值继续与后面的值进行调用fun，
 * 直到所有的数据计算完成，最后返回一个计算结果
 */
public class ReduceOperator {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setMaster("local").setAppName("reduce");
        JavaSparkContext sc = new JavaSparkContext(conf);
        List<Integer> number = Arrays.asList(3,2,5,4,7);
        JavaRDD<Integer> numRDD = sc.parallelize(number);

        int reuslt = numRDD.reduce(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer integer, Integer integer2) throws Exception {
                return integer+integer2;
            }
        });

        System.err.println(reuslt);
    }

}
微信扫描下图二维码加入博主知识星球,获取更多大数据、人工智能、算法等免费学习资料哦！