Hadoop之MapReduce（一）简介及简单案例

简介

　　Hadoop MapReduce是一个分布式运算编程框架，基于该框架能够容易地编写应用程序，进而处理海量数据的计算。

　　MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想；Map 负责"分"，即把复杂的任务分解为若干个"简单的任务"来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce 负责"合"，即对 map 阶段的结果进行全局汇总。

MapReduce的执行流程

1，由默认读取数据组件TextInputFormat一行一行的读（input）

2，然后做相应的处理（由我们自己编写的Mapper程序做处理），最终context.write出<key,value>到内存缓冲区（图中的buffer in memory）

3，memory缓冲区默认100M，如果满了（或者到了末尾）则spill to disk（溢出到磁盘，最后merge（合并）），如果有分区或者排序的话，这里会分区且排序

4，由我们自己的程序控制一共有几个reduce，每个reduce会去磁盘上拉去属于自己的分区，进而执行我们自己编写的Reducer程序进行处理数据，最终context.write出<key,value>

5，由输出数据组件TextOutPutFomat输出到我们制定的位置（output）

简单示例

需求：在一堆给定的文本文件中统计输出每一个单词出现的总次数

首先，编写Mapper程序（需要继承org.apache.hadoop.mapreduce.Mapper并重写map方法）：

package com.zy.hadoop.mr.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * TODO 本类就是mr程序map阶段调用的类  也是就maptask
 * KEYIN :map输入kv中key
 * 在默认读取数据的组件下TextInputFormat(一行一行读)
 * key:表示是改行的起始偏移量（光标所在的偏移值）
 * value：表示的改行内容
 * 用long来表示
 * <p>
 * VALUEIN：map输入kv中的value
 * 在默认读取数据的组件下TextInputFormat(一行一行读)
 * 表明的是一行内容   所有是String
 * <p>
 * KEYOUT：map输出的kv中的key
 * 在我们的需求中  把单词做为输出的key  所以String
 * <p>
 * VALUEOUT：map输出kv中的value
 * 在我们的需求中  把单词的次数1做为输出的value  所以int
 * <p>
 * Long String是jdk自带的数据类型
 * 在网络传输序列化中 hadoop认为其及其垃圾  效率不高  所以自己封装了一套 数据类型   包括自己的序列化机制（Writable）
 * Long----->LongWritable
 * String--->Text
 * int------>IntWritable
 * null----->nullWritable
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    /**
     * @param key
     * @param value
     * @param context TODO 该方法就是map阶段具体业务逻辑实现的所在地方
     *                map方法调用次数 取决于TextInputFormat如何读数据
     *                TextInputFormat读取一行数据--->封装成<k，v>--->调用一次map方法
     *                <p>
     *                hello tom hello alex hello-->   <0,hello tom hello alex hello>
     *                alex tom mac apple        -->    <24,alex tom mac apple>
     */
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //拿其中一行内容转成String
        String line = value.toString();
        //按照分隔符分隔
        String[] words = line.split(" ");
        //遍历数组 单词出现就标记1
        for (String word : words) {
            //使用哦context把map处理完的结果写出去
            context.write(new Text(word), new IntWritable(1)); //<hello,1>
        }
    }
}

然后，编写Reducer类（需要继承org.apache.hadoop.mapreduce.Reducer并重写reduce方法）：

package com.zy.hadoop.mr.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * TODO  该类就是mr程序reduce阶段运行的类  也就是reducetask
 * KEYIN: reduce输入的kv中k 也就是map输出kv中的k  是单词  Text
 * <p>
 * VALUEIN:reduce输入的kv中v  也就是map输出kv中的v  是次数1  IntWritable
 * <p>
 * KEYOUT：reduce输出的kv中k  在本需求中 还是单词  Text
 * <p>
 * VALUEOUT:reduce输出的kv中v  在本需求中 是单词的总次数  IntWritable
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //定义一个变量
        int count = 0;
        //遍历values 累计里面的值
        for (IntWritable value : values) {
            count += value.get();
        }
        //输出结果
        context.write(key, new IntWritable(count));
    }
}

最后，编写执行类：

package com.zy.hadoop.mr.wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * TODO 该类就是mr程序运行的主类 主要用于一些参数的指定拼接 任务的提交
 * TODO 比如使用的是哪个mapper 哪个reducer  输入输出的kv是什么  待处理的数据在那  输出结果放哪
 */
public class WordCountRunner {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();

        //指定mr采用本地模式运行 本地测试用
        conf.set("mapreduce.framework.name", "local");

        //使用job构建本次mr程序
        Job job = Job.getInstance(conf);

        //指定本次mr程序运行的主类
        job.setJarByClass(WordCountRunner.class);

        //指定本次mr程序的mapper reducer
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //指定本次mr程序map阶段的输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //指定本次mr程序reduce阶段的输出类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //设置使用几个Reduce执行
        job.setNumReduceTasks(2);

        //指定本次mr程序处理的数据目录 输出结果的目录
//        FileInputFormat.setInputPaths(job, new Path("/wordcount/input"));
//        FileOutputFormat.setOutputPath(job, new Path("/wordcount/output"));

        //本地测试用
        FileInputFormat.setInputPaths(job, new Path("D:\wordcount\input"));
        FileOutputFormat.setOutputPath(job, new Path("D:\wordcount\output"));//输出的文件夹不能提前创建 否则会报错

        //提交本次mr的job
        //job.submit();

        //提交任务 并且追踪打印job的执行情况
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : -1);
    }
}

如果需要将程序提交给YARN集群执行：

1，将程序打成jar包，上传到集群的任意一个节点上

2，用hadoop命令启动：hadoop xxxxx.jar