大数据框架-Mapreduce过程

1、Shuffle

[从mapTask到reduceTask: Mapper -> Partitioner ->Combiner -> Sort ->Reducer]

mapper对job任务进行键值对构建并写入环形内存缓冲区[缓冲区满了，map停止直到全写入磁盘]，大小100MB(io.sort.mb)，一旦达到0.8(io.sort.spill.percent)读入量，即将内存内容经过partitioner分区和sort排序，和combiner合并写入到磁盘一个溢写出文件目录下(mapred.local.dir)。当数据读取完成，将磁盘所有溢出文件合并成一个大文件(同样是经过分区和排序后的文件)。将映射关系提交给AppMaster。

reducer通过心跳机制到AppMaster获取映射关系，再通过Http方式得到文件分区，不同区号文件进入不同reducer，再合并排序进行reduce处理。

Mapper：输出键值对集合（函数setup、map、cleanup、run）；

Partitioner：分区，并确保分区号大于或等于reducer的个数。对Mapper结果进行计算确定交给哪个reducer来计算；

Combiner：在map端执行减少传输到reducer的数据量，看作本地的reducer，实现本地key的归并；但combiner不能改变key/value的类型，适用于不影响最终结果场景(累加、最大值)；

Sort:按照key值排序。

2、hadoop序列化类型（全都继承Writable）

Text:类似于java中的String

基础Writable对象(IntWritableLongWritable BooleanWritable ByteWritable...)

自定义序列化对象

(实现writable接口；

同时实现序列化函数write和反序列化函数readFiles，但写和读顺序和类型要一致；

重写tostring方法，否则输出结果为类全名+hascode值