HADOOP的数据流

　　HDFS在InputFormat(将data转换为<key,value>)等支持下，将数据块传入MAPPER中，MAPPER输出<key, value>到内存，如果发生spill则存入本地文件, 形成较大文件region(可能有combine发生)。之后的去向分为两种，一种是本机有reduce，则加入到reduce的内存中；另外一种是远程复制到别的机器上的reduce中。经过merge和sort, 由reduce处理，并将数据写会HDFS。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/craig-yilia/p/5029358.html

推荐文章
Java ZIP压缩文件使用总结
开源项目Druid的提取SQL模板
执行DBMS_METADATA.get_ddl报ORA-39212的解决方法
mysql.user表中Host为%的含义
SQL四种语言：DDL,DML,DCL,TCL
quartz任务时间调度入门使用（二）
quartz任务时间调度入门使用（一）
安全警报：该站点安全证书的吊销信息不可用，是否继续？
什么是@RestController注解？
Spring框架总结(五)——面向切面编程(AOP)
Spring框架总结(四)——注解
Spring框架总结(三)——bean标签和依赖注入
Spring框架总结(二)——IoC的概念和作用
Spring框架总结(一)——概述
Java数据结构与算法（1）——链表
jackson使用方法总结
javaweb-服务器输出字符数据到浏览器
springmvc
spring
冒泡排序
直接插入排序
希尔排序
堆排序
红黑树
hashMap原理
JAVA随笔4
JAVA随笔3（集合框架，流）
Linux环境下如何生成core文件
Centos6 升级glibc-2.17，解决Requires: libc.so.6(GLIBC_2.14)(64bit)错误解决方法
MediaWiki搭建步骤