Hadoop简介

一、特点

1、高可靠性

2、高扩展性

3、高效性

4、高容错性

二、发行版本

1、Apache版本

2、CDH版本

3、Hortonworks版本

三、Hadoop版本区别

Hadoop 1.X

HDFS 数据存储

MapReduce 计算 + 资源调度

Hadoop2.X

HDFS 数据存储

Yarn 资源调度

MapReduce 计算

四、HDFS组成

1、NameNode(nn):绝世武功的目录

2、DataNode(dn):绝世武功的所有书籍

3、Secondary NameNode(2nn):辅助NameNode

五、YARN组成

1、ResourceManager (RM)

a、处理客户端请求

b、监控NodeManager

c、启动或监控ApplicationMaster,ApplicationMaster ->(Job)

d、资源分配和调度

2、NoteManage

a、管理该节点的资源

b、处理来自ResourceManager的命令

c、处理来自ApplicationMaster的命令

 3、ApplicationMaster

a、负责数据的切分

b、为应用程序申请资源并分配给内部的任务

c、任务的监督与容错

4、Container

是YARN中的资源抽象,它封装了某个节点上的多个维度资源,如内存、CPU、磁盘网络等

六、MapReduce

1、Map

并行处理输入数据

2、Reduce

对Mao的结果进行汇总

七、大数据生态体系

 最重要的是Hadoop、Spark、Hive、Hbase

原文地址:https://www.cnblogs.com/wt7018/p/13539028.html