Hadoop主要架构

主要架构图


各部分作用

* Core:核心支持,内核代码
* MapReduce:映射数据
* HDFS:文件存储
* ZooKepper:服务器节点和进程通信的协调工具
* Pig:支持用户和MapReduce(java)交互的语言工具
* Hive:支持SQL对数据查询的语言工具(可理解为一种关系型数据库),但是不支持所有SQL
* HBase:NoSql数据库,使用列式存储(提高响应速度,减少IO),用于数据分析。
* Chukwa:日志抓取

HDFS:

* Namenode   :
    * HDFS守护程序
    * 记录文件如何分割
    * 对内存和IO集中管理
    * 单节点,一旦崩溃集群就崩溃了

* Secondary Namenode:
    * 主要作为Namenode的后备节点
    * 每个集群一个
    * 和Namenode通信,定期保存HDFS快照
    * 是否自动切换?

* DataNode
    * 每台服务器一个
    * 负责HDFS数据读写到本地

* JobTracker
    * 运行在主节点,每个集群一个,总调度作用
    * 处理用户提交
    * 哪些文件要处理,要分割并分配
    * 监控task,重启失败的task

* TaskTracker
    * 每个slave都有一个,和datanode结合使用,但是一个tasktracker可以启动多个jvm
    * 管理自己节点的task
    * 和jobtracker交互

* Master和slave
    * Master不一定只有一个
    * Master运行JobTracker、Namenode
原文地址:https://www.cnblogs.com/bugstar/p/7206788.html