Hadoop主要架构

主要架构图

各部分作用

* Core：核心支持，内核代码
* MapReduce：映射数据
* HDFS：文件存储
* ZooKepper：服务器节点和进程通信的协调工具
* Pig：支持用户和MapReduce（java）交互的语言工具
* Hive：支持SQL对数据查询的语言工具（可理解为一种关系型数据库），但是不支持所有SQL
* HBase：NoSql数据库，使用列式存储（提高响应速度，减少IO），用于数据分析。
* Chukwa：日志抓取

HDFS：

* Namenode   ：
    * HDFS守护程序
    * 记录文件如何分割
    * 对内存和IO集中管理
    * 单节点，一旦崩溃集群就崩溃了

* Secondary Namenode：
    * 主要作为Namenode的后备节点
    * 每个集群一个
    * 和Namenode通信，定期保存HDFS快照
    * 是否自动切换？

* DataNode
    * 每台服务器一个
    * 负责HDFS数据读写到本地

* JobTracker
    * 运行在主节点，每个集群一个，总调度作用
    * 处理用户提交
    * 哪些文件要处理，要分割并分配
    * 监控task，重启失败的task

* TaskTracker
    * 每个slave都有一个，和datanode结合使用，但是一个tasktracker可以启动多个jvm
    * 管理自己节点的task
    * 和jobtracker交互

* Master和slave
    * Master不一定只有一个
    * Master运行JobTracker、Namenode