023 Hadoop的生态系统

1.数据来源

  RDBM:sqoop

  日志文件:flume

  

2.zookeeper

  多台机器保持同步数据。

3.hive

  sql语句的查询

  HQL转换成mapreduce

  SQL On Hadoop

4.pig

  解析成mapreduce程序

  流式处理

5..HBase

  来源于bigtable文章

  

6.Spark

  计算框架也可以运行在hadoop上

7.storm

  

8.OOzie

  任务依赖关系的管理

9.CM(CDH)

  集群的安装部署

10.Ambari

  集群的安装部署,配置文件的同步

原文地址:https://www.cnblogs.com/juncaoit/p/8214890.html