Hadoop学习1(初识hadoop)

Hadoop生态系统的特点

1)源代码开源
2)社区活跃,参与者多
3)涉及分布式存储和计算的各方面
4)已得到企业界的验证

Hadoop构成

1) 分布式文件系统HDFS(Hadoop Distributed File System)
------------提供了高可靠性、高扩展性和高吞吐率的数据存储服务

2)资源管理系统YARN(Yet Another Resource Negotiator)
-----------负责集群资源的统一管理和调度

3)分布式计算框架(MapReduce)
-----------具有易于编程、高容错性和高扩展性等优点

分布式文件系统HDFS

来源于Google的GFS论文

  • 2003年10月发表
  • HDFS是GFS克隆版

HDFS特点

  • 良好的扩展性(增加机器进行扩展)
  • 高容错性(存储了多份,数据有备份)
  • 适合PB即以上海量数据的存储

基本原理

  • 将文件切分成等大的数据块,存储到多态机器上
  • 将数据切分、容错、负载均衡等功能透明化
  • 可将HDFS看成一个容量巨大、具有高容错性的磁盘

典型应用场景

  • 海量数据的可靠性存储
  • 数据归档

资源管理系统YARN

什么是YARN

  • Hadoop 2.0新增系统
  • 负责集群的资源管理和调度
  • 使得多种计算框架可以运行在一个集群中

YARN 的特点

  • 良好的扩展性、高可用性
  • 对多种类型的应用程序进行统一管理和调度
  • 自带了多种多用户调度器,适合共享集群环境

分布式计算框架MapReduce

源自于Google的MapReduce论文

  • 2004年12月发表
  • Hadoop MapReduce 是Google MapReduce 克隆版

MapReduce特点

  • 良好的扩展性
  • 高容错性
  • 适合PB级以上海量数据的离线处理

其它

  • 基于MR的数据仓库Hive
  • 数据分析工具Pig
  • 数据挖掘仓库Mahout
  • 分布式数据库HBase
  • 分布式协作服务Zookeeper
  • 数据同步工具Sqoop
  • 日志收集工具Flume
原文地址:https://www.cnblogs.com/wujiadong2014/p/6035986.html