Apache Hadoop 简介

什么是Apache Hadoop?

在Apache Hadoop的项目开发可靠,可扩展,分布式计算开源软件。

Apache Hadoop的软件库是一个框架,允许分布式处理大型数据集在集群计算机使用简单的编程模型。 它被设计为从单一服务器扩展到数千台机器,每个提供本地计算和存储。 而不是依赖于硬件,以提供高可用性,图书馆本身是设计在应用层的故障检测和处理,所以计算机集群上提供高度可用的服务,这可能是容易失败。

该项目包括以下模块:

  • Hadoop Common常用的工具支持其他Hadoop模块。
  • Hadoop分布式文件系统(HDFS™):一个分布式文件系统,提供了高吞吐量的应用程序数据访问。
  • Hadoop YARN 作业调度和集群资源管理的框架。
  • HadoopMapReduce大型数据集的并行处理系统:基于YARN

其他在Apache Hadoop的相关项目包括:

  • Ambari™:一个基于Web的工具,用于配置,管理和监控的Apache Hadoop集群,其中包括支持Hadoop的MapReduce的Hadoop的HDFS,蜂房,HCatalog,HBase的,ZooKeeper的,Oozie的,猪八戒和Sqoop。 安巴里还提供了仪表盘查看集群的健康,如热图,并能够查看的MapReduce,Pig和Hive应用在视觉上非常久远的功能,在一个用户友好的方式来诊断其性能特点。
  • Avro™:数据序列化系统。
  • Cassandra™:可扩展的多主数据库与无单点故障。
  • Chukwa™ :数据采集系统,用于管理大型分布式系统。
  • HBase™ :一个可扩展的分布式数据库,支持结构化数据存储大表。
  • Hive™:数据仓库基础设施,提供数据汇总以及特设的查询。
  • Mahout™:一种可扩展的机器学习和数据挖掘库。
  • Pig™:一个高层次的数据流并行计算语言和执行框架。
  • ZooKeeper™:一个高性能的分布式应用程序协调服务。

下载

  • 1.2.X -目前的稳定版本,1.2版本
  • 2.XX -当前beta版本
  • 2.XX 0.23.X -类似,但缺少NN医管局。
  • 0.22.X -不包括安全
  • 0.20.203.X -遗留下来的稳定版本
  • 0.20.X -旧旧版本

发布可以下载来自Apache的镜像。

现在下载一个发行!

所有最近的版本可供选择。

第三方分销产品,包括Apache Hadoop和派生作品,在Apache许可下。 其中一些上市分派维基页面


 

原文地址:https://www.cnblogs.com/toto/p/3325881.html