Hadoop介绍

第一节：简介

hadoop基于普通廉价机的提供高可用、高扩展、高容错的分布式存储计算服务的。

hadoop设计的时候考虑到集群中任何一个节点任何时间都有可能出故障 hadoop已经帮你规避了。

海量的网页数据如何存储的问题？

海量网页数据如何计算?

海量网页数据快速查询?

之后在2003年发布了3篇论文：

GFS---- GOOGLE FILE SYSTEM google的文件系统

MAPREDUCE--- google的分布式计算方案

BIGTABLE--- google的分布式数据库

doug cutting 将google的3篇论文使用java语言实现了并且开源贡献给apache

GFS--- HDFS

MAPREDUCE---MAPREDUCE

BIGTABLE---HBASE

hadoop1.0 分为2个模块：hdfs、mapreduce

海量数据的存储、海量数据的计算

hadoop common: 工具类

hdfs (hadoop distributed file system)：hadoop的分布式文件系统

mapreduce：hadoop的分布式计算服务

yarn：hadoop的分布式资源调度框架

分布式存储，一主多从一助理。

分布式存储的老大，管理每个节点上存储数据的编号，对应关系

负责真正的数据存储的，真正干活的

namenode的助理，备份namenode的数据，帮助namenode减压。

分布式计算程序，安装完成没有对应进程

服务于计算程序的，主从。

资源调度的老大（只能一个），决定哪一个计算任务需要多少资源在哪一个节点分配资源的。

提供资源运行任务的（可以多个）