初识Hadoop

  • Hadoop 发展历史
  1. Apache Nutch 网页抓取互据,数据量达到瓶颈,
  2. Google 发表论文 Google FileSystem 
  3. Apache 根据论文解决问题
  4. Google 发表论文MapReduce 
  5. Apache  根据论文,写了一套Mapreduce系统,应用到自己的项目
  6. Apache 将Hadoop 从原有的项目中分离出来
  7. 之后很多的企业,将Hadoop很广泛的得到了应用。
  • Hbase 本身不支持事务,但是剋和phoenix可以支持事务。他存储的容量是特别大的。HBase他可以有上百万列。上百亿的行。
  • 网站的网址 hadoop.apache.org 
  • Hadoop的定义
  1. 开源的,高可靠,可伸缩 的分布式的计算框架。
  • hadoop 版本选择
  1. 开源,测试不是很健全,所以用2.5 到2.8最好。
  • hadoop 四大模块
  1. Hadoop commons :他里边分装了大量的代码,未其他的三个模块提供代码支持。
  2. HDFS :分布式文件系统,Hadoop存储数据就是靠的这个模块。
  3. YARN :计算资源管理平台
    1. 他负责计算资源的分配和调度的。  
  4. MapReduce: 分布式的计算模型,可以理解为一个计算程序。他和YARN相当于火车和铁轨上的关系。包括后边学习的SPark 相当于高铁。
  • Hadoop解决了什么问题
  1. 解决了海量数据存储、海量数据的计算。 解决的方式就是分布式的方案,横向的扩展。

  

原文地址:https://www.cnblogs.com/dousil/p/12180360.html