《Hadoop权威指南 第4版》

1. HDFS是Hadoop的文件管理体系, 全称为Hadoop Distribute FileSystem

2. MapReduce适用于处理整个数据集或者大多数数据集

MapReduce的优势

  • 离线计算, 等待较长时间
  • 一个基本的批处理系统

3. YARN (Yet another resource negotiator) 是Hadoop的新的处理模型,集群资源管理系统

作用

  • 允许任何一个分布式程序基于Hadoop集群的数据来运行
  • 基于Hadoop2 以上版本

4. 更多的协作模式

举例

  • 交互式SQL
  • 迭代处理
  • 流系统,如Spark Streaming运行实时/分布式计算,并向Hadoop或者外界发布结果
  • 搜索引擎,如solr 底层可以使用hdfs的文件系统

5. 相较于其他系统的优势

比RDS的优势:

  • 海量数据下,可以大幅降低磁盘寻址的时间;

  • 但仅适用于处理整个数据集,Hadoop采用流数据的读取模式,仅取决于传输速率

  • 可以看出Hadoop体系更擅长炒大锅饭,味道(精度)可能不是很高;mysql之类的RDS更擅长炒小菜,费时,味道可以。

  • 可以实现网格计算、志愿计算

原文地址:https://www.cnblogs.com/zhazhaacmer/p/12125726.html