hadoop介绍

1,hadoop:由Apache基金会所开发的分布式系统基础架构。

2,hadoop特点:

  • 是一个分布式系统权限,有高容错性的特点,并且用来设计部署在低廉的硬件上,而且它提高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用

3,hadoop框架的核心设计:

  • HDFS和mapreduse。HDFS为海量数据提供了存储而mapreduse则为海量数据提供了计算

4,hadoop的优点:

  • hadoop是一个能够对大量数据进行分布式处理的软件框架,hadoop是一种可靠,高效可伸缩方式进行数据处理。
  • hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够已失败的节点进行重新分布处理
  • hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
  • hadoop还是可伸缩的,可以处理pb级数据。
  1. 高可靠性:hadoop按为处理和存储数据和吹数据大的能力值得人们信赖。
  2. 高扩展性:hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便的扩展到数以亿计的节点中
  3. 高效性:hadoop能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  4. 高容错性:hadoop能够自动保存数据的副本集,并且能够自动的将失败的任务重新分配。
  5. 低成本:与一体机,商业数据仓库等数据集相比,软件的成本会大大下降。

5,hadoop大数据处理的意义:

  • hadoop得以在大数据处理应用中的广泛,得益于自身在数据提取,变形和加载的天然优势,hadoop的分布式框架,将大数据引擎尽可能的靠近存储,对例如像加载(elt)这样的批处理操作相对合适,类似于这样的操作批处理结果可以直接走向存储。hadoop中的mapreduce功能实现了将单个任务打碎,并将碎片任务(map)发送到多个节点上,最后在一单个数据集的形式加载(reduce)到数据仓库中。

6,hadoop核心架构图:

7,HDFS架构是基于一组特定的节点构建的,参考上图即可,因为仅存在与一个namenode,因此这是hadoop的一个缺点(单点失败)。HDFS的NameNode和DataNode

  1. NameNode:通常是在一个HDFS实例中单独机器上运行的软件。
    • 它负责处理文件系统名称和控制客户外部机的访问
  2. DataNode:通常也是在HDFS实例中单独机器上运行的软件
    • hadoop集群包含一个NameNode和大量DataNode,DataNode通常以几家的形式组织,机架通常以交换机将所有的系统链接起来。hadoop的一个假设就是:机架内部节点之间的传输速度快于机架间节点的传输速度

8,文件操作

  • 它不是文能的文件系统,它主要的目的是以流的形式访问写入的大型文件

9,MapReduce:

  • MapReduce应用程序包含3个部分:一个map函数,一个reduce函数,一个main函数。main函数将作业控制和文本输入输出结合起来
  • mapreduce的框架图:

原文地址:https://www.cnblogs.com/ljc-0923/p/10988408.html