初识hadoop

一、hadoop的解释

  Hadoop 是一个开源软件框架,用于在商用硬件集群上存储数据和运行应用程序。它为任何类型的数据提供海量存储,巨大的处理能力以及处理几乎无限的并发任务或作业的能力。总的来说就是云计算。

二、了解hadoop

  • 解决问题:
  1. 海量数据的存储(HDFS)
  2. 海量数据的计算(MapReduce)
  3. 资源管理调度(YARN)
  • 出处
  1. 作者:Doug Cutting
  2. 灵感来源:Google三篇论文启发(GFS、MapReduce、BigTable)
  • 应用

    Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。

  • hadoop架构总览

  •  hadoop核心
  1. HDFS(Hadoop Distributed File System)分布式文件系统
  2. YARN(Yet Another Resource Negotiator)资源管理调度系统
  • hadoop版本

    考虑到hadoop版本的更新,且版本存在架构的差异性,在这里主要介绍hadoop2.0的学习

  • hadoop特点
  1. 可扩展性(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
  2. 成本低(Economical):可以通过普通机器组成的服务器群来分发和处理数据。这个服务器群总计可达数千个节点。
  3. 高效率(Effcient):通过分发数据,hadoop可以在数据所在的节点上并行(parallel)地处理它们这使得处理得非常快。
  4. 可靠性(Reliable):hadoop可以自动维护数据的多份副本,并且在任务失败后能够重新部署(redeploy)计算任务。
一腔孤勇,淡然且快乐。
原文地址:https://www.cnblogs.com/withheart1202-never/p/12430394.html