hadoop初识笔记

Hadoop简介

Apache Hadoop本身是一个框架，它可以用简单的编程模型在计算机集群中对大型数据集进行分布式处理。它可以被设计成单个机器或成千上万台机器的集群，实现提供计算和存储服务。

Hadoop简介与意义

Apache开源软件基金会开发了运行在大规模普通服务器上，用于大数据存储、计算、分析的分布式存储系统和分布式运算框架——Hadoop。Hadoop的两大核心如下。

·HDFS（Hadoop Distributed File System，分布式存储系统）：是Hadoop中的核心组件之一，除了可以保存海量数据，还具有高可靠性、高扩展性和高吞吐率的特点。

·MapReduce：属于分布式计算框架，一般用于对海量数据的计算，它的特点是易于编程、高容错和高扩展等优点。另外，MapReduce可以独立于HDFS使用。

总结来说，Hadoop中的核心HDFS为海量数据提供了存储，而MapReduce则为海量数据提供了计算服务。通过Hadoop可以快速搭建自己的分布式存储系统和分布式运算系统，它可以缩短处理数据的时间，同时可以尽量在低成本的情况下完成数据的分析与挖掘。这里说的低成本，主要是因为Hadoop可以基于廉价的普通PC机搭建集群。

author@nohert