Hadoop笔记（一）

1.大数据的概述

　大数据：巨量数据、海量数据，首先在数据的量上达到一定的规模，首先是人或者计算机在不合理时间内是不能够实现的数据量。

2.特点：数据量比较大，数据类型多样化、处理速度问题

3.大数据平台分为硬件和软件

4.hadoop出现：数据的不断加大，单机的计算机无法在硬盘、网络IO，计算机的CPU，内存存储上是无法达到的情况下出现的一种处理方式。

5.hadoop是Apache基金会所开发的分布式的基本跨架，可以在不了解分布式的情况下开发分布式的程序，充分的利用集群的高速运算和存储。

6.解决的问题：大数据存储大，数据分析是hadoop的两大核心，HDFS和mapreduce

7.HDFS：可扩展、容错、高性能的分布式文件管理文件系统，异步开发一次开发多次使用，主要用于存储。

8.mapreduce为分布式的计算框架，主要包含map和reduce过程复杂对HDFS中的数据进行计算。

9.hadoop的优点：高可靠性、高性能、高扩展性、高效性、容错性、低成本。

HDFS

1.hdfs是一个分布式的文件系统，可以进行创建、删除、移动、重命名文件或者文件夹与linux的文件系统类似。

2.它由多个节点组成：nameNode（一个）、DataNode（多个）

nameNode ：只有一个，用于nebula提供元数据的服务，

secondary Namenode:名称节点，帮助节点用与整合和恢复

DataNode：他为hdfs提供真正的存储。

注意：在hadoop中nameNode只有一个，在hadoop2.X之后，有了很大的改善

3.存储文档在HDFS中。被分割成块，然后这些块以流的方式复制到各个节点，存储在不同的机架上，默认块的大小是128MB，备份的数目，这是可以用客户设置的。内部使用网络通信

4.NameNode通过在HDFS机架中单独机架上运行，负责文件系统的客户端请求。