hadoop主要概念的理解和学习

1、搭建高可用的hadoop

2、使用shell、API方式操作HDFS

3、HDFS,是一个分布式文件系统,用来解决海量数据的存储问题。

1、分块存储(把一个大文件切分成多个小文件,每一个节点存储一部分小文件)
使用一个集群来联合存储这个文件
2、冗余存储
一个数据块存储多个副本。多个副本分散存储在多个不同的节点上。
提高副本数,有助于提高数据安全性
怎么保证高效呢?
1、机架感知,保证数据块的存放有一个最高效的策略
2、负载均衡
3、安全模式:

加载磁盘元数据(有多少文件,总共有多少数据块)
等待所有的datanode上线来汇报

4、Trash机制
5、Archeive归档解决海量小文件存储问题
6、执行流时数据访问
7、执行自动副本维护

namenode:存储和管理元数据

文件在HDFS

一个namenode要识别一个datanode宕机需要630s

4、mapreduce,是一个分布式计算引擎,用来解决海量数据的计算问题

mapreduce 执行过程讲解

5、zookeeper

分布式一致性原理(paxos算法)

原文地址:https://www.cnblogs.com/jycjy/p/7516296.html