大数据运维---HDFS学习

大数据运维---HDFS学习

一、HDFS概念

　　1、介绍

　　Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以实现流的形式访问（streaming access）文件系统中的数据。HDFS开始是为开源的apache项目nutch的基础结构而创建，HDFS是hadoop项目的一部分，而hadoop又是lucene的一部分。

　　2、发展历史

　　

　　3、设计目标

　　

　　4、HDFS不适合的应用类型

　　

　　5、HDFS构成

　　

　　

　　构成详解：

　　

　　

　　

　

　　6、NameNode作用

　　

　　7、DataNode作用

　　

　　

　　8、HDFS文件副本机制

　　

　　9、机架感知

　　　　HDFS分布式文件系统的内部有一个副本存放策略：以默认的副本数=3为例：

　　　　　　1）第一个副本块存放本机

　　　　　　2）第二个副本块和第一个副本块存放一个机架不同主机（方便于第一个主机挂掉，立即接管）

　　　　　　3）第三个副本块存放不同机架的不同主机（防止一个机架所有主机出现问题）

二、基本命令

　　web页面访问文件目录

　　

　　命令详解：

　　

　　

　

　

　

　　-cp

　

　

　

　

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/aqicheng/p/13947119.html