Hadoop-HDFS

1、介绍

HDFS是Hadoop应用程序使用的主要分布式存储。HDFS群集主要由管理文件系统元数据的NameNode和存储实际数据的DataNode组成。《 HDFS体系结构指南》详细介绍了HDFS。本用户指南主要处理用户和管理员与HDFS群集的交互。HDFS体系结构图描述了NameNode，DataNode和客户端之间的基本交互。客户端与NameNode联系以获取文件元数据或文件修改，并直接与DataNode执行实际的文件I / O。

以下是许多用户可能会感兴趣的一些重要功能。

Hadoop（包括HDFS）非常适合使用商品硬件进行分布式存储和分布式处理。它具有容错性，可伸缩性，并且扩展极其简单。MapReduce以其简单性和对大型分布式应用程序的适用性而闻名，它是Hadoop不可或缺的一部分。
HDFS高度可配置，默认配置非常适合许多安装。在大多数情况下，仅需要针对非常大的集群调整配置。
Hadoop用Java编写，并且在所有主要平台上均受支持。
Hadoop支持类外壳命令直接与HDFS进行交互。
NameNode和Datanodes内置了Web服务器，可轻松检查群集的当前状态。
HDFS会定期实施新功能和改进。以下是HDFS中有用功能的子集：
- 文件权限和身份验证。
- 机架感知：在计划任务和分配存储时考虑节点的物理位置。
- 安全模式：一种维护的管理模式。
- fsck：用于诊断文件系统运行状况，查找丢失的文件或块的实用程序。
- fetchdt：一种实用程序，用于获取PrincipledToken并将其存储在本地系统上的文件中。
- 平衡器：当数据在数据节点之间分布不均时，用于平衡集群的工具。
- 升级和回滚：软件升级后，如果出现意外问题，可以在升级之前回滚到HDFS的状态。
- 次要NameNode：执行命名空间的定期检查点，并有助于将包含HDFS修改日志的文件的大小保持在NameNode的某些限制内。
- Checkpoint节点：执行命名空间的定期检查点，并有助于最小化存储在NameNode上的日志的大小，该日志包含对HDFS的更改。替换先前由次要NameNode填充的角色，尽管尚未进行战斗加固。只要没有在系统中注册任何备份节点，NameNode即可同时允许多个Checkpoint节点。
- 备份节点：Checkpoint节点的扩展。除了检查点之外，它还从NameNode接收编辑流，并维护其自己的命名空间在内存中的副本，该副本始终与活动的NameNode命名空间状态保持同步。一次只能向NameNode注册一个备份节点。

记得加油学习哦^_^