大数据学习笔记03-HDFS-HDFS组件介绍及Java访问HDFS集群

HDFS组件概述

NameNode

  • 存储数据节点信息及元文件,即:分成了多少数据块,每一个数据块存储在哪一个DataNode中,每一个数据块备份到哪些DataNode中
  • 这个集群有哪些DataNode,每一个DataNode的主机名、磁盘容量大小等信息

SecondaryNameNode

辅助NameNode来提高性能,以及防止丢数据的

DataNode

真正存储数据的节点

Client

比如命令行webHDFS及java客户端等

HDFS中的数据块(Block)

每一个数据块默认容量是128M,可以通过设置修改,在${HADOOP_HOME}/etc/hadoop/hdfs-site.xml中加上配置:

<property>
        <name>dfs.block.size</name>
		<!--修改为256M: 256*1024*1024 -->
        <value>268435456</value>
</property>

重启HDFS:stop-dfs.sh
通过WebUI查看(http://${host}:50070/**)

数据块备份

数据块默认备份数为3,可通过命令修改:hadoop fs -setrep 2 /users/hadoop-twq/cmd/word.txt

Java访问HDFS集群

参考Java访问HDFS集群

原文地址:https://www.cnblogs.com/yw0219/p/9557006.html