Linux操作HDFS集群常用命令

命令行语句：

vi .bashrc
source .bashrc
ssh-keygen -t rsa

集群命令

hdfs dfs -mkdir /data
hdfs dfs -ls /
hdfs dfs -put 本地文件 hdfs集群上的目录
hdfs dfs -ls -R hdfs集群上文件目录

yarn集群上传文件

yarn jar **.jar wordcount

reboot重启

hdfs --daemon start namenode

hdfs --daemon start datanode

hdfs --daemon stop namenode

hdfs --daemon stop datanode

yarn --daemon start resourcemanager

yarn --daemon start nodemanager

搭装集群

1、修改主机名

　　sudo vi /etc/hostname

　　重启虚拟机才会生效

2、修改主机-IP映射

　　sudo vi /etc/hosts

3、修改Hadoop的配置文件

　　//将IP地址修改为集群主节点的主机名

　　[vi] core-site.xml

　　[vi] yarn-site.xml

　　[vi] workers

　　启动hdfs集群：一个namenode N个datanode

　　　　start-dfs.sh

　　产生密匙：ssh-keygen -t rsa

　　将id_rsa中的内容拷贝到suthorized_keys中:

　　　　cd ~/.ssh

　　　　cat id_rsa.pub >> authorized_keys //追加id_rsa.pub到authorized_keys中

　　scp ~/.ssh/id_rsa.pub briup@manager:~ //

　　scp briup@manager:~/.ssh/id_rsa.pub ~ //

　　cat ~/id_rsa.pub >> ~/.ssh/authorized_keys //追加id_rsa.pub到authorized_keys中

4、删除Hadoop存储临时文件的目录

　　rm -r /data

5、格式化namenode

　　hadoop namenode -format

6、从主节点启动NameNode进程

　　hdfs --daemon start namenode

7、从节点启动DataNode进程

　　hdfs --daemon start datanode

8、访问hdfs页面，查看hdfs集群的从节点是否挂载成功

　　http://主节点:9870

9、主节点启动

　　yarn --daemon start resourcemanager

10、从节点启动nodemanager进程

　　yarn --daemon start nodemanager

数据 ---》磁盘

　　磁盘地址

　　计算机组成：kernel+shell+文件系统+应用

（分布式）文件系统借助网络编程

　　将磁盘地址映射为一个文件路径

　　D:/briup/a.txt

　　一个文件切分为多个块文件，每个块存储在不同的数据节点datanode中。多个路径

用户只需要根据文件路径，就可以操作文件

hdfs fsck / -files -blocks -locations