hadoop基础总结

###常用操作
hadoop dfsadmin -safemode leave 离开安全模式
hadoop dfsadmin -safemode enter 进入安全模式

netstat -nultp 查看所有端口号
netstat -anp | grep 3306 查看3306端口号
lsof -i:3306 查看3306端口号
kill -9 进程的PID
kill -9:3306 杀掉相关进程

查看防火墙状态systemctl status firewalld.service
systemctl stop firewalld.service
该命令输入和执行后,终端不会有输出。要检查执行是否成功,可以再次使用状态检查命令

###Hadoop安装配置
网络、
[root@master ~]# vi /etc/sysconfig/network-scripts/ifcfg-ens33
网关、
[root@master ~]# vi /etc/resolv.conf
防火墙、
[root@master ~]# systemctl status firewalld.service
安全模式、
[root@master ~]# hadoop dfsadmin -safemode leave
免密钥、
[root@master ~]# ssh-keygen -t rsa
发送密钥
[root@master ~]# ssh-copy-id -i .ssh/id_rsa.pub slave1
hosts、
[root@master ~]# vi /etc/hosts
主机名、
[root@master ~]# vi /etc/hostname
环境变量
[root@master ~]# vi /root/.bash_profile

##环境变量内容
export JAVA_HOME=/usr/local/java
export PATH=$JAVA_HOME/bin:$PATH

export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH


export HIVE_HOME=/opt/hive
export PATH=$HIVE_HOME/bin:$HIVE_HOME/sbin:$PATH

export SQOOP_HOME=/opt/sqoop
export PATH=$SQOOP_HOME/bin:$PATH
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*

export HBASE_HOME=/opt/hbase
export PATH=$HBASE_HOME/bin:$PATH
export HADOOP_CLASSPATH=$HBASE_HOME/lib/*

export PATH=$PATH:/opt/scala/bin


###HDFS常用操作
上传文件、
[root@master ~]# hadoop fs -put /opt/000000_0.txt /user
下载文件、
[root@master ~]# hadoop fs -get /user/000000_0.txt /opt/
查看文件
[root@master ~]# hadoop fs -cat /user/000000_0.txt | head -10
[root@master ~]# hadoop fs -cat /user/000000_0.txt | tail -10
chmod 改变权限 777
[root@master ~]# chmod 777 /opt/data/
chowm 改变文件拥有者
[root@master ~]# chown wpy581 -R /opt/wpy581
copyFromLocal 复制本地文件到hdfs中
[root@master ~]# hadoop fs -mkdir -p /user/test.log
[root@master ~]# hadoop fs -copyFromlocal /opt/000000_0.txt /user/test.log

###动态增加节点
1.配置网络,主机名,防火墙,免密钥:ssh-keygen -t rsa 发送:ssh-copy-id -i .ssh/id_rsa.pub slave1
2.安装jdk
3.配置环境变量
4.把主节点的hadoop传过去
5.修改hosts文件,以及slaves文件并发送到各个从节点 :scp /etc/hosts root@slave1:/etc/hosts
6.启动datanode sbin/hadoop-daemon.sh start datanode
7.启动nodemanager sbin/yarn-daemon.sh start nodemanager
8.主节点更新:hadoop dfsadmin -refreshNodes
9.查看状态:hadoop dfsadmin -report

###动态删除节点
1.配置hdfs-site.xml文件
<property>
<name>dfs.hosts.exclude</name>
<value>/opt/hadoop/etc/hadoop/excludes</value>
</property>
2.创建文件并写入退役的节点,一行一个:vi /opt/hadoop/etc/hadoop/excludes
3.主节点更新:hadoop dfsadmin -refreshNodes

###集群的负载均衡
1.配置hdfs-site.xml文件
<property>
<name>dfs.balance.bandwidthPerSec</name>
<value>1048576</value>
</property>
2.sbin/start-balancer.sh -Threshold 5 命令即可进行集群数据的均衡,英文不解释,对于参数5,代表的是集群中各个节点的磁盘空间利用率相差不超过5%,可根据实际情况进行调整。

原文地址:https://www.cnblogs.com/wpy188/p/12416339.html