hadoop性能调优

1.平衡磁盘利用率

hadoop balancer -Threshold 20

或者 

sh $HADOOP_HOME/bin/start-balancer.sh –t 20%

参数20是比例参数,表示20%,也就是平各个DataNode直接磁盘使用率偏差在20%以内。

threshold 默认设置:10,参数取值范围:0-100,参数含义:判断集群是否平衡的目标参数,每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值 ,理论上,该参数设置的越小,整个集群就越平衡,但是在线上环境中,hadoop集群在进行balance时,还在并发的进行数据的写入和删除,所以有可能无法到达设定的平衡参数值。

2.杀掉hadoop正在运行的job

$hadoop job -list

$hadoop job -kill job_201212111628_11166


原文地址:https://www.cnblogs.com/kxdblog/p/4034245.html