Hadoop nn 主备切换导致HBase集群挂掉,HBase rs自动下线问题

2018-03-14

Hadoop nn 主备切换导致HBase集群挂掉问题

# 建立hdfs-site.xml文件的符号链接
ln -s /app/hadoop/etc/hadoop/hdfs-site.xml /app/hbase/conf

# 修改hbase-site.xml文件的参数配置
将
        <!--region服务器的共享目录,用来持久存储HBase的数据 -->
        <property>
                <name>hbase.rootdir</name>
                <value>hdfs://namenode01:9000/hbase</value>
        </property>

改成
        <!--region服务器的共享目录,用来持久存储HBase的数据 -->
        <property>
                <name>hbase.rootdir</name>
                <value>hdfs://cluster1/hbase</value>
        </property>

HBase rs自动下线问题

rs挂之前有过长时间的gc,导致长时间未与ZooKeeper通信,从而被zookeeper认为已经离线,触发了org.apache.hadoop.hbase.YouAreDeadException异常,造成了region server下线。从我们的hbase日志分析,rs 挂之前有84秒的gc时间,这84秒 rs没响应了。

优化办法:

# 修改hbase-env.sh文件的参数配置
export HBASE_HEAPSIZE=16G
export HBASE_REGIONSERVER_OPTS="-Xmx16g -Xms16g -Xmn128m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:$HBASE_LOG_DIR/gc-$(hostname)-hbase.log"

【参考资料】

1.Hadoop NameNode HA 切换引起的Hbase错误,以及Hbase如何基于NameNode的HA进行配置

2.hbase full gc问题解决

3.hbase内存分配那些事

4.每隔一段时间,hbase 的读就会停顿10s的原因及解决办法

原文地址:https://www.cnblogs.com/cenliang/p/8565182.html