region server 中的OOM原因

首先要清楚reginserver中内存是如何使用的。

    reginserver中内存总体分成三部分：blocksize专供读使用的内存，memstore供读写使用的内存，其它内存。

    其中前两者的大小在配置中分别通过hfile.block.cache.size以及hbase.regionserver.global.memstore.upperLimit来控制，两者的大小之和被hbase硬编码为不可以大于等于0.8。所以如果发生了oom，那么一定是这里的其它内存使用过多造成的。

    其它内存包括哪些呢？最主要的部分是接收临时数据、flush时产生的snapshot，以及compact产生的内存等。以目前我的运维经验来看，大多数oom是发生在compact期间。所以当发生oom时，可以优先查看一下是否包含compact失败。

    compact的原理是将hdfs上原有的相应列数据按行读入内存，再写回hdfs。不幸的是有时候由于version或宽表的原因，导致某一个rowkey非常巨大，引起了内存消耗。此时，compact消耗的内存就由最大的rowkey来决定。

    另外，代码org.apache.hadoop.hbase.HTableDescriptor中有方法

Java代码

public void setMaxFileSize(long maxFileSize)

，该方法比hbase.hregion.max.filesize优先级要高，所以代码里面如果进行了这个设置，会优先使用代码中的值。在发生oom的时候也要检查下代码中是否进行了该项设置。