JVM服务进程挂掉问题定位查询思路

昨天有朋友咨询了个RegionServer宕机找不到日志无法定位原因的问题，干脆就系统整理下JVM服务宕机的可能原因，方便按照思路去找真正的宕机原因。

1. abort()/halt()/exit()

有些服务会采用lei it crash的思想，在一些超时较久、资源不足的场景下可能会采取直接abort（像部分C服务也会对一些错误的参数直接abort产生core），尤其在HBase RegionServer和Phoenix 实现的coprocessor里有好几处这样的代码。通常鲁棒性高的服务abort后也会有对应的主从、多活、拉起等措施保证用户端影响最小。

在实现的好的代码中，所有退出都应当是有日志的。因此首先看自己的服务日志有没有相关退出信息。这里需注意，Java用通用的log4j可能还比较好；部分C++的logger配置不好的话，为了性能，flush落盘频率较低，偶尔会有服务退出了，日志没刷完的情况。

2. 非人为代码的JVM 虚拟机退出
通常有几种情况：
2.1. JVM本身问题，最常见的就是各类OOM。这个调vm配置、调GC优化就好了。
2.2. JNI退出。如果调用了一些第三方JNI，有时有可能会出现JNI里的C/C++代码core了导致vm崩溃。此时一般会打出 dump日志（强烈建议jvm启动时加上dump参数指定dump日志位置），dump日志里会有core的原因，c++的stacktrace，崩溃时的一些内存信息等信息。如果开启了core的机器(ulimit -c 设置)，还会见到.core文件的产生，可用于gdb跟踪。
2.3. OS内存不足kill进程。这种是看起来悄无声息地结束的，没有dump日志和core。此时需要看下os级别的日志 /var/log/message，翻到宕机时间点，通常能看到OOM killed的信息。

3. 服务器关机/重启
此时和你的服务不一定有什么关系了。需联系运维先查清楚服务器关机的原因，通常是人为或定时reboot、硬件兼容、内核问题等。