CPU飙高,OOM排查?

对于线上系统突然产生的运行缓慢问题,如果该问题导致线上系统不可用,那么首先需要做的就是,导出jstack和内存信息,然后重启系统,尽快保证系统的可用性。这种情况可能的原因主要有两种:

  • 代码中某个位置读取数据量较大,导致系统内存耗尽,从而导致Full GC次数过多,系统缓慢;

  • 代码中有比较耗CPU的操作,导致CPU过高,系统运行缓慢;

相对来说,这是出现频率最高的两种线上问题

CPU高很多

查看

主要原因

https://blog.csdn.net/weiwosuoai/article/details/100038857

  • 代码中某个位置读取数据量较大,导致系统内存耗尽,从而导致Full GC次数过多,系统缓慢;

    •   top  top -HP jstack查看是否有频繁垃圾回收  
    • jstat -gcutil 9(进程) 1000 10查看GC情况  可以看到,这里FGC指的是Full GC数量,这里高达6793,而且还在不断增长。从而进一步证实了是由于内存溢出导致的系统缓慢。那么这里确认了内存溢出,但是如何查看你是哪些对象导致的内存溢出呢,这个可以dump出内存日志,然后通过eclipse的mat工具进行查看,如下是其展示的一个对象树结构:
  • 代码中有比较耗CPU的操作,导致CPU过高,系统运行缓慢;在这里我们就可以区分导致CPU过高的原因具体是Full GC次数过多还是代码中有比较耗时的计算了。如果是Full GC次数过多,那么通过jstack得到的线程信息会是类似于VM Thread之类的线程,而如果是代码中有比较耗时的计算,那么我们得到的就是一个线程的具体堆栈信息。如下是一个代码中有比较耗时的计算,导致CPU过高的线程信息:

  •  不定期出现的接口耗时现象

OOM故障 分析

内存不够 先查看下内存 可以先把jvm内存调大恢复java , 重新设置合适的JVM 初始堆与最大堆内存 ,重新设置 swap交换空间大小

top查看应用的占用信息

查看堆栈

引用自https://blog.csdn.net/xiehd313/article/details/90231768

cpu飙高处理步骤
1. top查找出哪个进程消耗的CPU高(top -c)

2. top -h -p查找出哪个线程消耗的cpu高(top -h -p pid)

这个命令就能显示刚刚找到的进程的所有线程的资源消耗情况。

3. printf%x进行pid的进制转换

找到CPU负载高的线程pid 8627, 把这个数字转换成16进制,21B3(10进制转16进制,用linux命令: printf %x 8627)

4. jstack记录进程的堆栈信息

执行jstack -l pid,拿到进程的线程dump文件。这个命令会打出这个进程的所有线程的运行堆栈。

5. 找出消耗CPU最高的线程信息

搜索“21B3”,就是搜一下16进制显示的线程id。搜到后,下面的堆栈就是这个线程打出来的。

内存飙高处理步骤
1. jstat命令查看FGC发生的次数和消耗的时间,次数越多,耗时越长说明存在问题;

Jstat命令可以观察到classloader,compiler,gc相关信息。可以时时监控资源和性能 

2. 连续查看jmap -heap查看老生代的占用情况,变化越大说明程序存在问题;

Jmap命令(jmap [ option ] pid)得到运行java程序的内存分配的详细情况。例如实例个数,大小等 


3. 使用连续的jmap -histo:live命令导出文件,比对加载对象的差异,差异部分一般是发生问题的地方。

GC引起的单核飙高
1. 单个CPU占用率高,首先从GC查起。

常见SY飙高
1.线程上下文切换频繁

2. 线程太多

3. 锁竞争激烈

IO飙高
1. 如果IO的CPU占用很高,排查涉及到IO的程序,比如把OIO改造成NIO。

抖动问题
原因:字节码转为机器码需要占用CPU时间片,大量的CPU在执行字节码时,导致CPU长期处于高位;

现象:“C2 CompilerThread1”守护进程,“C2 CompilerThread0”守护进程CPU占用率最高;

解决办法:保证编译线程的CPU占比

原文地址:https://www.cnblogs.com/ningkuan/p/14442035.html