排查错误

该篇文章可以看做是排查系统的典范,由浅入深,不断的找到系统的瓶颈。
携程容器偶发性超时问题案例分析

  1. 图13以上的说明宿主机的调度延迟在2s以上, 至于是哪里产生了调度的延时,任然需要进一步的确认
  2. possible CPU的数量过多,导致不必要的扫描,性能提高20倍。
  3. NUMA设置的核是跳跃的0, 2, 4...为一组, 1, 3, 5...为一组,导致经常会有跨核间的交换,导致通信之间的代价的花费。并且应用绑定的是后4个核8-11,用户在0-11的核上运行
  4. 记录log会占用缓存,得定期的去清理缓存
  5. 最重要的,有部分的硬件的错误,固件的驱动的程序中的设置与硬件不匹配,导致SMI中断会导致TSC与系统时间进行同步的时候,会导致不断的积累的时间的调度的延时。
原文地址:https://www.cnblogs.com/babydragon/p/11991238.html