线上问题分析方案

线上问题分析方案

常见问题及处理流程:

  • 系统慢

定位点:应用场景.数据库监控,查询,慢查询,io操作,引擎.

  • 负载高

分析服务器上业务,看具体业务查相应的指标.各层依赖都要做监控.

依赖服务

问题分析依赖于一个较完善的监控平台提供各个指标,以便于进行问题定位,找到最终问题点.具体监控平台改造有两种方式:

  1. 搭建比较完备的监控.监控应用,监控应用依赖资源,中间件,连接等.可以进行快速关联,各种维度的指标.最简单的关联就是根据时间关联;
  2. 避免直连,通过边车模式,可以快捷的获取监控指标.分析查询操作,时间,各种指标.(推荐)

方案一采用直连方式,需要修改业务代码,业务改动比较大;
方案二避免直连,通过proxy模式来进行业务和监控平台交互,可以避免业务耦合,无需业务代码修改;

监控分类:

指标类
日志类
链路层面(高级层面)

  • 明细分析:

具体监控内容根据应用又可以划分为:

http
应用runtime
中间件
db
操作系统runtime

各个层次采样指标.链路,黑盒时才使用perf等命令.

解决方式:

针对不同的问题状况,基本可以分为两种

  1. 突发性:

    观察业务流量,业务日志,看问题来源,再做具体关联.

  2. 定时出现:

    观察固定点监控,一般是定时任务,观察流量,请求.

其中突发性的问题排查比较麻烦,因为你无法找到问题规律,如果监控指标不完善,很难进行问题分析,只能完成监控指标后,等待下次问题再次发生;
而定时出现的问题排查相对简单一些,因为有规律可循,问题较好定位,一般解决较容易些;

解决方式一般步骤:

  1. top free,观查关键指标.
  2. 看日志,分析一些问题,关联应用,确定具体是什么引起的
  3. 补充检测指标.
  4. 观察外部访问

具体分析指标参考:

一般非紧急排查方案

原文地址:https://www.cnblogs.com/chengmuyu/p/13300874.html