运维常见问题总结

流量变大或者变小,还有其他一般 RT 时间,或者错误啥的

从技术角度

  • 问题发生时间点,明确具体流量随时间变化的趋势
  • 是否在某个机房,主要是排除网络,应用依赖等等,就是问题是否和机房相关
  • 确定是哪个应用,哪个接口,和开发的小伙伴儿一起分析原因
    • 是否是单个应用实例引起的
    • 看最近的发版,该应用和依赖应用的发版
    • 从全链路监控查看依赖的资源指标是否正常
  • 是否和客户端版本有关,查看最近客户端发版记录

从业务角度

  • 相关应用是否有活动
  • 数据变化的渠道特征,分析流量的上下游,了解竞品的一些近况(就是流量的上下左右)
  • 是否和不同的用户画像有关
    • 新老用户
    • 不同行为模式的用户
    • 企业外的客观原因,其实还是要看流量属性

总的来说就是交叉对比来看数据是否有异常

原文地址:https://www.cnblogs.com/WisWang/p/15541408.html