应用不定时出现（每次一两分钟）大量错误排查

1、先查nginx日志

日志表明在出现错误的时候，200请求下降，502&504增加，504居多。

5分钟段，总请求数并无太大波动。可以表明，非攻击所为。

2、查后端java服务

查看日志，在故障时，有一个警告会随着增加：

WARN com.alibaba.dubbo.rpc.cluster.support.FailoverClusterInvoker - [DUBBO] Although retry the method

日志可以看出在连接一个dubbo服务的时候超时，接着转去连接另外一个dubbo，但是需要超时10秒。

继续看日志，发现有显示连接不足。

通过对比 nginx，主站业务模块，dubbo，redis，mysql的系统资源变化。（redis曾因为固化数据导致响应缓慢，故添加一个从库，从库负责固化，主库负责接受请求）

大致可以分析到，在问题出现时，dubbo，redis，mysql的使用率在飙高之前有一个很小的降低。猜测可能是任务卡住。

目前增加了dubbo的连接数，继续观察。