查询响应慢,DB近乎崩溃

时间:18.11.22 

一. 起由:

公司最近因业务,有大量注册,每天大约几万,貌似也不太高?

晚上8点左右,网站后台,前台突然大面积提示502.网站几乎瘫痪。买的阿里云的负载均衡和读写分离。分别是5台服务器和1主2从。

查了一下阿里云及服务器各项负载情况。发现其中一台只读数据库cpu高达98%。主实例正常。另一台只读cpu20%。其他均正常。

二. 解决

发现是只读DB的问题,但实际上主实例和另一台db都没问题,不该直接网站都瘫痪啊。

没办法,只能把高cpu的DB重启,重启后发现另一台又高了。没办法。只能临时把网站连接地址改回主实例的地址。网站恢复正常。

三. 后续

第二天找了阿里工单提问,只说因部分sql较慢,导致的cpu过高。但貌似这解释不是很合理。又查了下QPS,TPS但都不高,最高一百多。

主实例和两台只读负载情况。

目前优化了sql,观察看看是否还会出现问题。

原文地址:https://www.cnblogs.com/xiaommvik/p/10007100.html