TIME_WAIT 过多导致的问题

背景:由于秒杀业务需求,会有持续并发连接的情况

问题:鉴于成本问题,业务项目会有交叉部署的情况,某个服务的TIME_WAIT 网络连接数过多,导致了其他应用不可用

解决:基于三个层面考虑

1>调优系统网络参数

/etc/sysctl.conf配置调优:

net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;
net.ipv4.tcp_tw_reuse = 1 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;
net.ipv4.tcp_tw_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。
net.ipv4.tcp_fin_timeout 修改系默认的 TIMEOUT 时间
vi /etc/sysctl.conf
net.ipv4.tcp_keepalive_time = 1200 
#表示当keepalive起用的时候,TCP发送keepalive消息的频度。缺省是2小时,改为20分钟。
net.ipv4.ip_local_port_range = 1024 65000 
#表示用于向外连接的端口范围。缺省情况下很小:32768到61000,改为1024到65000。
net.ipv4.tcp_max_syn_backlog = 8192 
#表示SYN队列的长度,默认为1024,加大队列长度为8192,可以容纳更多等待连接的网络连接数。
net.ipv4.tcp_max_tw_buckets = 5000 
#表示系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数字,TIME_WAIT套接字将立刻被清除并打印警告信息。
默认为180000,改为5000。对于Apache、Nginx等服务器,上几行的参数可以很好地减少TIME_WAIT套接字数量,但是对于 Squid,效果却不大。此项参数可以控制TIME_WAIT套接字的最大数量,避免Squid服务器被大量的TIME_WAIT套接字拖死。

注意:HTTP 协议 1.1 版规定 default 行为是 Keep-Alive,也就是会重用 TCP 连接传输多个 request/response
可以通过web服务(nginx、tomcat等)去定义http协议的版本,逻辑:客户在页面点击后,请求传到web服务上,三次握手完成后建立socket连接,前端与后端互相传输数据,四次挥手。完成一次稳定可靠的数据传输
按照这个逻辑来讲,http协议的版本号是由web服务去定义的,所以在web服务配置指定http协议版本号就可以了。

2>权衡业务可用性跟成本的权重,考虑将应用分开部署,或者做一个高可用容灾方案

利用nginx第三方健康检查模块:upstream_check_module  做一个高可用反代故障冗余

(详细可参照:https://blog.csdn.net/pcn01/article/details/105182600/)

3>防患于未然,预先监控,设置上限阈值,触发告警

原文地址:https://www.cnblogs.com/byfboke/p/14431176.html