TIME_WAIT 过多导致的问题

背景：由于秒杀业务需求，会有持续并发连接的情况

问题：鉴于成本问题，业务项目会有交叉部署的情况，某个服务的TIME_WAIT 网络连接数过多，导致了其他应用不可用

解决：基于三个层面考虑

1>调优系统网络参数

/etc/sysctl.conf配置调优：

net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时，启用cookies来处理，可防范少量SYN攻击，默认为0，表示关闭；
net.ipv4.tcp_tw_reuse = 1 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接，默认为0，表示关闭；
net.ipv4.tcp_tw_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收，默认为0，表示关闭。
net.ipv4.tcp_fin_timeout 修改系默认的 TIMEOUT 时间

vi /etc/sysctl.conf
net.ipv4.tcp_keepalive_time = 1200 
#表示当keepalive起用的时候，TCP发送keepalive消息的频度。缺省是2小时，改为20分钟。
net.ipv4.ip_local_port_range = 1024 65000 
#表示用于向外连接的端口范围。缺省情况下很小：32768到61000，改为1024到65000。
net.ipv4.tcp_max_syn_backlog = 8192 
#表示SYN队列的长度，默认为1024，加大队列长度为8192，可以容纳更多等待连接的网络连接数。
net.ipv4.tcp_max_tw_buckets = 5000 
#表示系统同时保持TIME_WAIT套接字的最大数量，如果超过这个数字，TIME_WAIT套接字将立刻被清除并打印警告信息。
默认为180000，改为5000。对于Apache、Nginx等服务器，上几行的参数可以很好地减少TIME_WAIT套接字数量，但是对于 Squid，效果却不大。此项参数可以控制TIME_WAIT套接字的最大数量，避免Squid服务器被大量的TIME_WAIT套接字拖死。

注意：HTTP 协议 1.1 版规定 default 行为是 Keep-Alive，也就是会重用 TCP 连接传输多个 request/response
可以通过web服务（nginx、tomcat等）去定义http协议的版本，逻辑：客户在页面点击后，请求传到web服务上，三次握手完成后建立socket连接，前端与后端互相传输数据，四次挥手。完成一次稳定可靠的数据传输
按照这个逻辑来讲，http协议的版本号是由web服务去定义的，所以在web服务配置指定http协议版本号就可以了。

2>权衡业务可用性跟成本的权重，考虑将应用分开部署，或者做一个高可用容灾方案

利用nginx第三方健康检查模块：upstream_check_module 做一个高可用反代故障冗余

（详细可参照：https://blog.csdn.net/pcn01/article/details/105182600/）

3>防患于未然，预先监控，设置上限阈值，触发告警