当前位置: 首页 > news >正文

大量TCP连接滞留TIME_WAIT、SYN_SENT、CLOSE_WAIT状态的分析

文章目录

  • 一、统计各类状态的tcp连接数量
  • 二、TIME_WAIT
    • 应用服务器上,来自反向代理的连接
    • 反向代理上,访问应用服务的连接
    • 反向代理上,来自用户的连接
  • 三、SYN_SENT
    • 反向代理上,访问位于防火墙另一侧的目标
    • 反向代理上,访问无防火墙阻断的目标
  • 四、CLOSE_WAIT
    • 应用服务器上,来自反向代理的连接

本文记录在nginx、tomcat服务器上一些处理异常TCP连接的方案

一、统计各类状态的tcp连接数量

ss、netstat两个工具都能统计:

ss -ant | awk '{print $1}' | sort | uniq -cnetstat -ant | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

二、TIME_WAIT

应用服务器上,来自反向代理的连接

原因:从nginx发起的请求,申明的是http 1.0版本的协议(或者请求头的Connection字段指是Close),则tomcat响应完请求后会主动断开tcp连接

方案:nginx http_proxy模块的proxy_http_version配置默认使用http 1.0协议访问upstream实例,需要修改为1.1

proxy_connect_timeout 3s;
proxy_http_version 1.1;
# 通知客户端,连接保持60s;服务端实际在75s后才会主动关闭连接;
# 如果不设置第二个参数来返回空闲长连接的超时建议,有的客户端不会利用http连接池来长期保持空闲连接
keepalive_timeout 75s 60s;
# 要与请求端保持http1.1通讯,就不能关闭chunked机制;
# 否则nginx会在完成响应后主动关闭与请求端的tcp连接,相当于退化为http1.0协议
chunked_transfer_encoding on;upstream myapp {# nginx与upstream服务器之间的空闲长连接数量(默认最多保持60s)keepalive 20;server 10.0.0.1:8080;server 10.0.0.2:8080;
}server {listen 80 default;location / {proxy_pass http://myapp;# 请求头指定HTTP 1.1协议,并且Connection不为Close时,# 对方完成响应后才不会主动断开TCP连接proxy_http_version 1.1;proxy_set_header Connection '';proxy_set_header Cookie $http_cookie;proxy_set_header Host $host;proxy_set_header X-Forwarded-For ${proxy_add_x_forwarded_for};}
}

反向代理上,访问应用服务的连接

原因:nginx使用http 1.1协议访问upstream实例后,如果未开启空闲连接复用机制,就会主动关闭tcp连接

方案:nginx upstream模块的keepalive配置默认未开启,需要主动提供一个数值

反向代理上,来自用户的连接

原因1:在请求端(浏览器、http请求框架)默认开启连接池并使用http 1.1协议的情况下,如果nginx关闭了http 1.1协议的chunked_transfer_encoding机制,那么在完成请求后,nginx会主动断开与请求端的连接

方案:不要关闭chunked_transfer_encoding

原因2:未返回建议客户端保持连接的时长(response header里的Keep-Alive: timeout=time),导致用户的客户端迟迟不断开空闲连接,最终由nginx来主动断开连接,把TIME_WAIT留在了nginx服务器上

方案:keepalive_timeout配置最长空闲时间和建议客户端保持连接的时长,让客户端知道应该在什么时间之前关闭空闲连接

三、SYN_SENT

反向代理上,访问位于防火墙另一侧的目标

原因:telnet目标端口时,命令阻塞(未立即得到目标未开通此端口的响应),证明SYN包被防火墙drop了

方案:申请防火墙策略

反向代理上,访问无防火墙阻断的目标

原因1:目标tomcat服务器已接收(springboot应用的server.tomcat.max-connections配置,默认10000)的http连接数量、在服务端口排队等待accept(操作系统的net.core.somaxconn配置,默认128或1024)的tcp socket数量,都达到上限后,后续到达服务端口的SYN包会被丢弃,请求端的连接状态保持为SYN_SENT

方案:在使用webflux、websocket等响应式IO框架时,可调大server.tomcat.max-connections配置

原因2:telnet目标端口时,命令阻塞(未立即得到目标未开通此端口的响应),证明目标服务器上使用iptables对访问服务端口的请求进行了DROP处理

方案:使用iptables规则把请求方IP加入放行名单

原因3:应用服务的进程已处理的文件句柄(包含tcp socket)数量超过限额

# 查看当前用户下单进程的文件句柄限额
ulimit -n

方案:编辑/etc/security/limits.conf文件,重启应用服务进程

四、CLOSE_WAIT

应用服务器上,来自反向代理的连接

原因:应用程序开了端口,但是后续初始化失败(比如没有成功连接配置中心、服务注册中心、数据库等原因),accept socket的逻辑没运行起来;
已建立的请求放在服务端口待accept的backlog(操作系统的net.core.somaxconn配置)里,收到的请求内容放在操作系统tcp buffer里;
迟迟得不到应用程序处理并响应后,客户端发出FIN指令,服务端响应ACK后,服务端连接进入CLOSE_WAIT状态,由于tcp buffer里的数据没有被处理,所以服务端没有继续回复FIN,连接以CLOSE_WAIT状态滞留在服务端口待accept的backlog里;
在backlog塞满之前,应用服务端口实际处于可以连接但是不能响应的假死状态

方案:对部署的应用进行readyness定时探测,及时发现未成功初始化的应用

http://www.lryc.cn/news/147710.html

相关文章:

  • kotlin怎么定义类
  • 如何查看数据集下载后保存的绝对路径?
  • 使用php实现微信登录其实并不难,可以简单地分为三步进行
  • 【LeetCode-中等题】24. 两两交换链表中的节点
  • 5.10 汇编语言:汇编过程与结构
  • 【每日一题Day304】LC1267统计参与通信的服务器 | 哈希表
  • 深度解读零信任身份安全—— 全面身份化:零信任安全的基石
  • 音视频 ffmpeg命令提取音视频数据
  • vscode 配置
  • 企业数字化管控平台及信息化治理体系建设方案(附300份方案)
  • ABB PCD231B通信输入/输出模块
  • 在springboot项目中显示Services面板的方法
  • spring之AOP简介
  • ros::init用途用法
  • 逻辑回归的含义
  • 解决Apache Tomcat “Request header is too large“ 异常 ‍
  • 腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台
  • Java 16进制字符串转换成GBK字符串
  • 【ES6】JavaScript中的Symbol
  • 理解React页面渲染原理,如何优化React性能?
  • 数据通信——传输层TCP(可靠传输机制的滑动窗口)
  • Mycat之前世今生
  • Linux- 重定向标准输出(stdout)和标准错误(stderr)
  • PostgreSQL分区表
  • android framework之Applicataion启动流程分析(二)
  • django静态文件无法访问解决方案
  • WIndows 配置多版本python环境,非常清晰明了
  • Leetcode每日一题:1267. 统计参与通信的服务器(2023.8.24 C++)
  • c++(8.28)菱形继承,虚继承,多态,抽象类,模板+Xmind
  • 安装部署JavaFX和IDEA添加JavaFX的详细步骤