当前位置：首页 > news >正文

大模型流式长链接场景下 k8s 优雅退出 JAVA

news 2025/8/1 12:22:21

一、 java bootstrap.yml

bootstrap.yml 启动文件增加timeout-per-shutdown-phase

spring:lifecycle:timeout-per-shutdown-phase: 30m# 这个值是故意设置这么大的，因为现在推理服务支持深度思考# 为了保证用户侧的连接不被断开，因此我们需要设置超大 graceful shutdown 时间# 注意: 为了保证这个值是有效的，需要确保 k8s 中的 terminationGracePeriod 不低于此时间# 否则 k8s 会强制杀死 pod(这个值相当于不生效)# 上线前需要检查 nacos 中是否有这个配置，防止配置被覆盖

timeout-per-shutdown-phase:

服务主进程优雅退出的时间默认30s，配置该参数后可以实现如果当前还有未断开的链接那么主进程会在给定的时间后强制退出。

应用场景下：

当程序收到 kill -15的信号java默认timeout-per-shutdown-phase的参数为30s 也就说等待30s后pod内的进程就会自动退出（kill -9）之后就会与上游的服务断开链接，如果上游的服务有复用链接的特性那么会更为明显。届时客户端就会接受到503（服务暂时不可用）的http状态码。

二、k8s yaml 增加配置

        lifecycle:preStop:exec:command:- sh- -c- sleep 70terminationGracePeriodSeconds: 1800

配置解释：

preStop：

必须配置，否则每次发布k8s的pod进入到Terminating状态后，会立刻删除pod网络相关的配置例如Pod Ip 、路由等

应用场景下：

配置preStop后pod会进入到Terminating状态同时会从endpointSlice上摘除这个节点，也就意味着该节点不会接收新的流量，但是pod的IP以及网络配置还是存在的因为pod没有进入到回收的阶段还在sleep，通过preStop钩子进入到sleep阶段这个时候就会将已经进入到该pod的请求继续进行处理，不会强制中断和上游的链接

terminationGracePeriodSeconds: