当前位置：首页 > news >正文

使用vllm创建相同模型的多个实例，使用nginx进行负载均衡，提高模型吞吐量

news 2025/7/27 7:10:39

背景

要提高vllm部署的大模型吞吐量，可以从显存利用率优化、多实例部署、参数调优和流程优化等多个维度入手，以下是具体建议：

一、提高 `gpu-memory-utilization` 的效果与操作

gpu-memory-utilization 控制vllm预分配的GPU内存比例（默认0.9），当前值0.35预留了过多显存，是吞吐量低的重要原因。

提升空间：合理提高该值可显著增加批处理能力。例如从0.35提升到0.7-0.8（需根据实际显存占用测试），理论上能将单次批处理量提升1-2倍（具体取决于模型大小）。

操作建议：

先逐步提高至0.6，测试是否出现OOM（内存溢出）错误：

CUDA_VISIBLE_DEVICES=1 python -m vllm.entrypoints.openai.api_server \--model /home/liuzhiming/.../dir \--port 18889 \--tensor-parallel-size 1 \--max-num-batched-tokens 16384  # 同步增大批处理token上限 \--max-num-seqs 512  # 同步增大序列数上限 \--gpu-memory-utilization 0.6

http://www.lryc.cn/news/599355.html

相关文章：

RabbitMQ—HAProxy负载均衡

数仓主题域划分

[linux]Haproxy七层代理

Agent领域，近年来的前沿研究方向：多智能体协作、认知启发架构、伦理安全、边缘计算集成

多租户系统中的安全隔离机制设计

【数学建模|Matlab】数学建模「常用作图」示例

classgraph：Java轻量级类和包扫描器

【深基12.例1】部分背包问题 Java

深入解析 ArkUI 触摸事件机制：从点击到滑动的开发全流程

本地部署Dify教程

每天算法刷题Day53:7.25:leetcode 栈5道题，用时1h35min

[C#] Winform - 加载动画效果

【blender小技巧】使用blender实现图转换为3D模型，并进行模型网格优化减面操作

【C#学习Day12笔记】抽象类、密封类与子类构造(继承)

Welcome to the world of Go language

blender基本操作

gem5和Spike区别

设计模式在Java中的实际应用：单例、工厂与观察者模式详解

AVL树和红黑树的特性以及模拟实现

【开发杂谈】用AI玩AI聊天游戏：使用 Electron 和 Python 开发大模型语音聊天软件

golang怎么实现每秒100万个请求（QPS）,相关系统架构设计详解

MyBatis 之缓存机制核心解析

“磁”力全开：钕铁硼重塑现代科技生活

求职招聘小程序源码招聘小程序开发定制

解密国密 SSL 证书：SM2、SM3、SM4 算法的协同安全效应

Spring Boot 接口安全设计：接口限流、防重放攻击、签名验证

SEC_FirePower 第二天作业

软件异常读写威胁硬盘安全：从过往案例到防护之道

Linux运维新人自用笔记（Rsync远程传输备份，服务端、邮箱和客户端配置、脚本）

网络资源模板--基于Android Studio 实现的天气预报App