当前位置: 首页 > news >正文

使用vllm创建相同模型的多个实例,使用nginx进行负载均衡,提高模型吞吐量

背景

要提高vllm部署的大模型吞吐量,可以从显存利用率优化、多实例部署、参数调优和流程优化等多个维度入手,以下是具体建议:

一、提高 gpu-memory-utilization 的效果与操作

gpu-memory-utilization 控制vllm预分配的GPU内存比例(默认0.9),当前值0.35预留了过多显存,是吞吐量低的重要原因。

  • 提升空间:合理提高该值可显著增加批处理能力。例如从0.35提升到0.7-0.8(需根据实际显存占用测试),理论上能将单次批处理量提升1-2倍(具体取决于模型大小)。
  • 操作建议
    1. 先逐步提高至0.6,测试是否出现OOM(内存溢出)错误:
      CUDA_VISIBLE_DEVICES=1 python -m vllm.entrypoints.openai.api_server \--model /home/liuzhiming/.../dir \--port 18889 \--tensor-parallel-size 1 \--max-num-batched-tokens 16384  # 同步增大批处理token上限 \--max-num-seqs 512  # 同步增大序列数上限 \--gpu-memory-utilization 0.6 
http://www.lryc.cn/news/599355.html

相关文章:

  • RabbitMQ—HAProxy负载均衡
  • 数仓主题域划分
  • [linux]Haproxy七层代理
  • Agent领域,近年来的前沿研究方向:多智能体协作、认知启发架构、伦理安全、边缘计算集成
  • 多租户系统中的安全隔离机制设计
  • 【数学建模|Matlab】数学建模「常用作图」示例
  • classgraph:Java轻量级类和包扫描器
  • 【深基12.例1】部分背包问题 Java
  • 深入解析 ArkUI 触摸事件机制:从点击到滑动的开发全流程
  • 本地部署Dify教程
  • 每天算法刷题Day53:7.25:leetcode 栈5道题,用时1h35min
  • [C#] Winform - 加载动画效果
  • 【blender小技巧】使用blender实现图转换为3D模型,并进行模型网格优化减面操作
  • 【C#学习Day12笔记】抽象类、密封类与子类构造(继承)
  • Welcome to the world of Go language
  • blender基本操作
  • gem5和Spike区别
  • 设计模式在Java中的实际应用:单例、工厂与观察者模式详解
  • AVL树和红黑树的特性以及模拟实现
  • 【开发杂谈】用AI玩AI聊天游戏:使用 Electron 和 Python 开发大模型语音聊天软件
  • golang怎么实现每秒100万个请求(QPS),相关系统架构设计详解
  • MyBatis 之缓存机制核心解析
  • “磁”力全开:钕铁硼重塑现代科技生活
  • 求职招聘小程序源码招聘小程序开发定制
  • 解密国密 SSL 证书:SM2、SM3、SM4 算法的协同安全效应
  • Spring Boot 接口安全设计:接口限流、防重放攻击、签名验证
  • SEC_FirePower 第二天作业
  • 软件异常读写威胁硬盘安全:从过往案例到防护之道
  • Linux运维新人自用笔记(Rsync远程传输备份,服务端、邮箱和客户端配置、脚本)
  • 网络资源模板--基于Android Studio 实现的天气预报App