当前位置：首页 > news >正文

关于vllm【常见问题解决方案】

news 2025/8/4 5:54:08

1、启动时报错

【1】

执行命令

vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen-2.5-7B-Instruct

报错信息

error: Failures have been detected while processing an MLIR pass pipeline
...
RuntimeError: PassManager::run failed

可能原因
这是 Triton 编译器在生成 GPU 内核时失败，常见于：
[1] Tesla T4（Compute Capability 7.5）不支持某些 Triton 特性。
[2] vLLM 版本 + Triton 版本不兼容。
解决方案
[1] 禁用 --enable-prefix-caching

vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name Qwen-2.5-7B-Instruct

【2】

执行命令

vllm serve /path/to/Qwen2-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen2-7B-Instruct

报错信息

CUDA out of memory. Tried to allocate 224.00 MiB.
GPU 0 has a total capacity of 14.58 GiB of which 161.38 MiB is free.

可能原因
因为你的 GPU无法加载 Qwen2-7B-Instruct 模型所需的全部显存。
解决方案
[1] 使用量化模型
使用 4-bit 量化模型（如 Qwen2-7B-Instruct-GPTQ 或 AWQ）。

查看全文

http://www.lryc.cn/news/608599.html

vllm0.8.5：自定义聊天模板qwen_nonthinking.jinja，从根本上避免模型输出＜think＞标签

【python实用小脚本-169】『Python』所见即所得 Markdown 编辑器：写完即出网页预览——告别“写完→保存→刷新”三连

k8s+isulad 国产化技术栈云原生技术栈搭建1-VPC

OSPF HCIP

Starrocks ShortCircuit短路径的调度

华为云云服务高级顾问叶正晖：华为对多模态大模型的思考与实践

基于云模型的模糊综合风险评估Matlab代码

Matlab 高斯牛顿法拟合曲线

K8S部署ELK（四）：部署logstash

MATLAB小波分析工具包进行时间序列的小波功率谱分析

后端研发转型爬虫实战：Scrapy 二开爬虫框架的避坑指南

量子物理学的前沿意义虚无、形式混乱

0803 思维导图+小项目

Python爬虫实战：研究awesome-python工具，构建技术资源采集系统

uniapp 跨端开发

机器学习——下采样（UnderSampling），解决类别不平衡问题，案例：逻辑回归信用卡欺诈检测

什么是shebang

Java基础：代码块/内部类/Lambda函数/常用API/GUI编程

JavaEE初阶第十三期：解锁多线程，从 “单车道” 到 “高速公路” 的编程升级（十一）

自动驾驶中的传感器技术20——Camera（11）

【MATLAB】（六）多项式的创建与四则运算

TCP-单线程版本

pytorch 安装

2025年渗透测试面试题总结-2025年HW(护网面试) 76-1（题目+回答）

1、启动时报错

【1】

【2】

相关文章：