当前位置：首页 > news >正文

【vLLM大模型TPS测试三部曲】

news 2025/8/8 16:22:24

安装

pip install vllm

模型自行下载

例如: https://modelscope.cn/models/jackle/Qwen2.5-Coder-32B-GPTQ-Int4/

部署测试

export VLLM_MODEL=Qwen2.5-Coder-32B-GPTQ-Int4
# 启动
python3 -m vllm.entrypoints.openai.api_server  --model $VLLM_MODEL --device=auto  --enforce-eager   --tensor-parallel-size=1   --max-model-len=4096  --dtype=float16 --block-size=32 --trust-remote-code  --port=9000
# 测试
curl -X POST "http://127.0.0.1:9000/v1/chat/completions" \-H "Authorization: Bearer xxxx" \-H "Content-Type: application/json" \-d '{"model": "$VLLM_MODEL","messages": [{"role": "user", "content": "What are some fun things to do in New York?"}],"max_tokens": 2048,"temperature": 0.0,"stream": false
}'

效果

在这里插入图片描述

http://www.lryc.cn/news/511822.html

相关文章：

Elasticsearch：使用 Ollama 和 Go 开发 RAG 应用程序

Windows平台ROBOT安装

【动态规划篇】穿越算法迷雾：约瑟夫环问题的奇幻密码

代码随想录算法训练营第51期第32天 | 理论基础、509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯

爱思唯尔word模板

每日一题 354. 俄罗斯套娃信封问题

ASP.net网站的注册、登录和密码修改的操作详解

2024.12.29（进程线程实现并发服务器）

如何在 Ubuntu 上安装 PyTorch

8-Gin 中间件 --[Gin 框架入门精讲与实战案例] 【文末有测试代码】

【潜意识Java】深入详细理解分析Java中的toString()方法重写完整笔记总结，超级详细。

【论文笔记】Contrastive Learning for Sign Language Recognition and Translation

Gitlab17.7+Jenkins2.4.91实现Fastapi/Django项目持续发布版本详细操作(亲测可用)

一起来看--红黑树

SpringBoot整合篇 05、Springboot整合Redission

供应链系统设计-供应链中台系统设计（六）- 商品中心概念篇

胡闹厨房练习（三）

关于ESD（静电放电）等级的划分

探究步进电机与输入脉冲的关系

基于YOLOV5+Flask安全帽RTSP视频流实时目标检测

Windows内置的服务器IIS（Internet Information Services）托管网站

虚幻引擎结构之UObject

js的Reflect对象

this指向了谁？

基于Resnet、LSTM、Shufflenet及CNN网络的Daily_and_Sports_Activities数据集仿真

mac系统vsCode中使用Better Comments在.vue文件里失效

UE5.3 C++ Ceiusm中的POI 制作3DUI 结合坐标转化

一起学Git【第六节：查看版本差异】

numpy np.newaxis介绍

小程序配置文件 —— 16 项目配置文件和配置 sass