当前位置: 首页 > news >正文

【vLLM大模型TPS测试三部曲】

安装

pip install vllm

模型自行下载

  • 例如: https://modelscope.cn/models/jackle/Qwen2.5-Coder-32B-GPTQ-Int4/

部署测试

export VLLM_MODEL=Qwen2.5-Coder-32B-GPTQ-Int4
# 启动
python3 -m vllm.entrypoints.openai.api_server  --model $VLLM_MODEL --device=auto  --enforce-eager   --tensor-parallel-size=1   --max-model-len=4096  --dtype=float16 --block-size=32 --trust-remote-code  --port=9000
# 测试
curl -X POST "http://127.0.0.1:9000/v1/chat/completions" \-H "Authorization: Bearer xxxx" \-H "Content-Type: application/json" \-d '{"model": "$VLLM_MODEL","messages": [{"role": "user", "content": "What are some fun things to do in New York?"}],"max_tokens": 2048,"temperature": 0.0,"stream": false
}'

效果

在这里插入图片描述

http://www.lryc.cn/news/511822.html

相关文章:

  • Elasticsearch:使用 Ollama 和 Go 开发 RAG 应用程序
  • Windows平台ROBOT安装
  • 【动态规划篇】穿越算法迷雾:约瑟夫环问题的奇幻密码
  • 代码随想录算法训练营第51期第32天 | 理论基础、509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯
  • 爱思唯尔word模板
  • 每日一题 354. 俄罗斯套娃信封问题
  • ASP.net网站的注册、登录和密码修改的操作详解
  • 2024.12.29(进程线程实现并发服务器)
  • 如何在 Ubuntu 上安装 PyTorch
  • 8-Gin 中间件 --[Gin 框架入门精讲与实战案例] 【文末有测试代码】
  • 【潜意识Java】深入详细理解分析Java中的toString()方法重写完整笔记总结,超级详细。
  • 【论文笔记】Contrastive Learning for Sign Language Recognition and Translation
  • Gitlab17.7+Jenkins2.4.91实现Fastapi/Django项目持续发布版本详细操作(亲测可用)
  • 一起来看--红黑树
  • SpringBoot整合篇 05、Springboot整合Redission
  • 供应链系统设计-供应链中台系统设计(六)- 商品中心概念篇
  • 胡闹厨房练习(三)
  • 关于ESD(静电放电)等级的划分
  • 探究步进电机与输入脉冲的关系
  • 基于YOLOV5+Flask安全帽RTSP视频流实时目标检测
  • Windows内置的服务器IIS(Internet Information Services)托管网站
  • 虚幻引擎结构之UObject
  • js的Reflect对象
  • this指向了谁?
  • 基于Resnet、LSTM、Shufflenet及CNN网络的Daily_and_Sports_Activities数据集仿真
  • mac系统vsCode中使用Better Comments在.vue文件里失效
  • UE5.3 C++ Ceiusm中的POI 制作3DUI 结合坐标转化
  • 一起学Git【第六节:查看版本差异】
  • numpy np.newaxis介绍
  • 小程序配置文件 —— 16 项目配置文件和配置 sass