当前位置: 首页 > news >正文

国产GPU中,VLLM0.5.0发布Qwen2.5-14B-Instruct-GPTQ-Int8模型,请求返回结果乱码

概述

国产GPU: 

         DCU Z100

推理框架:

          vllm0.5.0

docker容器化部署

运行如下代码:

  python -m vllm.entrypoints.openai.api_server --model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 --served-model-name qwen-gptq --trust-remote-code --enforce-eager --max-model-len 256 --tensor-parallel-size 2 --dtype float16 --quantization gptq --port 8001 --host *.*.*.*

报:

解决方案

1.重新拉取docker容器

  docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.5.0-dtk24.04.1-ubuntu20.04-py310-zk-v1 

2.运行容器

docker run -it --name=dtk24041_qwen2_vllm -v /app/GLM-4-main:/work --privileged -v /app/models:/app/models -v /opt/hyhal:/opt/hyhal --device=/dev/kfd --device=/dev/dri --device=/dev/mkfd --security-opt seccomp=unconfined --ipc=host --network host --group-add video --ulimit memlock=-1:-1 --cap-add=SYS_PTRACE  023c9d2c0174  /bin/bash

3.进入容器 

docker exec -it dtk24041_qwen2_vllm  /bin/bash

4.运行

  python -m vllm.entrypoints.openai.api_server --model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 --served-model-name qwen-gptq --trust-remote-code --enforce-eager --max-model-len 256 --tensor-parallel-size 2 --dtype float16 --quantization gptq --port 8001 --host *.*.*.*

5.调用

curl http://*.*.*.*:8001/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "qwen-gptq","messages": [{"role": "system", "content": "你是一个乐于助人的助手。"},{"role": "user", "content": "讲个笑话"}],"stop": ["<|im_end|>", "<|endoftext|>"]}' 

http://www.lryc.cn/news/499996.html

相关文章:

  • 在 Vue 3 中实现点击按钮后禁止浏览器前进或后退
  • Linux:软硬链接
  • Delphi XE 安卓Web开发 错误:net::ERR_CLEARTEXT_NOT_PERMITTED
  • 深入理解malloc与vector:内存管理的对比
  • 多个输入框联合搜索
  • 笔记03----NeurIPS2024 涨点!SSA:用于语义分割的语义和空间自适应像素级分类器(即插即用)
  • 自定义比较函数 down 作为 sort 函数的参数实现数组元素从大到小排序
  • 在 Spring Boot 中使用 JPA(Java Persistence API)进行数据库操作
  • 简单聊聊PLT和GOT
  • FaRM译文
  • 用vue框架写一个时钟的页面
  • HTML表单-第二部分
  • PyQt5:一个逗号引发的闪退血案
  • AI智能体Prompt预设词指令大全+GPTs应用使用
  • SSM整合原理实战案例《任务列表案例》
  • 在风能市场持续增长的情况下,全球【环氧活性稀释剂】的需求呈现明显上涨的趋势
  • CSS一些小点 —— 12.7
  • [NeurlPS 2022] STaR 开源代码实现解读
  • Android笔记【15】跳转页面返回信息
  • 使用 Qt 打造高效的 .run 软件包管理器
  • python学opencv|读取视频(二)制作gif
  • 19. Three.js案例-创建一个带有纹理映射的旋转平面
  • ASP.NET|日常开发中常用属性详解
  • vscode CMakeLists中对opencv eigen的引用方法
  • 使用Goland对6.5840项目进行go build出现异常
  • Plugin - 插件开发06_开源项目JPom中的插件实现机制
  • 关于成功插入 SQLite 但没有数据的问题
  • 单片机+Qt上位机
  • C++ 类和对象(中)
  • 在做题中学习(79):最小K个数