当前位置: 首页 > news >正文

内网环境使用Docker部署Qwen2模型-vLLM篇

在此之前,我们已成功利用Docker与Ollama框架,在内网环境中部署了Qwen2模型。下面我们再来看一下使用Docker与vLLM框架部署Qwen2模型。

准备vLLM镜像

在一台具备网络环境的机器上执行以下命令,拉取vLLM的镜像:

# 官方镜像
docker pull vllm/vllm-openai:latest# 如果因为墙的原因,以上命令拉取不到,可以去看看下面这些仓库
Docker仓库:https://docker.1panel.live ✅网友自建
Docker仓库:https://docker.agsv.top  ✅网友自建
Docker仓库:https://docker.agsvpt.work  ✅网友自建
Docker仓库:https://dockerpull.com ✅网友自建
Docker仓库:https://dockerproxy.cn ✅网友自建

下载Qwen2-7B-Instruct模型

我这里下载的是Qwen2-7B-Instruct-GPTQ-Int4的模型。下载地址:

https://huggingface.co/Qwen/Qwen2-7B-Instruct-GPTQ-Int4

编写Dockerfile

我们将Qwen2模型打包上传到服务器,然后编写Dockerfile:

# 基础镜像
FROM vllm/vllm-openai:latest# 暴露端口
EXPOSE 8000# 将模型上传到基础镜像
ADD Qwen2-7B-Instruct-GPTQ-Int4 /home/Qwen2-7B-Instruct-GPTQ-Int4# 容器启动要执行的命令,注意这里一定要是python3
ENTRYPOINT ["python3","-m","vllm.entrypoints.openai.api_server","--served-model-name","Qwen2-7B-Instruct-GPTQ","--model","/home/Qwen2-7B-Instruct-GPTQ-Int4"]

构建镜像

执行docker build命令,构建docker镜像:

docker build -t vllm_qwen2_7b:1.0 -f Dockerfile .

启动容器

执行以下命令,启动docker容器:

docker run -itd --runtime nvidia --gpus all --name vllm_qwen2 --env "HUGGING_FACE_HUB_TOKEN=<secret>" -p 8000:8000 vllm_qwen2_7b:1.0 --max-model-len 8129

经过启动、测试,模型运行没问题。

然后,我们就可以将镜像导出,提供给内网环境使用了:

# 镜像导出
docker save -o vllm_qwen2.tar vllm_qwen2_7b:1.0
# 镜像导入
docker load -i vllm_qwen2.tar

问题解决

问题1、No CUDA GPUs are available

解决方法:

(1)检查是否正确安装了CUDA驱动,执行nvidia-smi可查看。

(2)docker run命令中没有添加--runtime nvidia --gpus all。

问题2:unknown or invalid runtime name: nvidia

解决方法:

当Docker容器需要使用GPU时,需要配置Docker的default-runtimenvidia,然后重启Docker。

{"runtimes":{
"nvidia":{
"path":"nvidia-container-runtime",
"runtimeArgs":[]
}
},
"default-runtime":"nvidia"
}

 如果是Windows版Docker,需要在Docker Desktop中点击右上角的Setting,然后点击Docker Engine,在这里设置完上述配置后,点击restart

 

问题3、Try increasing gpu_memory_utilization or decreasing max_model_len when initializing the engine.

解决方法:

因为GPU内存限制而需要调整模型的最大序列长度。在docker run命令最后加--max-model-len限制。

--max-model-len 8129
http://www.lryc.cn/news/433499.html

相关文章:

  • Rust的常数、作用域与所有权
  • Spring 源码解读:解决循环依赖的三种方式
  • Web3 详解
  • Spring 中依赖注入注解的区别详解
  • PTA求一批整数中出现最多的个位数字
  • 探索国产编程工具:如何实现工作效率翻倍
  • 秒懂:进程相关的操作
  • PDF 软件如何帮助您编辑、转换和保护文件。
  • 蓝桥杯嵌入式国三备赛经验分享
  • AI编程工具合集
  • [网络编程]通过java用TCP实现网络编程
  • Python(TensorFlow)和Java及C++受激发射损耗导图
  • IEEE投稿模板翻译
  • log4j 1.x 日志输出线程以唯一ID的形式配置
  • 宏观学习笔记:GDP分析(二)
  • 两个月冲刺软考——访问位与修改位的题型(淘汰哪一页);内聚的类型;关于码制的知识点;地址映射的相关内容
  • C高级编程 第十六天(树 二叉树)
  • OpenCV结构分析与形状描述符(11)椭圆拟合函数fitEllipse()的使用
  • 904.水果成篮
  • 【网络安全】漏洞挖掘之 2FA 恢复代码安全措施不当
  • 指令微调与参数微调的代码实践与分析
  • Android14音频进阶之高通Elite架构指定通道播放(八十四)
  • 常见的正则化方法以及L1,L2正则化的简单描述
  • 深入理解 Milvus:新一代向量数据库的基础技术与实战指南
  • Maven教程——从入门到入坑
  • 研究生深度学习入门的十天学习计划------第九天
  • perl的学习记录——仿真regression
  • 【Go】go连接clickhouse使用TCP协议
  • Emlog-Pro访问网站时需要密码验证插件
  • Apache ShardingSphere数据分片弹性伸缩加解密中间件