当前位置: 首页 > news >正文

基于 vLLM 搭建 DeepSeek-V2 Chat 服务

直奔主题。

安装vLLM

官方实现的代码还没有 merge 到 vLLM 主分支,所以直接 git clone DeepSeek 的分支。

git clone https://github.com/zwd003/vllm.git
cd vllm
pip install -e .

源码安装大概耗时 10 分钟。

OpenAI 接口规范启动

官方 Github 放的是单条推理代码,如果需要启动 api 服务,直接用 OpenAI 接口规范启动即可:

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -m vllm.entrypoints.openai.api_server --model {YOUR_PATH}/deepseek-ai/DeepSeek-V2-Chat --port 10000 --tensor-parallel-size 8 --gpu-memory-utilization 0.9 --max-model-len 8192 --trust-remote-code

首次启动大概耗时10分钟(8卡80G A100),后续启动差不多1分钟以内。
注:如果跑崩了出现OOM,启动时添加参数 --enforce-eager 即可解决。
在这里插入图片描述

接口测试

{"model": "{YOUR_PATH}/deepseek-ai/DeepSeek-V2-Chat","messages": [{"role": "user", "content": "你是谁"}],"temperature": 0.3,"stream": false
}

在这里插入图片描述

参考链接:
https://github.com/deepseek-ai/DeepSeek-V2

http://www.lryc.cn/news/358327.html

相关文章:

  • Kafka 安装教程和基本操作
  • Java 五种内部类演示及底层原理详解
  • 【UnityShader入门精要学习笔记】第十五章 使用噪声
  • C++ ─── string的完整模拟实现
  • 安卓中的图片压缩
  • centOS7.9 DNS配置
  • 设计模式20——职责链模式
  • android13 差分包制作命令
  • Flink-cdc更好的流式数据集成工具
  • C++|设计模式(三)|抽象工厂模式
  • AVB协议分析(一) FQTSS协议介绍
  • 一个程序员的牢狱生涯(44)询问
  • 刷爆leetcode第六期
  • 汇舟问卷:国外问卷调一天900
  • openresty完美替代nginx
  • 深入解析:Element Plus 与 Vite、Nuxt、Laravel 的结合使用
  • 使ssh连接Linux服务器一直不掉线
  • 2024-05-29 blue-VH-driver-对外接口的并行调用-设计与思考
  • ubuntu安装
  • Rosetta PyRosetta 源码包 安装包 下载
  • C++ 进阶(3)虚函数表解析
  • 2024年新算法-秘书鸟优化算法(SBOA)优化BP神经网络回归预测
  • kafka-主题创建(主题操作的命令)
  • [日常开发] 数据库主从延迟问题
  • Python高层解雇和客户活跃度量化不确定性模型
  • 【IOT】OrangePi+HomeAssistant+Yolov5智能家居融合
  • Python 点云裁剪
  • Presto 从提交SQL到获取结果 源码详解(2)
  • Python的类全面系统学习
  • 信号处理中简单实用的方法