当前位置: 首页 > news >正文

SGLang + 分布式推理部署DeepSeek671B满血版

部署设备:2×8×A100 80G,两台机器,每台机器8张A100。

模型:deepseek-671B-int8

模型下载地址:https://huggingface.co/meituan/DeepSeek-R1-Block-INT8
模型参考:

1、SGLang Docker部署

github地址:sgl-project/sglang:SGLang 是一个用于大型语言模型和视觉语言模型的快速服务框架。

下载 SGLang的docker镜像包,地址:lmsysorg/sglang Tags | Docker Hub,我用的0.4.7这个版本。

docker pull lmsysorg/sglang:v0.4.7-cu124

如果是内网机器,可以将docker镜像打包成.tar文件,传入服务器进行加载即可。

sudo docker load -i sglang_v0.4.7-cu124.tar

2、运行docker镜像

网口号查询,我的设置为ens...p0,大概是这样的。

IP -4 aexport | grep -i socket

在master机器上运行(请将模型放在两台机器的同一位置)

# master
docker run --gpus all \-d \-e GLOO_SOCKET_IFNAME=网口号-e TP_SOCKET_IFNAME=网口号-e NCCL_SOCKET_IFNAME=网口号--shm-size 32g \--network=host \-p 30000:30000 \-v 本地模型地址:/root/.cache/huggingface/deepseek \--name sglang-1 \--it--ipc=host \lmsysorg/sglang:v0.4.7-cu124 \

在cluster机器上运行

#cluster
docker run --gpus all \-d \-e GLOO_SOCKET_IFNAME=网口号-e TP_SOCKET_IFNAME=网口号-e NCCL_SOCKET_IFNAME=网口号--shm-size 32g \--network=host \-p 30000:30000 \-v 本地模型地址:/root/.cache/huggingface/deepseek \--name sglang-2 \--it--ipc=host \lmsysorg/sglang:v0.4.7-cu124 \

3、运行sglang服务

查看docker容器

sudo docker ps -a

在master机器上运行

sudo docker exec -it sglang-1 bash

在cluster机器上运行

sudo docker exec -it sglang-2 bash

在master机器上的docker中运行,记得替换master的IP,如果端口被占用就换个端口:

#master
python3 -m sglang.launch_server \--model /root/.cache/huggingface/deepseek --tp 16 --dist-init-addr \MASTER_IP:5000 --nnodes 2 --node-rank 0 --trust-remote-code --enable-torch-compile --torch-compile-max-bs 8

在cluster机器上的docker中运行,记得替换master的IP,如果端口被占用就换个端口:

#cluster
python3 -m sglang.launch_server \--model /root/.cache/huggingface/deepseek --tp 16 --dist-init-addr \MASTER_IP:5000 --nnodes 2 --node-rank 1 --trust-remote-code --enable-torch-compile --torch-compile-max-bs 8

这样就可以正常运行起来了,一定要注意参数是否正确。

docker额外操作

暂停所有运行的docker

sudo docker stop $(sudo docker ps -q)

删除docker容器

sudo docker rm -f 容器ID

http://www.lryc.cn/news/598200.html

相关文章:

  • JavaSE:开发环境的搭建(Eclipse)
  • Java与NLP实战:文本处理到情感分析全解析
  • 【ECharts✨】解决Vue 中 v-show 导致组件 ECharts 样式异常问题
  • [AI 生成] Flink 面试题
  • 【论文阅读】REVISITING DEEP AUDIO-TEXT RETRIEVAL THROUGH THE LENS OF TRANSPORTATION
  • 基于SpringBoot+Uniapp的健身饮食小程序(协同过滤算法、地图组件)
  • 人形机器人加快先进AI机器人开发
  • 开发避坑短篇(5):vue el-date-picker 设置默认开始结束时间
  • 实时云渲染将UE像素流嵌入业务系统,实现二维管理系统与数字孪生三维可视化程序的无缝交互
  • 小程序生命周期及页面操作执行过程详解
  • 使用phpstudy极简快速安装mysql
  • Java进阶3:Java集合框架、ArrayList、LinkedList、HashSet、HashMap和他们的迭代器
  • Android集成Google Map
  • C++中std::list的使用详解和综合实战代码示例
  • RPG64.制作敌人攻击波数四:优化
  • vue 项目中 components 和 views 包下的组件功能区别对比,示例演示
  • vue递归树形结构删除不符合数据 生成一个新数组
  • 基于深度学习的图像分类:使用MobileNet实现高效分类
  • 【SpringAI实战】提示词工程实现哄哄模拟器
  • MCNN-BiLSTM-Attention分类预测模型等!
  • 模型量化方式及分类
  • OpenAI最新大模型GPT-4o体验之Code Copilot AI编程大模型
  • 边缘智能体:轻量化部署与离线运行
  • 高可用架构模式——如何应对接口级的故障
  • node.js中的fs与path模块
  • Unity 多人游戏框架学习系列十
  • 贪心算法Day6学习心得
  • 苹果带火的3D高斯泼溅产品化玩法:一个成熟产品参考——以DJI Terra为例解析空间智能产品的商业化路径
  • ML3072 MQTT连接阿里云
  • 企业资产管理智能化:IT运维如何借力数字化管理提效避坑?