当前位置：首页 > news >正文

Ollama部署 DeepSeek-R1:70B 模型的详细步骤

news 2025/9/15 4:12:22

1. 确认环境准备

(1) 硬件要求

显存需求：70B 参数的模型需要大量显存。若使用 NVIDIA T4（16GB 显存），需多卡并行（如 8 卡）或开启量化（如 q4_0、q8_0）。
内存需求：建议至少 64GB 系统内存。
存储空间：模型文件约 40-140GB（取决于量化方式）。

(2) 软件依赖

安装 Ollama（确保版本支持自定义模型）：
```
curl -fsSL https://ollama.com/install.sh | sh
```

2. 下载 DeepSeek-R1:70B 模型

(1) 若模型已存在于本地

直接通过 Ollama 加载：
```
ollama run deepseek-r1:70b
```

(2) 若需自定义模型

创建 Modelfile 定义模型参数（示例）：

FROM deepseek-r1:70b
PARAMETER num_gpu 8  # 使用 8 卡 GPU
PARAMETER num_ctx 4096  # 上下文长度
PARAMETER quantize q4_0  # 量化方式（可选）

构建自定义模型：

ollama create deepseek-r1-custom -f Modelfile

3. 启动 Ollama 服务

(1) 启动模型

前台运行（调试模式）：
```
ollama serve
```
后台运行（生产环境）：
```
systemctl start ollama
```

(2) 检查模型状态

查看已加载模型：

ollama list

输出应包含：

NAME            ID              SIZE      MODIFIED
deepseek-r1:70b 0c1615a8ca32    42 GB     2 hours ago

4. 配置外部访问

默认情况下，Ollama 仅监听 127.0.0.1:11434，需修改为允许外部访问：

(1) 修改监听地址

编辑 Ollama 环境变量：

sudo vim /etc/systemd/system/ollama.service

添加：

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

重启服务：

sudo systemctl daemon-reload
sudo systemctl restart ollama

(2) 开放防火墙端口

开放 11434 端口：

sudo ufw allow 11434/tcp
sudo ufw reload

(3) 验证监听状态

netstat -tuln | grep 11434

输出应为：

tcp  0  0 0.0.0.0:11434  0.0.0.0:*  LISTEN

5. 调用模型 API

(1) 通过 Curl 测试

curl http://<服务器IP>:11434/api/generate -d '{"model": "deepseek-r1:70b","prompt": "你好，DeepSeek！","stream": false
}'

(2) 使用 Python 客户端

import requestsresponse = requests.post("http://<服务器IP>:11434/api/generate",json={"model": "deepseek-r1:70b","prompt": "如何部署大模型？","stream": False}
)
print(response.json()["response"])

6. 性能优化

(1) 多 GPU 并行

启动时指定 GPU 数量：
```
OLLAMA_NUM_GPU=8 ollama serve
```

(2) 量化模型

使用 q4_0 或 q8_0 量化减少显存占用：

ollama run deepseek-r1:70b --quantize q4_0

(3) 调整批处理大小

在 Modelfile 中设置：

PARAMETER num_batch 512  # 根据显存调整

7. 常见问题解决

(1) 显存不足

现象：CUDA out of memory
解决：
- 减少 num_batch。
- 启用量化（quantize q4_0）。
- 增加 GPU 数量。

(2) 服务无法启动

现象：Failed to bind port 11434
解决：
- 检查端口占用：lsof -i :11434。
- 关闭冲突进程或更换端口。

(3) 模型加载失败

现象：Model deepseek-r1:70b not found
解决：
- 确认模型文件路径正确。
- 重新下载模型：ollama pull deepseek-r1:70b。

总结

通过上述步骤，你可以在 Ollama 上成功部署 DeepSeek-R1:70B 模型，并支持外部网络访问。如果遇到性能问题，优先通过量化和多 GPU 并行优化资源占用。若需进一步扩展，可结合 Kubernetes 或 Docker Swarm 实现集群化部署。

查看全文

http://www.lryc.cn/news/533555.html

PAT乙级( 1009 说反话 1010 一元多项式求导)C语言版本超详细解析

学习笔记十九：K8S生成pod过程

Qwen2-VL：增强视觉语言模型对世界任意分辨率的感知能力

原神新版本角色牌上新七圣召唤增添新玩法

Spring 中的事务隔离级别以及传播行为

为多个GitHub账户配置SSH密钥

OSPF基础（3）：区域划分

android studio无痛入门

免费windows pdf编辑工具Epdf

CNN 卷积神经网络处理图片任务 | PyTorch 深度学习实战

【Golang学习之旅】Golang 内存管理与 GC 机制详解

Kamailio 各个功能的共同点、不同点及应用场景

Linux（CentOS）安装 Nginx

string 与 wstring 的字符编码

C#面试常考随笔14: 方法如何传递不定数量的参数？params关键字怎么使用？

开发一款类似《王者荣耀》的游戏是一个复杂的系统工程，涉及多个领域的知识和技术。以下是从多个角度详细阐述如何开发的思维。

VMware下Linux和macOS安装VSCode一些总结

aspectFill（填充目标区域的同时保持图像的原有宽高比 (aspect ratio）图像不会被拉伸或压缩变形

我的年度写作计划

DeepSeek与llama本地部署(含WebUI)

SOA（面向服务架构）全面解析

PyQt6/PySide6 的 QDialog 类

mes系统对工业数字化转型起到重要作用，它的实际应用有哪些

Qt：项目文件解析

【学术投稿】第五届计算机网络安全与软件工程（CNSSE 2025）

Java 大视界 -- Java 大数据在智能供应链中的应用与优化（76）