CentOS 7 下通过 Anaconda3 运行llm大模型、deepseek大模型的完整指南
CentOS 7 下通过 Anaconda3 运行llm大模型、deepseek大模型的完整指南
- A1 CentOS 7 下通过 Anaconda3 运行大模型的完整指南
- 一、环境准备
- 二、创建专用环境
- 三、模型部署与运行
- 四、优化配置
- 常见问题解决
- B1 CentOS 7 下通过 Anaconda3 使用 CPU 运行 DeepSeek 大模型的完整方案
- 一、环境配置
- 二、模型部署
- 三、性能优化
- 四、验证与监控
- 注意事项
A1 CentOS 7 下通过 Anaconda3 运行大模型的完整指南
综合最佳实践和关键注意事项:
一、环境准备
-
安装 Anaconda3
- 推荐从清华镜像源下载最新版(如
Anaconda3-2024.10-Linux-x86_64.sh
),避免官网下载速度慢的问题。 - 安装时选择自定义路径(如
/opt/anaconda3
),避免系统盘空间不足。
- 推荐从清华镜像源下载最新版(如
-
验证安装
conda --version # 确认版本 nvidia-smi # 检查GPU驱动和CUDA版本(需≥11.8)
二、创建专用环境
-
新建 Python 环境
conda create --name llm_env python=3.10 -y # 推荐Python 3.10兼容性最佳 conda activate llm_env
-
安装依赖库
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 匹配CUDA 11.8 pip install transformers accelerate vllm # 基础大模型库
三、模型部署与运行
-
下载模型权重
- 从Hugging Face或ModelScope获取模型(如
deepseek-ai/DeepSeek-V3
):git lfs install git clone https://huggingface.co/deepseek-ai/DeepSeek-V3
- 从Hugging Face或ModelScope获取模型(如
-
启动推理服务
python -m vllm.entrypoints.api_server --model /path/to/DeepSeek-V3 --tensor-parallel-size 2 # 多GPU并行
- 若显存不足,添加
--quantization awq
启用4-bit量化。
- 若显存不足,添加
四、优化配置
-
镜像加速
修改~/.condarc
和pip.conf
使用国内源(清华/阿里云),显著提升下载速度。 -
资源监控
watch -n 1 nvidia-smi # 实时监控GPU显存占用
常见问题解决
- CUDA版本冲突:通过
conda install cuda -c nvidia
统一环境内CUDA版本。 - 显存不足:换用7B/1.5B等小参数量化模型,或使用云服务(如AWS/Aliyun)。
注:完整代码示例和详细参数可参考Meta Llama3部署指南。
B1 CentOS 7 下通过 Anaconda3 使用 CPU 运行 DeepSeek 大模型的完整方案
综合性能优化与部署实践:
一、环境配置
-
创建专用 Conda 环境
conda create -n deepseek_cpu python=3.10 -y # Python 3.10 兼容性最佳 conda activate deepseek_cpu
-
安装 CPU 版 PyTorch
conda install pytorch torchvision torchaudio cpuonly -c pytorch # 官方 CPU 版本
-
安装 Hugging Face 工具链
pip install transformers accelerate sentencepiece # 基础推理库 pip install bitsandbytes # 4-bit 量化支持(降低显存需求)
二、模型部署
-
下载模型权重
- 从 Hugging Face 获取 DeepSeek 模型(如
deepseek-ai/deepseek-llm-7b
):git lfs install git clone https://huggingface.co/deepseek-ai/deepseek-llm-7b
- 从 Hugging Face 获取 DeepSeek 模型(如
-
量化加载(可选)
通过 4-bit 量化减少内存占用:from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("deepseek-llm-7b", device_map="cpu", load_in_4bit=True)
三、性能优化
-
内存管理
- 设置环境变量限制内存占用:
export OMP_NUM_THREADS=4 # 控制 OpenMP 线程数 export MKL_NUM_THREADS=4 # 优化 Intel MKL 库并行
- 设置环境变量限制内存占用:
-
批处理与缓存
from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepseek-llm-7b") inputs = tokenizer("你好,DeepSeek!", return_tensors="pt").to("cpu") outputs = model.generate(**inputs, max_new_tokens=50, do_sample=True)
四、验证与监控
-
资源占用检查
top -p $(pgrep -f python) # 监控 CPU 和内存使用
-
基准测试
使用time
命令测量推理延迟:time python inference.py # 示例脚本路径
注意事项
- 模型选择:7B/1.5B 等小参数模型更适合 CPU 运行,16B+ 需至少 64GB 内存。
- 量化权衡:4-bit 量化会降低约 5% 精度,但内存需求减少 50%。
- 替代方案:若性能不足,可考虑 Ollama 容器化部署(支持 DeepSeek 量化版本)。
完整代码示例参考 Hugging Face 文档。