下面给出主流开源实时互动数字人大模型的「一键可复制」部署配置清单,覆盖 HunyuanVideo-Avatar、SkyReels-A3、LAM、Sonic、EchoMimic 五款。
每条均包含:①最小/推荐硬件;②系统与驱动;③依赖安装脚本;④模型下载路径;⑤启动命令;⑥常见坑与性能调优参数。
你可以直接照抄脚本在 单卡 4090(24 GB) 到 8×A100(640 GB) 之间横向扩展。
1️⃣ HunyuanVideo-Avatar(腾讯)
维度 | 最小 | 推荐 |
---|
GPU 显存 | 24 GB(720p, 30 f, 14 s) | 80 GB(4 K 长镜头) |
CPU / 内存 | 8 Core / 32 GB | 32 Core / 128 GB |
系统 / CUDA | Ubuntu 22.04 + CUDA 12.4 | 同左 |
带宽 | 下载 50 GB 权重 | 同左 |
2️⃣ SkyReels-A3(昆仑万维)
维度 | 最小 | 推荐 |
---|
GPU 显存 | 16 GB(512×768, 30 f) | 48 GB(1080p, 120 f) |
系统 / 驱动 | Ubuntu 20.04+ / CUDA 11.8+ | 同左 |
磁盘 | 50 GB 权重 + 20 GB 缓存 | NVMe 1 TB |
3️⃣ LAM(阿里通义 3D Avatar)
维度 | 最小 | 推荐 |
---|
GPU 显存 | 12 GB(单图→3D 重建) | 24 GB(WebGL 实时推流) |
依赖 | CUDA 11.7 + PyTorch 2.1 | 同左 |
一键脚本
conda create -n lam python=3.9 -y && conda activate lam
pip install torch==2.1.0+cu117 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
pip install -r requirements.txt
git clone https://github.com/alibaba/large-avatar-model.git
cd large-avatar-model
bash scripts/download_weights.sh
python web_demo.py --port 7860 --share
WebGL 推流
浏览器打开 http://<ip>:7860
,上传 1 张正脸照即可 30 s 内开始实时对话。
4️⃣ Sonic(全身 Audio-Driven)
维度 | 最小 | 推荐 |
---|
GPU 显存 | 6 GB(半身 512×512) | 24 GB(全身 1024×1024) |
系统 | Win / Linux / macOS | 同左 |
5️⃣ EchoMimic(阿里通义 2D 口型)
维度 | 最小 | 推荐 |
---|
GPU 显存 | 6 GB(半身 256×256) | 12 GB(512×512 实时) |
速度 | 1 s 生成 1 s 视频 | 实时 30 fps(RTX 4090) |
一键脚本
conda create -n echo python=3.8 -y && conda activate echo
pip install torch==1.13.1+cu117 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
pip install -r requirements.txtgit clone https://github.com/alibaba-damo/EchoMimic.git
cd EchoMimic
wget https://huggingface.co/alibaba-damo/EchoMimic/resolve/main/echo.pth -P checkpoints/
python app.py --listen 0.0.0.0:7860 --half
6️⃣ 云原生 & 多机并行小贴士
A. Docker 统一镜像
docker run --gpus all -it --rm \-v $(pwd)/weights:/workspace/weights \-p 7860:7860 \hunyuanvideo/avatar:cu124-pt240 \python app.py --host 0.0.0.0 --port 7860
B. Kubernetes 弹性伸缩
apiVersion: apps/v1
kind: Deployment
metadata:name: avatar-inference
spec:replicas: 4selector:matchLabels: { app: avatar }template:spec:containers:- name: avatarimage: hunyuanvideo/avatar:cu124-pt240resources:limits:nvidia.com/gpu: 1memory: 64Gi
C. 显存不足时的通用「三板斧」
--fp8
或 --half
精度--res 544x960
降低分辨率--steps 20
减少扩散步数
7️⃣ 故障速查表
现象 | 根因 | 解决 |
---|
OOM | 模型未卸载 / 分辨率过高 | 加 --offload , --res 544x960 |
黑屏 / 绿屏 | FFmpeg 编码器冲突 | 设置 export FFMPEG_PATH=/usr/bin/ffmpeg |
唇同步错位 | 音频采样率 ≠ 16 kHz | ffmpeg -ar 16000 -ac 1 -i in.wav out.wav |
Gradio 不能公网访问 | 未加 --share | 或自行 Nginx 反代 |
一句话总结
24 GB 显存单卡即可跑通 90 % 开源实时数字人模型;
真正瓶颈已不在“生成”,而在 ASR/LLM/TTS 全链路延迟。
把上述脚本存成 deploy.sh
,直接 bash deploy.sh
即可在 10 分钟内上线你自己的数字人工厂。