当前位置：首页 > news >正文

尝试着在Stable Diffusion里边使用SadTalker进行数字人制作

news 2025/9/16 15:04:30

首先需要标明的是，我这里是图片说话类型，而且是看了知识星球AI破局俱乐部大航海数字人手册进行操作的。写下这篇文章是防止我以后遗忘。
我使用的基础软件是Stable Diffusion，SadTalker是作为插件放进来的，需要注意的是这对自己的电脑GPU要求比较高，至少需要8G，至少我的电脑是8G显存。

下载并安装ffmpeg

下载并安装ffmpeg，这一步的作用是语音格式的各种转换，虚拟数字人能开口说话，需要我们上传自己的语音，如果格式不符合会自动转换。
到https://ffmpeg.org/download.html选择自己操作系统然后选择下载格式。
在这里插入图片描述

选择下载的类型，我选择全量版的。
在这里插入图片描述

然后我解压到D:\VideoSoft目录下。
在这里插入图片描述

需要配置环境变量了。
Windows+r同时按下，然后输入SYSTEMPROPERTIESADVANCED，然后点击确定。

在这里插入图片描述

然后选择高级，点击环境变量。
在这里插入图片描述

选择Path，然后点击编辑。
在这里插入图片描述

然后点击新建。
在这里插入图片描述

把你上边解压的目录找到bin那级的目录放到环境变量里边，然后点击确定。
在这里插入图片描述

把上一级窗口也点击确定。
在这里插入图片描述

系统属性这一级窗口也点击确定。
在这里插入图片描述

然后同时按下Windows+r，输入cmd然后按下确定键。
在这里插入图片描述

然后输入ffmpeg -version，要是显示出来很多内容，那么就是正常安装好了。
在这里插入图片描述

Stable Diffusion安装插件

我使用的Stable Diffusion是秋叶版的。
在这里插入图片描述

下载扩展

点击扩展，选择从网址安装，然后把git仓库https://github.com/OpenTalker/SadTalker.git放入指定的位置，然后点击安装。
在这里插入图片描述

发现报错如下：

GitCommandError: Cmd('git') failed due to: exit code(128) cmdline: git clone -v -- https://github.com/OpenTalker/SadTalker.git D:\sd-webui-aki\sd-webui-aki-v4.1\tmp\SadTalker stderr: 'Cloning into 'D:\sd-webui-aki\sd-webui-aki-v4.1\tmp\SadTalker'... fatal: unable to access 'https://github.com/OpenTalker/SadTalker.git/': Failed to connect to github.com port 443 after 21039 ms: Couldn't connect to server '

在这里插入图片描述

我到https://github.com/OpenTalker/SadTalker里边，下载源代码的zip包。
在这里插入图片描述

然后把压缩包解压至Stable Diffusion启动器所在的目录下一级目录extensions里边，目录如下所示。
在这里插入图片描述

checkpoint文件下载和配置，

需要到https://github.com/OpenTalker/SadTalker/releases，下载以下四个文件。
在这里插入图片描述

然后当前网页上边，往下滑动，点开Assets，然后下载红圈中的文件。
在这里插入图片描述

将上边下载好的文件放入到自己D:\sd-webui-aki\sd-webui-aki-v4.1\extensions\SadTalker\checkpoints里边，很有可能，你没有checkpoints这个目录，自己新建一个就行了。
在这里插入图片描述

另外hub.zip需要解压。
在这里插入图片描述

下载GFPGAN模型

到https://drive.google.com/file/d/19AIBsmfcHW6BRJmeqSFlG5fL445Xmsyi下载文件解压到D:\sd-webui-aki\sd-webui-aki-v4.1\extensions\SadTalker里边。
在这里插入图片描述

接下来就是重新启动Stable Diffusion进行画图了。点击SadTalker，然后上传图片，之后上传音频，然后点击生成。
在这里插入图片描述

需要等待。
在这里插入图片描述

生成之后如下图：
在这里插入图片描述

无法上传视频，没有办法展示效果了。

我是知识星球上约有3万人的AI破局俱乐部初创合伙人，我的微信号是zhaoseaside，欢迎大家加我，相互学习AI知识和个人IP知识，毕竟这是未来两大风口。
大家要是需要文档中的文件，可以加我备注SadTalker，我用百度网盘发给你。

http://www.lryc.cn/news/286202.html

相关文章：

链路聚合原理与配置

第8章通信网络安全

L1-092 进化论(Java)

SpringBoot 源码解析5：ConfigurationClassPostProcessor整体流程和@ComponentScan源码分析

一.初识Linux 1-3操作系统概述Linux初识虚拟机介绍

Eureka整合seata分布式事务

华为云磁盘性能指标(参考)

利用OpenGL图形库实现人物动画移动效果

History命令解释，及一个相关的bash脚本（如何编写脚本程序从记录文件中提取history命令）

apisix 单机部署 linux

Redis 面试题 | 06.精选Redis高频面试题

2008年苏州大学837复试机试C/C++

MySQL笔记-information_schema库中COLUMNS表的一些笔记

归并排序模板

【NVIDIA】Jetson Orin Nano系列：安装 Qt6、firefox、jtop、flameshot

Fastapi+Jsonp实现前后端跨域请求

MacOS受欢迎的数据库开发工具 Navicat Premium 15 中文版

helm---自动化一键部署

求助帖（setiosflags）的左右对齐问题:

升级8.0：民生手机银行的“内容解法”

Kubernetes多租户实践

【GEE】GEE反演地表温度相关问题说明（空洞、Landsat9数据集等）

【蓝桥备赛】数组分割——组合数学？

iphone5s基带部分电源部分主主电源供电及

【每日一题】按分隔符拆分字符串

spawn_group_template | spawn_group | linked_respawn

软考系分之计算机网络规划设计、综合布线、RAID和网络存储等

使用ElEment组件实现vue表单校验空值

processing集训day01

java面试——juc篇