当前位置：首页 > news >正文

干货分享|如何使用Stable Diffusion打造会说话的数字人？

news 2025/8/22 11:14:34

数字人已不是什么新鲜名词了。在许多领域，尤其是媒体和娱乐领域，经常可以看到卡通形象的人物或逼真的虚拟主持人。在Stable Diffusion中，我们可以上传一段录制好的音频文件，然后使用SadTalker插件，将音频和图片相结合，让图片上的角色开口说话。

在 WebUI中单击 “SadTalker”选项卡，在 “上传图像”窗口中上传角色图片，在“上传音频或TTS”窗口中上传音频文件，如图所示。

在右侧的“设置”窗口中选择脸部模型的分辨率，勾选“使用GFPGAN增强面部” 复选框，然后单击“生成”按钮，如图所示。

提示:

上传的音频时长决定了生成视频的时长，在绘世启动器进程窗口的底部可以查看生成进度。

视频生成完毕后，我们可以在下方的窗口中预览视频效果。单击WebUI上方的“设置”选项卡，在左侧的列表中单击“SadTalker”，就能看到视频文件的输出路径，如图所示。

相对于其他插件来说， SadTalker的配置较为复杂。如果配置出现问题导致在输出路径中找不到视频文件，则可以单击预览窗口右上角的按钮手动保存处理好的视频文件，如图所示。

在“预处理”选项组中有5 个选项，其中“裁剪”和“裁剪后扩展”选项会把上传的原图裁剪成只留下角色的面部，让头部运动看起来更加自然，如图所示。

“完整”选项不对参考图进行裁剪，因此当角色的头部运动较大时，可能出现脖子区域撕裂的问题。此时需要勾选“静止模式”复选框，以减少角色的头部运动。“缩放”选项让参考图的背景和角色的身体产生缩放和平移运动，脖子区域的撕裂问题仍然存在，并且运动的效果也不够自然。另外，选择“填充至完整”选项会用参考图填充头部以外的区域，但如果参考图的宽高比不是1:1，可能会出现严重的画面撕裂，如图所示。