当前位置：首页 > news >正文

【实操GPT-SoVits】声音克隆模型图文版教程

news 2025/7/12 16:50:01

项目github地址：https://github.com/RVC-Boss/GPT-SoVITS.git
官方教程：https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/tkemqe8vzhadfpeu
本文旨在迅速实操GPT-SoVits项目，不阐述技术原理（后期如果有时间研究，争取写个学习笔记）。
windows用户可直接使用整合包。
感谢书生·浦语提供的服务器资源。

一、准备工作

下载源项目　

git clone https://github.com/RVC-Boss/GPT-SoVITS.git

安装依赖　

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

下载预训练模型　

https://huggingface.co/lj1995/GPT-SoVITS/tree/main　

或者　

iCloud Drive - Apple iCloud　

启动webUI页面　

python webui.py

二、实操-克隆林黛玉

我使用的语音素材是干声，这里就不使用UVR5分离背景音处理。直接进行语音切片，下次有时间写个补充（急着下班回家）。　

关于原素材的来源：剪映剪辑后导出音频。　

2.1 素材切片

在源码目录内新建文件夹，分别用于存放原素材和切片后的素材。　

配置文件夹后，点击音频切割　

切割结束，我们看下文件夹　

2.2 切片素材降噪

对切片的素材进行语音降噪。直接点击"启动语音降噪器"进行处理。

提示降噪完成。我们去output目录下看下输出。　

2.3 批量ASR

启动批量ASR，目录设置为刚刚批量片段降噪处理后的文件夹。　

任务完成，我们去目录里看下生成了什么　

生成了一个.list文件，精确度还是蛮高的。　

2.4 语音转文本校对

启动在9871端口，我们点击过去。　

对左侧的text进行大致的校对，保证语音和文本对应（删除明显乱码等）。太短的音频可以选择删除，或者与其他音频片段合并。最终保存文件。

2.5 训练数据格式化

设置model name，以及两个文件夹后依次点击3个按钮，或者点击"一键"三连按钮。　

提示进程结束无报错后，我们看下logs文件夹，如果某个文件夹是空的，说明格式化失败了，需要重新调整素材再次处理。　

2.6 微调

我的原素材时长较短，这里就使用默认参数。素材较长可以增加训练轮次。　

依次进行"SoVITS traning"和"GPT training"，等待完成。

训练完成后，我们可以在以下2个文件夹（之前选择的v2版本：SoVITS_weights_v2、GPT_weights_v2）内看到保存的模型。

2.7 推理

切换到"inference"，先刷新模型列表，2个模型都选择数字最大的那个。勾选"启用并行"。最后点击"open tts inference webUI"。　

服务启动后我们会看到如下页面。

辅助参考音频可以不上传。调整"推理设置"至趋近于自己想要的角色语音效果。

三、推理结果展示

这花盆之中，置有一株青菜，倒也别致。你瞧它，叶片儿青翠欲滴，宛若碧玉雕琢，倒有一丝不染尘埃之清逸。那菜茎亭亭玉立，于这方寸之地，亦能展现出勃勃生机，恰如那闺阁中的女子，虽身处深宅，却难掩其清新脱俗之气。只是不知，它在这花盆之中，是否也会如我一般在夜深人静之时，暗自神伤，思念起那广袤田野的自由来呢?　

随机掉落卡片+语音播放