当前位置: 首页 > news >正文

【实操GPT-SoVits】声音克隆模型图文版教程

  1. 项目github地址:https://github.com/RVC-Boss/GPT-SoVITS.git
  2. 官方教程:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/tkemqe8vzhadfpeu
  3. 本文旨在迅速实操GPT-SoVits项目,不阐述技术原理(后期如果有时间研究,争取写个学习笔记)。
  4. windows用户可直接使用整合包。
  5. 感谢书生·浦语提供的服务器资源。

一、准备工作

下载源项目 

git clone https://github.com/RVC-Boss/GPT-SoVITS.git

安装依赖 

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

下载预训练模型 

https://huggingface.co/lj1995/GPT-SoVITS/tree/main 

或者 

iCloud Drive - Apple iCloud 

启动webUI页面 

python webui.py

二、实操-克隆林黛玉

我使用的语音素材是干声,这里就不使用UVR5分离背景音处理。直接进行语音切片,下次有时间写个补充(急着下班回家)。 

关于原素材的来源:剪映剪辑后导出音频。 

2.1 素材切片

在源码目录内新建文件夹,分别用于存放原素材和切片后的素材。 

配置文件夹后,点击音频切割 

切割结束,我们看下文件夹 

 

2.2 切片素材降噪

对切片的素材进行语音降噪。直接点击"启动语音降噪器"进行处理。

 

提示降噪完成。我们去output目录下看下输出。 

2.3 批量ASR

启动批量ASR,目录设置为刚刚批量片段降噪处理后的文件夹。 

任务完成,我们去目录里看下生成了什么 

生成了一个.list文件,精确度还是蛮高的。 

2.4 语音转文本校对

启动在9871端口,我们点击过去。 

对左侧的text进行大致的校对,保证语音和文本对应(删除明显乱码等)。太短的音频可以选择删除,或者与其他音频片段合并。最终保存文件。

 

 

2.5 训练数据格式化

设置model name,以及两个文件夹后依次点击3个按钮,或者点击"一键"三连按钮。 

提示进程结束无报错后,我们看下logs文件夹,如果某个文件夹是空的,说明格式化失败了,需要重新调整素材再次处理。 

2.6 微调

我的原素材时长较短,这里就使用默认参数。素材较长可以增加训练轮次。 

依次进行"SoVITS traning"和"GPT training",等待完成。

 

训练完成后,我们可以在以下2个文件夹(之前选择的v2版本:SoVITS_weights_v2、GPT_weights_v2)内看到保存的模型。

 

2.7 推理

切换到"inference",先刷新模型列表,2个模型都选择数字最大的那个。勾选"启用并行"。最后点击"open tts inference webUI"。 

服务启动后我们会看到如下页面。

 

辅助参考音频可以不上传。调整"推理设置"至趋近于自己想要的角色语音效果。

 

三、推理结果展示

这花盆之中,置有一株青菜,倒也别致。你瞧它,叶片儿青翠欲滴,宛若碧玉雕琢,倒有一丝不染尘埃之清逸。那菜茎亭亭玉立,于这方寸之地,亦能展现出勃勃生机,恰如那闺阁中的女子,虽身处深宅,却难掩其清新脱俗之气。只是不知,它在这花盆之中,是否也会如我一般在夜深人静之时,暗自神伤,思念起那广袤田野的自由来呢? 

随机掉落卡片+语音播放

 

四、api调用

运行api_v2.py成功后,接口文档如下图所示。/tts方法就是我们需要调用。 

 

 

http://www.lryc.cn/news/501329.html

相关文章:

  • 用HTML和CSS实现3D圣诞树效果
  • Burp入门(10)-IP伪造插件
  • Mac软件推荐
  • 实验14 RNN的记忆能力和梯度爆炸实验
  • LeetCode面试题04 检查平衡性
  • oracle归档模式下的快速热备方法-适合小库
  • 【机器学习】【分子属性预测】——python读取.tar.gz文件(以OC22数据集为例)
  • Qt中禁止或管理任务栏关闭窗口的行为
  • docker的网络类型和使用方式
  • 二维立柱图|积水类问题
  • vue前端实现导出页面为word(两种方法)
  • 22. Three.js案例-创建旋转的圆环面
  • Elasticsearch:使用阿里 infererence API 及 semantic text 进行向量搜索
  • Linux WEB服务器的部署及优化
  • 人工智能大模型LLM开源资源汇总(持续更新)
  • 目标跟踪算法:SORT、卡尔曼滤波、匈牙利算法
  • Java版-图论-拓扑排序与有向无环图
  • GTC2024 回顾 | 优阅达携手 HubSpot 亮相上海,赋能企业数字营销与全球业务增长
  • eclipse启动的时候,之前一切很正常,但突然报Reason: Failed to determine a suitable driver class的解决
  • _tkinter.TclError: can‘t find package tkdnd Unable to load tkdnd library.解决办法
  • VBA高级应用30例应用在Excel中的ListObject对象:向表中添加注释
  • folly库Conv类型转换源码解析
  • UE4 骨骼网格体合并及规范
  • Java版企业电子招标采购系统源业码Spring Cloud + Spring Boot +二次开发+ MybatisPlus + Redis
  • 通过源码⼀步⼀步分析 ArrayList 扩容机制
  • 源码分析之Openlayers中默认Controls控件渲染原理
  • 中间件的分类与实践:从消息到缓存
  • 京东e卡 h5st 4.96
  • 《CSS 知识点》滚动条仅在 hover 时才显示(宽度不改变)
  • 手里有病理切片+单细胞测序的数据,如何开展医工交叉的研究?