只需要 1 分钟语音数据实现声音克隆
只需要 1 分钟语音数据实现声音克隆
GPT-SoVITS 是一个基于少量语音数据(1 分钟左右)即可训练出高质量 TTS(文本转语音)模型的开源项目,提供少样本语音克隆能力。目前该开源项目已经获得了 33.2k 的 Star!
它允许用户使用 5 秒的语音样本进行零样本 TTS 转换,并支持多语言推理,包括英语、中文、日语、韩语和粤语
🚀 特色功能
① 零样本 TTS:快速输入 5 秒语音,立即进行文本转语音转换。
② 少样本 TTS:通过 1 分钟的训练数据来微调模型,实现更真实的语音转换效果。
③ 跨语言支持:支持多种语言的推理。
🔗 开源地址
支持 Windows、Linux 和 macOS,可通过 Conda 或 Docker 进行安装。
开源地址:
https://github.com/RVC-Boss/GPT-SoVITS
此外,项目提供了图形化 WebUI 工具,支持音频切分、自动训练集生成以及 ASR 转录等辅助工具,便于用户构建和训练自己的语音模型。