当前位置：首页 > news >正文

平替heygen的开源音频克隆工具—OpenVoice

news 2025/9/11 18:58:17

截止2024-1-26日，全球范围内语音+唇形实现最佳的应该算是heygen，可惜不但要魔法，还需要银子；那么有没有可以平替的方案，答案是肯定的。

方案1：

采用国内星火大模型训练自己的声音，然后再用下面工具对唇形：

大漠/better_wav2lip (gitee.com)

方案2：

使用开源算法训练声音：
openvoice: OpenVoice，这是一种多功能的即时语音克隆方法，只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音 (gitee.com)

然后再使用方案1中的唇形生成工具。

[17]安装

克隆这个仓库，并运行

conda create -n openvoice python=3.9 conda activate openvoice conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia pip install -r requirements.txt
复制

从这里[18] 下载检查点，并将其解压到 checkpoints 文件夹。

[18] 这里: https://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip

[19]使用方法

1. 灵活的声音风格控制。 请查看 demo_part1.ipynb[20] 以了解如何利用OpenVoice对克隆声音进行灵活的风格控制的示例。

2. 跨语言声音克隆。 请查看 demo_part2.ipynb[21] 以了解MSML训练集中见过或未见过的语言的示例。

3. Gradio 演示。 使用 python -m openvoice_app --share[22] 启动一个本地的Gradio演示。

4. 高级使用。 基础发声模型可以替换为用户喜欢的任何语言和风格的模型。请使用在演示中展示的 se_extractor.get_se 函数提取新基础发声者的音色嵌入。

5. 生成自然语音的提示。 有许多单声道或多声道的TTS方法可以生成自然语音，并且容易获得。通过简单地将基础发声模型替换为你喜欢的模型，你可以将语音的自然度推向你所期望的水平。

[23]路线图

• 推理代码• 音色转换模型• 多风格基础发声模型• 多风格和多语言演示• 其他语言的基础发声模型• 更自然的EN基础发声模型

[24]引用

@article{qin2023openvoice, title={OpenVoice: Versatile Instant Voice Cloning}, author={Qin, Zengyi and Zhao, Wenliang and Yu, Xumin and Sun, Xin}, journal={arXiv preprint arXiv:2312.01479}, year={2023} }
复制