当前位置: 首页 > news >正文

平替heygen的开源音频克隆工具—OpenVoice

截止2024-1-26日,全球范围内语音+唇形实现最佳的应该算是heygen,可惜不但要魔法,还需要银子;那么有没有可以平替的方案,答案是肯定的。

方案1:

采用国内星火大模型训练自己的声音,然后再用下面工具对唇形:

大漠/better_wav2lip (gitee.com)

方案2:

使用开源算法训练声音:
openvoice: OpenVoice,这是一种多功能的即时语音克隆方法,只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音 (gitee.com)

然后再使用方案1中的唇形生成工具。

[17]安装

克隆这个仓库,并运行

conda create -n openvoice python=3.9 conda activate openvoice conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia pip install -r requirements.txt
复制

从 这里[18] 下载检查点,并将其解压到 checkpoints 文件夹。

[18] 这里: https://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip

[19]使用方法

1. 灵活的声音风格控制。 请查看 demo_part1.ipynb[20] 以了解如何利用OpenVoice对克隆声音进行灵活的风格控制的示例。

2. 跨语言声音克隆。 请查看 demo_part2.ipynb[21] 以了解MSML训练集中见过或未见过的语言的示例。

3. Gradio 演示。 使用 python -m openvoice_app --share[22] 启动一个本地的Gradio演示。

4. 高级使用。 基础发声模型可以替换为用户喜欢的任何语言和风格的模型。请使用在演示中展示的 se_extractor.get_se 函数提取新基础发声者的音色嵌入。

5. 生成自然语音的提示。 有许多单声道或多声道的TTS方法可以生成自然语音,并且容易获得。通过简单地将基础发声模型替换为你喜欢的模型,你可以将语音的自然度推向你所期望的水平。

[23]路线图

• 推理代码• 音色转换模型• 多风格基础发声模型• 多风格和多语言演示• 其他语言的基础发声模型• 更自然的EN基础发声模型

[24]引用

@article{qin2023openvoice, title={OpenVoice: Versatile Instant Voice Cloning}, author={Qin, Zengyi and Zhao, Wenliang and Yu, Xumin and Sun, Xin}, journal={arXiv preprint arXiv:2312.01479}, year={2023} }
复制

[25]许可

此仓库采用创意共享署名-非商业性4.0国际许可证,禁止商业使用。MyShell保留检测音频是否由OpenVoice生成的能力,无论是否添加了水印。

辅助工具:就是换脸工具2.0,大部分用户没有GPU,所以单张照片生成视频也是可以的。

civilpy:借助各大模型的优点生成原创视频(真人人声)Plus0 赞同 · 0 评论文章​编辑

civilpy:AI人脸替换工具离线版v2.01 赞同 · 9 评论文章​编辑

http://www.lryc.cn/news/288274.html

相关文章:

  • 【自动化测试】读写64位操作系统的注册表
  • php二次开发股票系统代码:腾讯股票数据接口地址、批量获取股票信息、转换为腾讯接口指定的股票格式
  • uniapp 在static/index.html中添加全局样式
  • acrobat调整pdf的页码和实际页码保持一致
  • ctfshow-命令执行
  • 【Python基础015】集合的用法
  • 解密神经网络:深入探究传播机制与学习过程
  • linux usb设备网络共享 usb/ip
  • 如何通过系统命令排查账号安全?
  • ​《WebKit 技术内幕》学习之九(3): JavaScript引擎
  • IS-IS:05 ISIS开销值和协议优先级
  • 群辉NAS的远程访问
  • 构建未来学堂:在线教育系统开发技术实践
  • EMQX 单机及集群搭建
  • SpringMVC-对静态资源的访问
  • 形参和实参
  • [git] windows系统安装git教程和配置
  • php的性能要比node.js高很多吗?
  • [极客大挑战 2019]BabySQL1
  • 机器视觉在OCR字符检测的应用
  • 讲清楚浅拷贝和深拷贝
  • [足式机器人]Part2 Dr. CAN学习笔记- 最优控制Optimal Control Ch07
  • RedisInsight详细安装教程
  • maven组件升级报错经验汇总
  • JS 中的 async 与 await
  • SQL 系列教程(六)
  • CocoaPods的安装和使用
  • Linux下软件安装的命令【RPM,YUM】及常用服务安装【JDK,Tomcat,MySQL】
  • 【linux】-telnet服务安装
  • 安卓开发——Activity及常用布局和控件的使用