当前位置: 首页 > news >正文

【深度学习】【语音TTS】OpenVoice: Versatile Instant Voice Cloning,论文

https://github.com/myshell-ai/OpenVoice

https://arxiv.org/abs/2312.01479

文章目录

      • 摘要
      • 1 引言
      • 2 方法
        • 2.1 直观思路
        • 2.2 模型结构
        • 2.3 训练细节
      • 3 结果
      • 4 结论

摘要

我们介绍了OpenVoice,一种多功能的即时语音克隆方法,只需参考说话者的短音频片段即可复制其声音,并生成多语言的语音。OpenVoice在解决以下领域开放挑战方面取得了重要进展:1)灵活的声音风格控制。OpenVoice允许对声音风格进行细粒度控制,包括情感、口音、节奏、停顿和语调,除了复制参考说话者的音色外。这些声音风格并不直接复制并受限于参考说话者的风格。之前的方法在克隆后无法灵活操控声音风格。2)零-shot跨语言语音克隆。OpenVoice实现了对未包含在大规模说话者训练集中的语言的零-shot跨语言语音克隆。与之前通常需要广泛的大规模说话者多语言(MSML)数据集的做法不同,OpenVoice可以在没有该语言的大规模说话者训练数据的情况下,将声音克隆到新语言中。OpenVoice在计算上也很高效,其成本是商业API的数十分之一,而这些API甚至表现更差。为了促进该领域的进一步研究,我们公开了源代码和训练模型。我们还在演示网站上提供了定性结果。在公开发布之前,OpenVoice的内部版本在2023年5月至10月期间被全球用户使用了数千万次,作为MyShell.ai的后台服务。

在这里插入图片描述

1 引言

即时语音克隆(IVC)在文本到语音(TTS)合成中意味着TTS模型可以在不给参考说话者额外训练的情况下,仅凭短

http://www.lryc.cn/news/412598.html

相关文章:

  • 一六零、云服务器开发机配置zsh
  • [ZJCTF 2019]NiZhuanSiWei1
  • 【网络安全】副业兼职日入12k,网安人不接私活就太可惜了!
  • [STM32]HAL库实现自己的BootLoader-BootLoader与OTA-STM32CUBEMX
  • 鸿萌数据备份服务:中小型企业如何策划及实施云备份方案
  • x264 编码过程中延迟逻辑分析
  • 前端框架 element-plus 发布 2.7.8
  • 2024.8.1(前端服务器的配置以及tomcat环境的配置)
  • 使用 宝塔面板 部署 语料库php网站
  • springboot农产品报价系统-计算机毕业设计源码37300
  • 食源送系统项目的测试
  • JS解构赋值
  • 多多OJ评测系统 前端项目环境初始化 安装Vue脚手架 引入Arco Design组件
  • OceanBase 配置项系统变量实现及应用详解(4):新增系统变量
  • `CAUTION: request is not finished yet!`
  • 科研绘图系列:R语言GWAS曼哈顿图(Manhattan plot)
  • DjangoRF-11-创建testcases子应用--任务模块
  • 服务器数据恢复—SAN环境下LUN被重复映射导致写操作不互斥的数据恢复案例
  • Linux系统安全加固:从防火墙到SELinux策略
  • 排序算法:归并排序,golang实现
  • CSS 的工作原理
  • 买完就后悔?只需几步教你 Apple 怎么申请退款
  • 【保卫战】休闲小游戏 链游
  • 如何构建自己的交易机器人开发环境
  • 解决WordPress文章引用的图片不显示问题
  • 商业银行国际结算规模创新高,合合信息AI助力金融行业智能处理多版式文档
  • 数字芯片设计验证经验分享:将ASIC IP核移植到FPGA上——更新概念并推动改变以完成充满挑战的任务!
  • 【Linux】Linux下的日志(日常级)
  • 手把手教你如何在Linux上轻松安装Python,告别编程入门难题
  • XSS-labs靶场(超详解)1-20关——附原码