当前位置: 首页 > news >正文

【深度学习】【语音】TTS, CM-TTS,TTS扩散模型,论文

CM-TTS: Enhancing Real Time Text-to-Speech Synthesis Efficiencythrough Weighted Samplers and Consistency Models

CM-TTS: 提高实时文本到语音合成效率

通过加权采样器和一致性模型
Xiang Li 1, Fan Bu 1, Ambuj Mehrish 2, Yingting Li 1, Jiale Han 1,
Bo Cheng 1, Soujanya Poria 2
1 北京邮电大学网络与交换技术国家重点实验室
2 新加坡科技设计大学
{lixiang2022,bufan,cindyyting,hanjl,chengbo}@bupt.edu.cn
{ambuj_mehrish,sporia}@sutd.edu.sg

摘要

神经文本到语音(TTS)系统在语音助手、电子学习和有声读物创建等方面有广泛应用。现代模型如扩散模型(Diffusion Models,DMs)的追求,有望实现高保真、实时语音合成。然而,扩散模型中多步采样的效率存在挑战。已有尝试将生成对抗网络(GANs)与扩散模型整合,通过近似去噪分布来加速推理,但这会因对抗训练而引入模型收敛问题。为解决这一问题,我们引入了一种基于一致性模型(CMs)的新型架构CM-TTS。借鉴连续时间扩散模型的理念,CM-TTS在无需对抗训练或预训练模型依赖的情况下,实现了顶级质量的语音合成,且所需步骤更少。我们进一步设计了加权采样器,通过动态概率将不同采样位置纳入模型训练,确保整个训练过程中的无偏学习。我们提出了一种实时梅尔频谱图生成一致性模型,并通过全面评估验证了其有效性。实验结果表明,

http://www.lryc.cn/news/420111.html

相关文章:

  • 【网络协议】网络劫持 - ARP_DNS欺骗篇
  • Linux 系统框架分析(一)
  • Leetcode 剑指 Offer II 090.打家劫舍 II
  • 上海冷链配送新篇章 华鼎冷链科技以卓越服务餐饮品牌
  • 学习鸿蒙-应用市场申请签名
  • LayUi插件
  • 使用tailwindcss轻松实现移动端rem适配
  • 2021-11-08 51单片机2位秒表启动清零
  • 谈基于大语言模型的图数据库路径检索
  • XHTML 简介
  • 驱动开发系列10 - Linux Graphics 图形栈介绍
  • Docker快速入门指南
  • VS Code中使用MSVC编译C++程序
  • 四数之和(LeetCode)
  • 学习使用备份软件BorgBackup
  • Java 实现合并两个有序链表:递归与迭代
  • 【每日刷题】Day98
  • 51单片机-LED实验二
  • 批发行业进销存-webview 读取NFC,会员卡 源码CyberWinApp-SAAS 本地化及未来之窗行业应用跨平台架构
  • 博弈dp,CF 731E - Funny Game
  • 基础知识:深入理解MongoDB、MySQL与Redis的应用与实践
  • Reids中List类型、Set类型、SortedSet类型的常用指令
  • K8S Ingress 常用配置
  • 【K8S】K8S架构及相关组件
  • 【MATLAB第108期】基于MATLAB的fast、vbsa、dynia、eet、glue、pawn、rsa敏感性分析模型合集(无目标函数)【更新中】
  • 【K8S】为什么需要Kubernetes?
  • 【Linux】Linux中查找字符串中的命令
  • 最新HTML设计搜索表单
  • JavaScript constructor原型原型继承
  • 使用Python+moviepy保存截取视频画面