当前位置: 首页 > news >正文

【深度学习】【语音TTS】vits 论文,Variational Inference Text-to-Speech(1)

代码:https://github.com/jaywalnut310/vits
论文:https://arxiv.org/abs/2106.06103

文章目录

    • 摘要
    • 1. 引言
    • 2. 方法
      • 2.1. 变分推理
        • 2.1.1. 概述
        • 2.1.2. 重构损失
        • 2.1.3. KL散度
      • 2.2. 对齐估计
        • 2.2.1. 单调对齐搜索
        • 2.2.2. 从文本预测时长
      • 2.3. 对抗训练
      • 2.4. 最终损失
      • 2.5. 模型架构
        • 2.5.1. 后验编码器
        • 2.5.2. 先验编码器
        • 2.5.3. 解码器
        • 2.5.4. 判别器
        • 2.5.5. 随机时长预测器
    • 3. 实验
      • 3.1. 数据集
      • 3.2. 预处理
      • 3.3. 训练
      • 3.4. 比较实验设置
    • 4. 结果
      • 4.1. 语音合成质量
      • 4.2. 多说话人文本到语音的泛化能力
      • 4.3. 语音变化
      • 4.4. 合成速度
    • 5. 相关工作
      • 5.1. 端到端文本到语音
      • 5.2. 变分自编码器
      • 5.3. 非自回归文本到语音中的时长预测
    • 6. 结论

摘要

最近提出了几种支持单阶段训练和并行采样的端到端文本到语音(TTS)模型,但其样本质量不如两阶段TTS系统。在这项工作中,我们提出了一种并行端到端TTS方法,其生成的音频比当前的两阶段模型更自然。我们的方法采用了变分推理,并结合了正规化流和对抗训练过程,提高了生成模型的表达能力。我们还提出了一个随机时长预测器,用于从输入文本中合成具有不同节奏的语音。通过对潜在变量的不确定性建模和随机时长预测器,我们的方法能够表达文本输入可以以多种方式、不同音高和节奏发音的自然一对多关系。在LJ Speech(单一说话人数据集)上的主观人类评估(平均意见得分,MOS)显示,我们的方法优于当前最好的公开TTS系统,并且达到了与真实音频相当的MOS。

1. 引言

文本到语音(TTS)系统通过若干组件从给定文本合成原始语音波形。随着深度神经网络的快速发展,TTS系统流水线已简化为两个阶段的生成建模,除了文本预处理如文本规范化和音素化。第一阶段是从预处理的文本生成中间语音表示,如mel-spectrogram(Shen et al., 2018)或语言特征(Oord et al., 2016),第二阶段是生成以中间表示为条件的原始波形(Oord et al., 2016;Kalchbrenner et al., 2018)。每个两阶段流水线的模型是独立开发的。

基于神经网络的自回归TTS系统已经展示了合成逼

http://www.lryc.cn/news/416810.html

相关文章:

  • javascript中 window 相关知识点以及代码演示
  • 企业社会责任(CSR)国际标准有哪些?
  • The C programming language (second edition,KR) exercise(CHAPTER 7)
  • 面向服务架构(SOA)介绍
  • 关于使用Next遇到的一些新特性
  • Python 爬虫入门(七):requests 库的使用「详细介绍」
  • 两端约束的最优控制问题及其数值解法
  • 电磁仿真--基本操作-CST-(6)-导线周围磁场
  • 用Java手写jvm之模拟方法调用指令invokexxx和方法返回指令xreturn
  • 自定义枚举类型检查
  • 探索四川财谷通抖音小店:安全与信赖的购物新体验
  • systemd-manage系统服务图形化管理工具使用教程
  • 移除元素(LeetCode)
  • 代码随想录27期|Python|Day38|509斐波那契|738.爬楼梯|746.746. 使用最小花费爬楼梯
  • windows docker容器部署前端项目
  • 科普文:微服务之全文检索ElasticSearch 集群的搭建
  • QtObject是干什么的?
  • 锐捷RCNA | 远程登录与路由技术
  • 实现Vue-tiny-diff算法
  • 正则表达式测试工具
  • Github 2024-08-02 开源项目日报 Top9
  • 重生之我 学习【数据结构之顺序表(SeqList)】
  • 前端day4-表单标签
  • vue3-print-nb 表格打印分页,第一页有空白的情况出现解决方法(两种:一种原生,一种基于element表格)
  • 搜维尔科技:借助 Xsens中的远程人体录制功能,可以在任何位置以无限量同时捕捉无限数量演员的身体动作
  • 2024/08 近期关于AI的阅读和理解[笔记]
  • SmartEDA:解锁设计新境界,从工具到灵感的飞跃之旅!
  • 解决Minizip压缩后解压时的头部错误问题
  • 数据库表水平分割和垂直分割?
  • Linux源码阅读笔记18-插入模型及删除模块操作