当前位置: 首页 > news >正文

UnivNet论文分析(20210615)

面对问题:

1.大部分声码器采用带限mel谱生成波形,此时没有高频信息;
2.如果将高频信息输入,又会导致过平滑问题,频谱不够清晰;【个人可能原因是网络处理不好】

本文尝试采用判别器解决该问题,可保证高频细节。

本文方案:

1.提了采用LVC(局部变量卷积)核的生成器架构;

2.提了输入为频谱的判别器结构;

生成器:

输入为mel谱和随机噪声。

LVC的核由核预测器确定,实现高效的局部信息捕捉。LVC在参考文献[14]提出。

GAU[24]:增强非线性能力;

判别器架构:

上面为所提频域判别器(包括不同参数配置的stft)。下面为hifigan的mpwd。

采用mpwd的目的是改善时域细节。

训练loss:

采用GANloss和重构loss

实验结果

消融实验:

总的看来,MRSD/MPWD的影响大于LVC和GAU;还是训练方法影响大
MPWD:影响最大,0.77分;加上MSWD效果更差了?

图3结果表明:
当去除MRSD后,频谱会导致过平滑,特别是高频;那就是频域的MRSD,可以解决频谱平滑现象;

下表中,据说parallel wavegan的打分较低,且有可听见的金属音:

http://www.lryc.cn/news/613650.html

相关文章:

  • 为何毫米波需要采用不同的DPD方法?如何量化其值?
  • 机器学习之随机森林(Random Forest)实战案例
  • OpenAI 开源模型 GPT-OSS深度拆解:从1170亿参数到单卡部署,重构AI开源生态
  • Java面试宝典:类加载
  • 敏捷总结-上
  • 智能制造的中枢神经工控机在自动化产线中的关键角色
  • C++的入门学习
  • TCP粘包问题详解与解决方案
  • 如何在 Ubuntu 24.04 中永久更改主机名
  • MySQL面试题及详细答案 155道(061-080)
  • 动手学深度学习(pytorch版):第一章节——引言
  • DataEase官方出品丨SQLBot:基于大模型和RAG的智能问数系统
  • MCU-TC397的UCB初识
  • Effective C++ 条款27: 尽量用const、enum、inline替换 #define
  • 通过CNN、LSTM、CNN-LSTM及SSA-CNN-LSTM模型对数据进行预测,并进行全面的性能对比与可视化分析
  • JavaEE 初阶第十五期:文件 IO 的 “管道艺术”(上)
  • linux顽固进程查看并清理
  • 华为服务器中Mindie镜像的部署及启动方法
  • Python 基础详解:数据类型(Data Types)—— 程序的“数据基石”
  • AI代码审查大文档处理技术实践
  • 【MySQL】SQL优化
  • LG P7447 [Ynoi2007] rgxsxrs Solution
  • 树莓派安装OpenCV环境
  • 代码库详细笔记
  • 使用 Tauri 开发 Android 应用:环境搭建与入门指南
  • 进程间数据的关联与隔离
  • Next.js 15 重磅发布:React 19 集成 + 性能革命,开发者必看新特性指南
  • 代码随想录day58图论8
  • 一个设备或系统能够同时管理和监控两个摄像头的配
  • Ethereum: 像Uniswap V3贡献者一样开发,克隆、编译与测试v3-core