当前位置：首页 > news >正文

UnivNet论文分析（20210615）

news 2025/8/8 17:44:15

面对问题：

1.大部分声码器采用带限mel谱生成波形，此时没有高频信息；
2.如果将高频信息输入，又会导致过平滑问题，频谱不够清晰；【个人可能原因是网络处理不好】

本文尝试采用判别器解决该问题，可保证高频细节。

本文方案：

1.提了采用LVC（局部变量卷积）核的生成器架构；

2.提了输入为频谱的判别器结构；

生成器：

输入为mel谱和随机噪声。

LVC的核由核预测器确定，实现高效的局部信息捕捉。LVC在参考文献[14]提出。

GAU[24]：增强非线性能力；

判别器架构：

上面为所提频域判别器（包括不同参数配置的stft）。下面为hifigan的mpwd。

采用mpwd的目的是改善时域细节。

训练loss:

采用GANloss和重构loss

实验结果

消融实验：

总的看来，MRSD/MPWD的影响大于LVC和GAU;还是训练方法影响大
MPWD：影响最大，0.77分；加上MSWD效果更差了？

图3结果表明：
当去除MRSD后，频谱会导致过平滑，特别是高频；那就是频域的MRSD，可以解决频谱平滑现象；

下表中，据说parallel wavegan的打分较低，且有可听见的金属音：

查看全文

http://www.lryc.cn/news/613650.html

为何毫米波需要采用不同的DPD方法？如何量化其值？

机器学习之随机森林（Random Forest）实战案例

OpenAI 开源模型 GPT-OSS深度拆解：从1170亿参数到单卡部署，重构AI开源生态

Java面试宝典：类加载

敏捷总结-上

智能制造的中枢神经工控机在自动化产线中的关键角色

C++的入门学习

TCP粘包问题详解与解决方案

如何在 Ubuntu 24.04 中永久更改主机名

MySQL面试题及详细答案 155道（061-080）

动手学深度学习（pytorch版）：第一章节——引言

DataEase官方出品丨SQLBot：基于大模型和RAG的智能问数系统

MCU-TC397的UCB初识

Effective C++ 条款27: 尽量用const、enum、inline替换 #define

通过CNN、LSTM、CNN-LSTM及SSA-CNN-LSTM模型对数据进行预测，并进行全面的性能对比与可视化分析

JavaEE 初阶第十五期：文件 IO 的 “管道艺术”（上）

linux顽固进程查看并清理

华为服务器中Mindie镜像的部署及启动方法

Python 基础详解：数据类型（Data Types）—— 程序的“数据基石”

AI代码审查大文档处理技术实践

【MySQL】SQL优化

LG P7447 [Ynoi2007] rgxsxrs Solution

树莓派安装OpenCV环境

代码库详细笔记

使用 Tauri 开发 Android 应用：环境搭建与入门指南

进程间数据的关联与隔离

Next.js 15 重磅发布：React 19 集成 + 性能革命，开发者必看新特性指南

代码随想录day58图论8

一个设备或系统能够同时管理和监控两个摄像头的配

Ethereum：像Uniswap V3贡献者一样开发，克隆、编译与测试v3-core