当前位置: 首页 > news >正文

MusicHiFi: Fast High-Fidelity Stereo Vocoding

MusicHiFi: Fast High-Fidelity Stereo Vocoding

相关链接:arxiv github
关键字:音乐生成高保真立体声立体声编解码器生成对抗网络频带扩展

摘要

MusicHiFi是一种高效的高保真立体声编解码器,它通过将低分辨率的mel频谱图转换为音频,并通过频带扩展提高音频分辨率,最终通过立体声混音生成立体声音频。与以往的工作相比,MusicHiFi提出了一个统一的基于生成对抗网络(GAN)的生成器和鉴别器架构,以及每个阶段的训练过程。此外,还提出了一种新的快速、与下采样兼容的频带扩展模块,以及一种新的快速、与下混音兼容的单声道到立体声混音器,确保输出中保留单声道内容。通过客观和主观的听力测试评估了该方法,并发现其在音频质量、空间化控制方面具有可比性或更优,并且推理速度显著快于以往的工作。

核心方法

在这里插入图片描述
在这里插入图片描述

  1. 统一的GAN架构:MusicHiFi采用了三个生成对抗网络(GAN)的级联,每个GAN都使用相同的生成器和鉴别器架构,以及训练目标和模型大小。
  2. 频带扩展(BWE):通过在低分辨率音频和高分辨率音频之间添加残差连接,并使用sinc插值块进行上采样,以生成高频内容。
  3. 单声道到立体声(M2S)混音:使用中侧(mid-side)立体声编码将单声道音频信号转换为立体声信号,并通过调整中侧能量比来控制空间化宽度。

实验说明

实验使用了1800小时的授权器乐音乐(立体声44.1 kHz)作为内部数据集。对于vocoder,使用16,384个样本的随机裁剪,并应用特定的预处理。对于BWE模块,使用与vocoder相同的预处理,但窗口和跳跃大小减半。对于M2S模块,使用与vocoder相同的STFT设置。训练目标使用了特定的权重,并在500k步后选择了最优的检查点。

实验结果数据

数据集方法Mel-D↓STFT-D↓ViSQOL↑SI-SDR↑RTF↑
DSD100HiFi-GAN [14]1.090.654.4728.623488
FMAMusicHiFi-V0.870.354.6731.571807

结论

MusicHiFi提出了一种新的高效、高保真的立体声编解码方法。该方法通过三个GAN模型的级联,将mel频谱图转换为低质量的音频波形,通过频带扩展将低分辨率音频上采样为高分辨率音频,并最终渲染出高分辨率的立体声音频。与以往的工作相比,MusicHiFi贡献了一个统一的基于GAN的鉴别器和生成器设计,一个新的与下采样兼容的BWE模块,以及一个新颖的保留单声道内容的单声道到立体声模块。通过客观评估和两次主观听力测试,发现MusicHiFi在vocding和BWE结果上具有可比性或更优,并且在空间化宽度控制方面表现更好,效率极高。

http://www.lryc.cn/news/321842.html

相关文章:

  • 完美解决 RabbitMQ可视化界面Overview不显示折线图和队列不显示Messages
  • matlab 混沌系统李雅普洛夫指数谱相图分岔图和庞加莱界面
  • Linux-docker安装数据库mysql
  • 网工内推 | 七险一金,上市公司招信息安全工程师,大牛带队
  • 04.组件的组成和组件间通信
  • 【Sql Server】通过Sql语句批量处理数据,使用变量且遍历数据进行逻辑处理
  • MySQL中group_concat()用法
  • 栈队列数组试题(四)——数组和特殊矩阵
  • 数据结构的概念大合集01(含数据结构的基本定义,算法及其描述)
  • .NET高级面试指南专题十七【 策略模式模式介绍,允许在运行时选择算法的行为】
  • 突飞猛进,智能饮品机器人如何助力实体经济?
  • AI:150-基于深度学习的医学数据挖掘与病症关联发现
  • c语言:最大公约数
  • 12 对称加密AES和非对称加密RSA
  • Vue2(二):计算属性、监视属性、二者的区别
  • CTF题型 SSTI(2) Flask-SSTI典型题巩固
  • 计算机设计大赛 题目: 基于深度学习的疲劳驾驶检测 深度学习
  • 小字辈[天梯赛]
  • Linux常用操作命令、端口、防火墙、磁盘与内存
  • <JavaEE> 了解网络层协议 -- IP协议
  • 【安全类书籍-2】Web渗透测试:使用Kali Linux
  • ubuntu10.04 apache2.2开启tls1.2的支持,使现代的edge和firefox浏览器能正常访问https
  • 算法学习(持续更新中)
  • 蓝桥杯 2023 省B 飞机降落
  • 基于python的变配电室运行状态评估与预警系统flask-django-nodejs-php
  • el-table左键双击单元格编辑内容(输入框输入计算公式可直接得出结果),右键单击展示操作菜单,可编辑单元格高亮展示
  • 实现HBase表和RDB表的转化(附Java源码资源)
  • 10:00面试,10:06就出来了,问的问题有点变态。。。
  • 【Python】: Django Web开发实战(详细教程)
  • 突破编程_C++_C++11新特性(tuple)