当前位置: 首页 > news >正文

音源分离 | Hybrid Spectrogram and Waveform Source Separation

一、摘要

        本文提出了基于Demucs架构的的时域+频域的分离模型。提出的模型在2021年索尼组织的音乐分离挑战中获胜。该架构还包括其他改进,如压缩残差分支、局部注意力或奇异值正则化。

        在MusDB HQ数据集上,所有源的信噪比(SDR)平均提高了1.4 dB,这一改进得到了人类主观评估的确认,整体质量评分为2.83分(非混合Demucs为2.36分),污染程度评分为3.04(非混合Demucs为2.37,比赛中排名第二的模型为2.44)。

二、方法

2.1 引言

        音乐源分离的研究集中在将鼓、贝斯、人声和其他伴奏分离的监督方式上。2021年索尼组织的音乐分离挑战(MDX)提供了一个新的在线比赛平台,用于评估分离模型在未知测试集上的表现。

2.2 方法

        

        本研究扩展了Demucs架构,以执行混合波形、频谱域源分离。模型包括时间域和频率域的并行分支,并引入了压缩残差分支、局部注意力和奇异值正则化等改进。这些改进在MusDB基准和MDX隐藏测试集上进行了评估,并进行了主观评估。

三、结果

  

        混合Demucs在音乐分离挑战的Track A中取得了第一名,证明了其在鼓和贝斯源上的强大性能,同时在其他和人声源上也有显著提升。在MusDB数据集上,混合Demucs在鼓和贝斯源上实现了最佳性能,而在其他和人声源上则有所提升,但仍未超过KUIELAB-MDX-Net模型。人类评估结果表明,混合Demucs在整体质量上有所提高,尤其是在减少源之间污染方面。

        总结:本文提出的混合源分离方法在音乐源分离领域取得了重要进展,通过混合波形和频谱域的方法,以及引入的新技术,显著提升了分离质量。尽管如此,该方法也带来了U-Net编码器、解码器复杂性的增加,这需要在未来的工作中进一步优化和简化

【原文链接】https://arxiv.org/pdf/2111.03600

http://www.lryc.cn/news/348921.html

相关文章:

  • 动态el-form表单以及动态禁用
  • 【Web后端】web后端开发简介_Servlet简介
  • Taylor Francis科技期刊数据库文献去哪里获取
  • C#学习笔记12:Winform网页操作-CefSharp内嵌浏览器
  • NSSCTF | [SWPUCTF 2021 新生赛]babyrce
  • 环保不只是口号,绿葆自助取袋机助力1000多家医院环保行动!
  • DELL服务器配置ILO(idrac)地址、修改管理员密码
  • 如何打造个人IP?
  • 【PostgreSQL支持中文的全文检索插件(zhparser)】
  • SHAP分析交互作用的功能,如果你用的模型是xgboost
  • 瑞友科技质量改进服务事业部总经理张力受邀为第十三届中国PMO大会演讲嘉宾
  • CVE-2024-4761 Chrome 的 JavaScript 引擎 V8 中的“越界写入”缺陷
  • 字符串函数(二):strlen(求长度),strstr(查找子串),strtok(分割),strerror(打印错误信息)
  • EUCR-30S电机保护器施耐德EOCR
  • 人工神经网络(科普)
  • 宇宙(科普)
  • 安防视频/视频汇聚系统EasyCVR视频融合云平台助力智能化酒店安防体系的搭建
  • SpringCloudAlibaba:5.1Sentinel的基本使用
  • SHELL-双重循环习题练习
  • 2024年为什么很多电商商家,都想涌入视频号,究竟是什么原因?
  • Google Gemma 2B 微调实战(IT科技新闻标题生成)
  • RabbitMQ:深入理解高性能消息队列
  • 【北京迅为】《iTOP-3588开发板源码编译手册》-第4章 Android12/Linux设备树简介
  • C++ C# 贝塞尔曲线
  • 勒索软件漏洞?在不支付赎金的情况下解密文件
  • 实时“秒回”,像真人一样语音聊天,GPT-4o模型强到恐怖
  • Properties配置文件和源码
  • redis原生命令及项目使用
  • 使用VSCode生成代码、查询数据表
  • 使用 PXE+Kickstart 批量网络自动装机