当前位置: 首页 > news >正文

nnAudio的简单介绍

官方实现
https://github.com/KinWaiCheuk/nnAudio;

论文实现:
nnAudio: An on-the-Fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks;

以下先对文章解读:

abstract

在本文中,我们提出了nnAudio,这是一种新的基于神经网络的音频处理框架,具有图形处理单元(GPU)支持,利用1D卷积神经网络执行时域到频域转换。由于速度快,它允许实时提取光谱图,而无需在磁盘上存储任何光谱图。此外,这种方法还允许在波形到谱图转换层上进行反向传播,因此,转换过程可以进行训练,从而进一步优化神经网络所训练的特定任务的波形到谱线图转换

所有谱线图实现都按输入长度的线性时间的Big-O缩放。然而,nnAudio利用了PyTorch的一维卷积神经网络的计算统一设备架构(CUDA),其短时傅里叶变换(STFT)、梅尔谱图和常数Q变换(CQT)实现比仅使用中央处理单元(CPU)的其他实现快了一个数量级。我们使用NVIDIA GPU在三台不同的机器上测试了我们的框架,考虑到录音长度相同,我们的框架将谱图提取时间从几秒(使用流行的python库librosa)减少到几毫秒。当将nnAudio应用于可变输入音频长度时,使用librosa从MusicNet数据集中提取具有不同参数的34种谱图类型平均需要11.5小时。nnAudio平均需要2.8小时,速度仍然是librosa的四倍。我们提出的框架在处理速度方面也优于现有的GPU处理库,如Kapre和Torchaudio。

1. introduction

自20世纪80年代以来,光谱作为音频信号的时频表示,一直被用作神经网络模型的输入[1-3]。不同类型的光谱图针对不同的应用进行定制。例如,Mel频谱图和Mel频率倒谱系数(MFCC)是为语音相关应用设计的[4,5],而常数Q变换最适合音乐相关应用[6,7]。尽管最近在音频领域的端到端学习方面取得了进展,如WaveNet[8]和SampleCNN[9],这使得对原始音频数据进行模型训练成为可能,但许多最近的出版物仍然使用声谱图作为各种应用的模型的输入[10]。这些应用包括语音识别[11,12]、语音情感检测[13]、语音到语音翻译[14]、语音增强[15]、语音分离[16]、歌声转换[17]、音乐标记[18]、覆盖检测[19]、旋律提取[20]和复调音乐转录[21]。在原始音频数据上训练端到端模型的一个缺点是训练时间较长。

本文的主要贡献是开发了一种基于GPU的音频处理框架,该框架直接集成到神经网络中并利用了神经网络的力量。这提供了以下好处:

1)使用动态时频转换层进行端到端神经网络训练(即,可以直接使用原始波形作为神经网络的输入)。

2) 与ibrosa[23]等传统音频处理方法相比,处理速度明显更快。

3) 基于可以在GPU上运行的神经网络的CQT算法(在撰写本文时,没有可以在GPU中运行的基于神经网络的CQT算法。)

4)可训练的傅立叶、梅尔和CQT内核,可以根据手头的问题自动调整

比较(A):现有(慢速)方法[32-40]和(b):我们提出的(如图11a所示快得多)基于神经网络的音频处理框架(nnAudio)的流程图。我们提出的神经网络以黄色突出显示。我们现在可以直接将波形前馈到神经网络,而不是对波形进行预处理,并且可以在训练过程中动态生成频谱图。红色箭头表示反向传播ŞL可以走多远,这允许在训练期间对初始化的内核进行微调,从而产生专门定制的新表示。

在下面的小节中,我们将简要总结离散傅立叶变换(DFT)的数学原理。

然后,我们将讨论如何初始化神经网络来执行第II节中的STFT、Mel谱图和常数Q变换(CQT)。

在第四节中,我们比较了nnAudio与流行的python信号处理库librosa的速度和输出。最后,我们介绍了我们库的潜在应用。

2. signal processing:

http://www.lryc.cn/news/43811.html

相关文章:

  • 【id:134】【20分】B. 求最大值最小值(引用)
  • Java 面向对象
  • 五、传输层
  • Thinkphp 6.0一对一关联查询
  • 基于51单片机的自动打铃打鸣作息报时系统AT89C51数码管三极管时钟电路
  • 算法详解-双指针算法的魅力-一种简单而高效的编程思想
  • 网页审查元素
  • gpt2 adapter finetune
  • Day14_文件操作
  • leetcode 轮转数组 189
  • Leetcode.1849 将字符串拆分为递减的连续值
  • Android布局层级过深为什么会对性能有影响?为什么Compose没有布局嵌套问题?
  • 【UR机械臂CB3 网络课程 】
  • dp-统计字典序元音字符串的数目
  • LFM雷达实现及USRP验证【章节3:连续雷达测距测速】
  • COLMAP多视角视图数据可视化
  • 2023年全国最新高校辅导员精选真题及答案36
  • ThreeJS-全屏和退出全屏、自适应大小(五)
  • 等级保护2.0要求及所需设备清单
  • 【大数据之Hadoop】六、HDFS之NameNode、Secondary NameNode和DataNode的内部工作原理
  • 小黑子—Java从入门到入土过程:第四章
  • 数据库原理及应用(四)——SQL语句(2)SQL基础查询以及常见运算符
  • (算法基础)Floyd算法
  • SQL语法:浅析select之七大子句
  • 中国人民大学与加拿大女王大学金融硕士——去有光的地方,并成为自己的光
  • Python数据结构与算法篇(五)-- 二分查找与二分答案
  • 小游戏也要讲信用
  • 贪心算法11
  • 【并发编程】JUC并发编程(彻底搞懂JUC)
  • Compose 动画 (七) : 高可定制性的动画 Animatable