当前位置：首页 > news >正文

nnAudio的简单介绍

news 2025/7/28 2:41:52

官方实现
https://github.com/KinWaiCheuk/nnAudio；

论文实现：
nnAudio: An on-the-Fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks；

以下先对文章解读：

abstract

在本文中，我们提出了nnAudio，这是一种新的基于神经网络的音频处理框架，具有图形处理单元（GPU）支持，利用1D卷积神经网络执行时域到频域转换。由于速度快，它允许实时提取光谱图，而无需在磁盘上存储任何光谱图。此外，这种方法还允许在波形到谱图转换层上进行反向传播，因此，转换过程可以进行训练，从而进一步优化神经网络所训练的特定任务的波形到谱线图转换。

所有谱线图实现都按输入长度的线性时间的Big-O缩放。然而，nnAudio利用了PyTorch的一维卷积神经网络的计算统一设备架构（CUDA），其短时傅里叶变换（STFT）、梅尔谱图和常数Q变换（CQT）实现比仅使用中央处理单元（CPU）的其他实现快了一个数量级。我们使用NVIDIA GPU在三台不同的机器上测试了我们的框架，考虑到录音长度相同，我们的框架将谱图提取时间从几秒（使用流行的python库librosa）减少到几毫秒。当将nnAudio应用于可变输入音频长度时，使用librosa从MusicNet数据集中提取具有不同参数的34种谱图类型平均需要11.5小时。nnAudio平均需要2.8小时，速度仍然是librosa的四倍。我们提出的框架在处理速度方面也优于现有的GPU处理库，如Kapre和Torchaudio。

1. introduction

自20世纪80年代以来，光谱作为音频信号的时频表示，一直被用作神经网络模型的输入[1-3]。不同类型的光谱图针对不同的应用进行定制。例如，Mel频谱图和Mel频率倒谱系数（MFCC）是为语音相关应用设计的[4，5]，而常数Q变换最适合音乐相关应用[6，7]。尽管最近在音频领域的端到端学习方面取得了进展，如WaveNet[8]和SampleCNN[9]，这使得对原始音频数据进行模型训练成为可能，但许多最近的出版物仍然使用声谱图作为各种应用的模型的输入[10]。这些应用包括语音识别[11，12]、语音情感检测[13]、语音到语音翻译[14]、语音增强[15]、语音分离[16]、歌声转换[17]、音乐标记[18]、覆盖检测[19]、旋律提取[20]和复调音乐转录[21]。在原始音频数据上训练端到端模型的一个缺点是训练时间较长。

本文的主要贡献是开发了一种基于GPU的音频处理框架，该框架直接集成到神经网络中并利用了神经网络的力量。这提供了以下好处：

1）使用动态时频转换层进行端到端神经网络训练（即，可以直接使用原始波形作为神经网络的输入）。

2）与ibrosa[23]等传统音频处理方法相比，处理速度明显更快。

3）基于可以在GPU上运行的神经网络的CQT算法（在撰写本文时，没有可以在GPU中运行的基于神经网络的CQT算法。）

4）可训练的傅立叶、梅尔和CQT内核，可以根据手头的问题自动调整。

比较（A）：现有（慢速）方法[32-40]和（b）：我们提出的（如图11a所示快得多）基于神经网络的音频处理框架（nnAudio）的流程图。我们提出的神经网络以黄色突出显示。我们现在可以直接将波形前馈到神经网络，而不是对波形进行预处理，并且可以在训练过程中动态生成频谱图。红色箭头表示反向传播ŞL可以走多远，这允许在训练期间对初始化的内核进行微调，从而产生专门定制的新表示。

在下面的小节中，我们将简要总结离散傅立叶变换（DFT）的数学原理。

然后，我们将讨论如何初始化神经网络来执行第II节中的STFT、Mel谱图和常数Q变换（CQT）。

在第四节中，我们比较了nnAudio与流行的python信号处理库librosa的速度和输出。最后，我们介绍了我们库的潜在应用。