当前位置：首页 > news >正文

AAAI-2025 | 同济大学面向嘈杂环境的音频视觉导航！BeDAViN：大规模音频-视觉数据集与多声源架构研究

news 2025/7/16 8:13:08

作者：Zhanbo Shi, Lin Zhang, Linfei Li, Ying Shen
单位：同济大学计算机学院
论文标题：Towards Audio-visual Navigation in Noisy Environments: A Large-scale Benchmark Dataset and An Architecture Considering Multiple Sound-Sources
论文链接：https://ojs.aaai.org/index.php/AAAI/article/view/33608
代码链接：https://github.com/ZhanboShiAI/ENMuS

构建大规模基准数据集 BeDAViN：包含 2,258 个音频样本，涵盖 20 种声音事件类别和 4 种噪声类别，总时长 10.8 小时，是现有音频数据集的 33 倍以上，能够模拟多样化的多声源场景。
提出 ENMuS $^3$ 框架：针对多声源场景的具身导航框架，包含声音事件描述符和多尺度场景记忆Transformer两个关键组件，前者可提取目标声源的空间和语义特征，后者能有效跟踪目标对象，显著提升在嘈杂环境中的导航性能。
实验验证：在 BeDAViN 数据集上进行的大量实验表明，ENMuS $^3$ 在不同场景下的导航成功率和效率均大幅优于现有SOTA方法，成功率提升了一个数量级。

具身导航的重要性：具身导航是具身智能（Embodied AI）的一个基本且关键的组成部分，要求自主智能体通过与未见过的环境交互来解决复杂的导航任务。近年来，具身导航技术被广泛应用于家庭服务、仓储和物流等领域。

现有研究的局限性：
- 数据集限制：现有的音频-视觉导航数据集样本有限，难以模拟多样化的多声源场景。
- 框架限制：大多数现有的导航框架是为单声源场景设计的，在多声源场景下的性能大幅下降。
多声源场景的挑战：现实世界中的环境通常存在多个声源和背景噪声，这对音频-视觉导航提出了更高的要求。

数据收集：
- 手动录制：使用Tascam DR-40X设备在室内环境中录制了158个24位双声道音频文件。
- 公共数据集补充：从AudioSet和FSD50K等公共数据集中选取了与手动录制样本类似的音频片段，并从freesound.org补充了一些未被系统收集的类别（如毛巾、靠垫、植物等）的音频片段。
导航场景生成：生成了150万条导航场景，每个场景包含模拟导航过程的一组参数，如场景选择、智能体起始位置和旋转、目标物体位置、目标音频文件名和时长等。

框架概述：ENMuS $^3$ 框架通过观察编码器（Observation Encoder）将局部观察映射为观察嵌入（embedding），然后利用多尺度场景记忆Transformer构建多分辨率记忆表示，最终通过解码器预测智能体的下一步动作。

关键组件：
- 声音事件描述符：从双声道音频波形中提取目标声源的空间和语义特征，能够区分多个声源并确定目标声源的方向（DoA）。
- 多尺度场景记忆Transformer：利用全局交互和局部特征，提高在嘈杂环境中的导航效率。

观察编码器：
- 音频编码器：将双声道波形转换为左、右声道频谱图，计算双耳相位差（IPD）和双耳水平差（ILD），生成低级音频表示。
- 声音事件描述符：处理音频编码器的输出，生成类别级输出，包含周围活跃声源的估计类别及其方向。
- 视觉/姿态/动作编码器：使用ResNet生成视觉表示，使用线性网络生成姿态和动作的表示。
场景记忆存储：存储最近的 $N_m$ 个场景观察，以便智能体利用历史信息进行长时导航任务。
场景表示解码器：通过多尺度场景记忆Transformer解码当前观察嵌入和场景记忆存储，预测智能体的下一步动作。

实验设置：
- 环境和模拟器：采用 Matterport3D 虚拟室内场景作为训练和测试环境，修改 SoundSpaces 平台以添加干扰声音和背景噪声的生成流程。
- 场景配置：在三种场景下进行实验，分别是单声源场景（只有目标物体发声）、多声源场景（环境中存在多个类别的声音事件，特定类别的声音事件为目标声源）和嘈杂场景（基于多声源场景并添加持续的背景噪声）。测试结果在 10 个复杂程度不同的 Matterport3D 场景中取平均值，每个场景包含 100 个剧集。
- 评估指标：采用成功率（SR）、按路径长度加权的成功率（SPL）、按动作数量加权的成功率（SNA）以及剧集结束时到目标的平均距离（DTG）来评估不同音频视觉导航方案的性能。
- 基线方法：将 ENMuS $^3$ 与随机策略、目标跟随策略、ObjectGoal 方法、Av-Nav 方法、SAVi 方法以及 SMT + Audio 方法进行比较，所有方法都使用相同的奖励函数和必要的相同输入。

定量实验结果：
- 如表所示，ENMuS $^3$ 在所有场景下的表现均显著优于其他方法。在单声源场景中，ENMuS $^3$ 的成功率比现有SOTA方法高出 13.1%，在多声源场景和嘈杂场景中分别高出 7.1% 和 3.1%。
- 此外，ENMuS $^3$ 在 SPL 和 SNA 指标上也有显著提升，表明其多尺度场景记忆Transformer能够利用全局交互和局部特征找到更短的路径，从而提高导航效率。

定性实验结果：
- 上图展示了 ENMuS $^3$ 与其他方法在多声源场景下的导航轨迹。可以看出，ENMuS $^3$ 能够以更高效的路径完成导航任务，例如在 S9hNv5qa7GM 场景中，ENMuS $^3$ 几乎沿着最短路径到达目标，显示出其多尺度场景记忆Transformer在嘈杂环境中跟踪目标的强大能力。
- 在目标物体距离智能体初始位置较远的情况下，如 ac26ZMwG7aT 场景，ENMuS $^3$ 能够借助声音事件描述符成功到达目标，而其他方法则容易在起始点附近的区域停滞不前。

结论：
- 为了促进在嘈杂环境中的音频视觉导航，本研究引入了 BeDAViN 大规模基准数据集，并提出了 ENMuS $^3$ 框架。
- BeDAViN 能够模拟不同声源配置的多样化场景，为在多声源环境中训练和测试智能体提供了支持。
- ENMuS $^3$ 通过其声音事件描述符和多尺度场景记忆Transformer，显著增强了智能体在复杂嘈杂环境中定位和跟踪目标声源的能力。
未来工作：
- 由于现有音频视觉导航方法主要在仿真环境中开发，未来的研究将致力于将 ENMuS $^3$ 部署到现实世界的应用中。