当前位置: 首页 > news >正文

AAAI-2025 | 同济大学面向嘈杂环境的音频视觉导航!BeDAViN:大规模音频-视觉数据集与多声源架构研究

  • 作者:Zhanbo Shi, Lin Zhang, Linfei Li, Ying Shen
  • 单位:同济大学计算机学院
  • 论文标题:Towards Audio-visual Navigation in Noisy Environments: A Large-scale Benchmark Dataset and An Architecture Considering Multiple Sound-Sources
  • 论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/33608
  • 代码链接:https://github.com/ZhanboShiAI/ENMuS

主要贡献

  • 构建大规模基准数据集 BeDAViN:包含 2,258 个音频样本,涵盖 20 种声音事件类别和 4 种噪声类别,总时长 10.8 小时,是现有音频数据集的 33 倍以上,能够模拟多样化的多声源场景。
  • 提出 ENMuS3^33 框架:针对多声源场景的具身导航框架,包含声音事件描述符和多尺度场景记忆Transformer两个关键组件,前者可提取目标声源的空间和语义特征,后者能有效跟踪目标对象,显著提升在嘈杂环境中的导航性能。
  • 实验验证:在 BeDAViN 数据集上进行的大量实验表明,ENMuS3^33 在不同场景下的导航成功率和效率均大幅优于现有SOTA方法,成功率提升了一个数量级。

研究背景

  • 具身导航的重要性:具身导航是具身智能(Embodied AI)的一个基本且关键的组成部分,要求自主智能体通过与未见过的环境交互来解决复杂的导航任务。近年来,具身导航技术被广泛应用于家庭服务、仓储和物流等领域。

  • 现有研究的局限性
    • 数据集限制:现有的音频-视觉导航数据集样本有限,难以模拟多样化的多声源场景。
    • 框架限制:大多数现有的导航框架是为单声源场景设计的,在多声源场景下的性能大幅下降。
  • 多声源场景的挑战:现实世界中的环境通常存在多个声源和背景噪声,这对音频-视觉导航提出了更高的要求。

BeDAViN: 音频-视觉导航基准

  • 数据集规模:包含2258个音频样本,总时长10.8小时,覆盖24种声音事件类别(如电视声音、交通噪声、烤面包机声音等)。

  • 数据收集
    • 手动录制:使用Tascam DR-40X设备在室内环境中录制了158个24位双声道音频文件。
    • 公共数据集补充:从AudioSet和FSD50K等公共数据集中选取了与手动录制样本类似的音频片段,并从freesound.org补充了一些未被系统收集的类别(如毛巾、靠垫、植物等)的音频片段。
  • 导航场景生成:生成了150万条导航场景,每个场景包含模拟导航过程的一组参数,如场景选择、智能体起始位置和旋转、目标物体位置、目标音频文件名和时长等。

ENMuS3^33: 多源具身导航框架

  • 框架概述:ENMuS3^33框架通过观察编码器(Observation Encoder)将局部观察映射为观察嵌入(embedding),然后利用多尺度场景记忆Transformer构建多分辨率记忆表示,最终通过解码器预测智能体的下一步动作。

  • 关键组件
    • 声音事件描述符:从双声道音频波形中提取目标声源的空间和语义特征,能够区分多个声源并确定目标声源的方向(DoA)。
    • 多尺度场景记忆Transformer:利用全局交互和局部特征,提高在嘈杂环境中的导航效率。

  • 观察编码器
    • 音频编码器:将双声道波形转换为左、右声道频谱图,计算双耳相位差(IPD)和双耳水平差(ILD),生成低级音频表示。
    • 声音事件描述符:处理音频编码器的输出,生成类别级输出,包含周围活跃声源的估计类别及其方向。
    • 视觉/姿态/动作编码器:使用ResNet生成视觉表示,使用线性网络生成姿态和动作的表示。
  • 场景记忆存储:存储最近的NmN_mNm个场景观察,以便智能体利用历史信息进行长时导航任务。
  • 场景表示解码器:通过多尺度场景记忆Transformer解码当前观察嵌入和场景记忆存储,预测智能体的下一步动作。

实验

  • 实验设置
    • 环境和模拟器:采用 Matterport3D 虚拟室内场景作为训练和测试环境,修改 SoundSpaces 平台以添加干扰声音和背景噪声的生成流程。
    • 场景配置:在三种场景下进行实验,分别是单声源场景(只有目标物体发声)、多声源场景(环境中存在多个类别的声音事件,特定类别的声音事件为目标声源)和嘈杂场景(基于多声源场景并添加持续的背景噪声)。测试结果在 10 个复杂程度不同的 Matterport3D 场景中取平均值,每个场景包含 100 个剧集。
    • 评估指标:采用成功率(SR)、按路径长度加权的成功率(SPL)、按动作数量加权的成功率(SNA)以及剧集结束时到目标的平均距离(DTG)来评估不同音频视觉导航方案的性能。
    • 基线方法:将 ENMuS3^33与随机策略、目标跟随策略、ObjectGoal 方法、Av-Nav 方法、SAVi 方法以及 SMT + Audio 方法进行比较,所有方法都使用相同的奖励函数和必要的相同输入。

  • 定量实验结果
    • 如表所示,ENMuS3^33在所有场景下的表现均显著优于其他方法。在单声源场景中,ENMuS3^33的成功率比现有SOTA方法高出 13.1%,在多声源场景和嘈杂场景中分别高出 7.1% 和 3.1%。
    • 此外,ENMuS3^33在 SPL 和 SNA 指标上也有显著提升,表明其多尺度场景记忆Transformer能够利用全局交互和局部特征找到更短的路径,从而提高导航效率。

  • 定性实验结果
    • 上图展示了 ENMuS3^33与其他方法在多声源场景下的导航轨迹。可以看出,ENMuS3^33能够以更高效的路径完成导航任务,例如在 S9hNv5qa7GM 场景中,ENMuS3^33几乎沿着最短路径到达目标,显示出其多尺度场景记忆Transformer在嘈杂环境中跟踪目标的强大能力。
    • 在目标物体距离智能体初始位置较远的情况下,如 ac26ZMwG7aT 场景,ENMuS3^33 能够借助声音事件描述符成功到达目标,而其他方法则容易在起始点附近的区域停滞不前。

结论与未来工作

  • 结论
    • 为了促进在嘈杂环境中的音频视觉导航,本研究引入了 BeDAViN 大规模基准数据集,并提出了 ENMuS3^33框架。
    • BeDAViN 能够模拟不同声源配置的多样化场景,为在多声源环境中训练和测试智能体提供了支持。
    • ENMuS3^33通过其声音事件描述符和多尺度场景记忆Transformer,显著增强了智能体在复杂嘈杂环境中定位和跟踪目标声源的能力。
  • 未来工作
    • 由于现有音频视觉导航方法主要在仿真环境中开发,未来的研究将致力于将 ENMuS3^33部署到现实世界的应用中。

http://www.lryc.cn/news/588996.html

相关文章:

  • HCIA第三次综合实验:VLAN
  • iOS高级开发工程师面试——常见第三方框架架构设计
  • ESP32S3+VSCode+PlatformIO+Arduino+Freertos开发入门指南:基于Arduino框架的应用开发全流程
  • 基于LAMP环境的校园论坛项目
  • 新手向:Python数据处理Excel报表自动化生成与分析
  • 剑指offer62_骰子的点数
  • 为什么市场上电池供电的LoRa DTU比较少?
  • [Pytest][Part 5]单条测试和用例集测试
  • MMYSQL刷题
  • CAU数据挖掘 第五章 聚类问题
  • 【canal+mysql+example+数据验证测试】
  • Python 内置函数random
  • 行为模式-状态模式
  • 小智完整MCP交互流程(以调节音量为例)
  • 网络安全职业指南:探索网络安全领域的各种角色
  • 使用llama-factory进行qwen3模型微调
  • elasticsearch 下载/安装
  • MaxKB使用笔记【持续ing】
  • python+selenium UI自动化初探
  • JAVA高级第一章 集合框架和泛型(一)
  • Ubuntu18.04 系统重装记录
  • 写作词汇积累(A):自洽、自恰、恰如其分、恰当
  • MQ2烟雾传感器模块(第九天)
  • C++学习笔记五
  • 《时间简史》:窥探宇宙的奥秘
  • IOS 18下openURL 失效问题
  • 032_API参考文档
  • 前端面试专栏-工程化:25.项目亮点与技术难点梳理
  • 区块链的三种共识机制——PoW、PoS和DPoS原理
  • 数据库第二次作业