当前位置: 首页 > news >正文

与声音计算研究相关的挑战赛——DCASE和L3DAS

前言:在本专栏的系列博文中,我将包含声学场景识别、声音事件检测、声源位置估计等利用机器学习或深度学习技术进行研究的、基于声音信号的相关工作成为“声音计算”。

本篇博文主要介绍与声音计算相关的两个近些年持续跟进的挑战赛:DCASE和L3DAS。

一、DCASE

声音携带着大量关于我们日常环境和发生在其中的物理事件的信息。我们可以感知我们所处的声音场景(繁忙的街道、办公室等),并识别单个声源(路过的汽车、脚步声等)。研究自动提取、识别这些信息的信号处理方法具有广泛的应用场景,例如基于音频内容搜索多媒体,制造情境感知移动设备、机器人、汽车等,以及智能监测系统,利用声学信息识别环境中的活动。然而,要可靠地识别真实声景中的声音场景和单个声源,仍然需要大量的研究。在真实声景中,多个声音经常同时出现,并且极易受到环境的干扰。这些因素都导致了基于声音信号进行广泛的场景应用还存在诸多的难题。

DCASE: detection and classification of acoustic scenes and events

地址: DCASE

DCASE 为该领域内的权威挑战赛,包含多个子任务,包括声学场景分类(Acoustic Scene Classification)、异常声音检测(Anomalous Sound Detection)、声音事件检测与定位(Sound Event Localization and Detection)、带有弱标签的声音事件检测( Sound Event Detection with Weak Labels )、生物声学事件检测(Bioacoustic Event Detection)、音频字幕和基于语言的音频检索(Automated Audio Captioning and Language-Based Audio Retrieval)、拟音合成(Foley Sound Synthesis)——DCASE2023,该挑战赛每年的任务设置基本一致,而在数据集丰富度和难度上持续迭代。

 二、L3DAS

L3DAS23: Learning 3D Audio Sources for Audio-Visual Extended Reality

Signal Processing Grand Challenge at IEEE ICASSP 2023

地址:L3DAS - Learning 3D Audio Sources

该挑战赛依托于 IEEE ICASSP (声音计算领域内的旗舰会议,CCF-B,相对而言DCASE现没有依附任何会议,仅有小范围的一个workshop),从2021年开始每年举办一次。

L3DAS项目旨在为开发用于3D音频分析的深度学习算法提供新的3D音频数据集和软件工具包。为此,该项目将专注于各种沉浸式音频任务,如声音事件检测和定位、声源分离、语音识别、语音增强、音频超分辨率、声学场景分类、声学回声消除和降噪等。使用3D录音麦克风收集的数据将通过Python开发的用户友好框架提供给音频研究社区。

该挑战赛氛围两个子任务:语音增强(Speech Enhancement)、声音事件检测与定位(3D Sound Event Localization and Detection)。

该项挑战赛第二个任务(SELD)与DCASE2022及以前的SELD任务有所不同,其面向的是声音事件的三维定位,即球坐标表示下的方向角-俯仰角-声源距离,而DCASE仅关注声源角度估计。但是,在最新一轮的挑战赛中(DCASE2023),其子任务3(SELD)也提供了除角度外的距离信息,但是在评估模型表现时,暂时还是仅关注角度估计的表现。

总结:DCASE系列挑战赛的子任务设置更加丰富,相关组织次数更多,但是目前还没有相关的学术会议支持,仅有workshop;L3DAS是近些年(2021)发布的挑战赛,依托于ICASSP会议,关注语音增强和声音事件检测与定位两个任务。

两项挑战赛的举办时间是错开的,可都参与。

http://www.lryc.cn/news/92078.html

相关文章:

  • 实训总结-----Scrapy爬虫
  • 前端开发职业规划指南:如何做好职业规划与发展
  • 创业第一步:如何写好商业计划书
  • 【Linux驱动】字符设备驱动相关宏 / 函数介绍(module_init、register_chrdev)
  • axios解决跨域问题
  • R语言作图——热图聚类及其聚类结果输出
  • Tomcat优化
  • 我的GIT练习TWO
  • 个人器件库整理
  • javascript——内存管理
  • Qt5.15.2安卓Android项目开发环境配置
  • 第四十三章 弹跳训练2(灵识扫描)
  • 【location对象的方法,history对象,navigator--BOM】
  • 论文笔记:Normalizing Flows for Probabilistic Modeling and Inference
  • java 异常类介绍
  • shiro 550 反序列化rce
  • 【C++】---模板初阶(超详练气篇)
  • windows系统典型漏洞分析
  • WPF开发txt阅读器:需求分析和文件读写
  • C++服务器框架开发9——日志系统LogFormatter_4/各个类的关系梳理/std::function/std::get
  • arm平台上的MNN编译与运行
  • python 编译安装指定版本 for linux
  • 在Linux系统下基于Docker搭建Redis集群
  • 牛客网刷题Day5
  • Vue.js 中的动态组件是什么?如何使用动态组件?
  • 2023年京东618预售数据:传统滋补成预售黑马,预售额超27亿
  • 【Linux系统基础快速入门详解】Linux 常用文件过滤编辑命令原理详解和每个命令使用场景以及实例
  • 05WEB系统的通信原理图
  • 降低试错成本,低代码或成企业数字化转型突破口
  • 串口助手(串口发送接收数据, 定时, 清空, hex显示)