当前位置：首页 > news >正文

2025年CCF先进音频技术竞赛

news 2025/9/1 12:14:54

由中国计算机学会主办、CCF语音对话与听觉专委会承办、语音之家协办、华为终端有限公司赞助的CCF先进音频技术大赛正式启动。大赛旨在推动国内高等院校及科研院所在音频技术领域的专业人才培养，支持学生科技创新，选拔优秀人才。

赛事官网：https://ccf-aatc.org.cn/

赛题一：语音修复

赛题描述

本赛题旨在鼓励参赛者探索和实现面向真实世界复杂链路的下一代语音修复算法，以显著提升语音信号的质量、可懂度和听感自然度。本任务要求参赛队伍针对给定的、经历了多重损伤的语音，设计并实现一个统一的修复模型，输出最大程度接近原始质量的纯净语音。

本次挑战赛关注的核心问题与挑战如下：

复合型失真的建模与消除；
语音保真度与失真抑制的平衡
低时延处理需求。

数据集与基线系统

竞赛方将提供优质数据资源：

纯净语音库 (Clean Speech)：包含数千小时、多语种、多说话人的高质量无损语音数据。
噪声库 (Noise)：包含数百种从真实场景录制的非平稳、多样化的噪声数据。
房间冲激响应库 (RIR)：包含不同房间大小、不同混响时长的房间脉冲响应（Room Impulse Response）数据。

对于数据生成，将提供一个可复现的数据合成脚本，同时提供一部分专业降噪算法处理后的音频输出作为失真音频数据。

为帮助参赛者快速验证，竞赛组织方将提供一个官方的开发验证集。该数据集包含经过上述复合型失真（噪声、混响、处理后失真、削波、低码率编码）处理的带标签语音片段。最终用于模型性能排行榜的最终盲测集将对参赛者保持不可见，但其数据分布、失真类型和复杂度与开发验证集保持一致。

竞赛组织方将提供一个基于掩码生成模型的基线模型（类似MaskSR）及其完整的训练和推理代码，鼓励复现我们公布的baseline的结果。

赛题二：通用音频分离

赛题描述

通用音频分离是指从混杂声音信号中分离出不同声源的独立信号。传统音频包括单通道分离方法和多通道分离方法，典型算法包括ICA、NMF、Sparse Coding等。近年来，随着深度学习技术的进步，主流方法利用深度神经网络学习音频内在特征和混合规律，实现了更好的分离效果。本任务是对2通道录制的4声源的混合音频进行分离，具体设定如下：

声学场景：办公室环境，目标声源为人声和乐器，共4个声源，声源与麦克风位置在4米以内，声源位置不固定，但同一段录音中声源位置不变。录音中可能包含多人发音，每人发音视为一个独立声源。录音中可能包含背景噪音，背景噪声的强度明显低于主声源。
录音设备：录音设备为一个4麦线性阵列，选择其中2路作为开发和测试数据。2路麦克风之间的距离为2.8厘米。

数据集与基线系统

训练集：参赛队伍可使用任何开源数据集进行训练，但需在提交系统时明确所使用的数据集。

参考数据集如下：

人声：AISHELL-1：https://www.openslr.org/33/
乐器：MUSIC：https://github.com/roudimit/MUSIC_dataset

竞赛组织方提供10小时的录音数据作为开发集，最终测试用数据与开发数据特性相同。

竞赛组织方将提供一个基线模型及其完整的训练和推理代码，鼓励复现我们公布的baseline的结果。

赛程安排

2025.6.20	赛题发布，开启报名
2025.6.27	开发集，基线系统发布
2025.8.15	测试集发布
2025.8.20	结果提交截止
2025.8.25	初赛结果公布
2025.8.30	决赛答辩、颁奖仪式
2025.10.16~17	赛事专场报告会