当前位置：首页 > news >正文

kaggle新赛：Bengali.AI 语音识别大赛赛题解析

news 2025/7/25 11:55:39

赛题名称：Bengali.AI Speech Recognition

赛题链接：https://www.kaggle.com/competitions/bengaliai-speech

赛题背景

竞赛主办方 Bengali.AI 致力于加速孟加拉语（当地称为孟加拉语）的语言技术研究。Bengali.AI 通过社区驱动的收集活动众包大规模数据集，并通过研究竞赛为其数据集提供众包解决方案。孟加拉.AI语双管齐下的方法的所有结果，包括数据集和训练模型，都是开源的，供公众使用。

参赛者在本次竞赛中的工作可能会对世界上最流行但资源匮乏的语言之一的语音识别改进产生影响。参赛者还可以为解决语音识别的主要挑战之一（分布外泛化）提供急需的推动力。

赛题方向

语音识别

赛题任务

本次比赛的目的是从未分发的录音中识别孟加拉语语音。参赛者将构建一个基于第一个大规模众包（MaCro）孟加拉语语音数据集训练的模型，其中包含来自印度和孟加拉国的约24,000人提供的1,200小时的语音数据作为训练数据。测试集包含来自训练中不存在的 17 个不同域的样本。

参赛者可以使用第一个孟加拉语分发外语音识别数据集来改进孟加拉语语音识别。此外，参赛者提交的内容将是孟加拉语的首批开源语音识别方法之一。

评估指标

提交的结果将通过计算平均词错误率来进行评估，步骤如下：

WER 是为测试集中的每个实例计算的。
WER在域内取平均值，由句子中的单词数加权。
域平均值的（未加权）平均值是最终分数。

此 Python 代码计算指标：

import jiwer  # you may need to install this librarydef mean_wer(solution, submission):joined = solution.merge(submission.rename(columns={'sentence': 'predicted'}))domain_scores = joined.groupby('domain').apply(# note that jiwer.wer computes a weighted average wer by default when given lists of stringslambda df: jiwer.wer(df['sentence'].to_list(), df['predicted'].to_list()),)return domain_scores.mean()assert (solution.columns == ['id', 'domain', 'sentence']).all()
assert (submission.columns == ['id',' sentence']).all()

提交格式

提交文件应包含两列：id and sentence 。参赛者需要预测文件夹中每个记录的句子。

提交文件应包含标头并具有以下格式：

id,sentence
0f3dac00655e,এছাড়াও নিউজিল্যান্ড এ ক্রিকেট দলের হয়েও খেলছেন তিনি।
a9395e01ad21,এছাড়াও নিউজিল্যান্ড এ ক্রিকেট দলের হয়েও খেলছেন তিনি।
bf36ea8b718d,এছাড়াও নিউজিল্যান্ড এ ক্রিকেট দলের হয়েও খেলছেন তিনি।
...

数据描述

train/：训练集，包含数千个MP3格式的录音文件。
test/：测试集，包含来自18个不同领域的自发语音录音，其中17个领域与训练集不同。私有测试集中可能还包含公共测试集中不存在的领域。
examples/：每个测试集领域的示例录音。这些示例录音可能有助于构建对领域变化具有鲁棒性的模型。这些示例录音是代表性的，且不会出现在测试集中。
train.csv：训练集的句子标签。
id：每个实例的唯一标识符。对应于train/目录中的文件{id}.mp3。
sentence：录音的纯文本转录。你的目标是为测试集中的每个录音预测这些句子。
split：无论是train还是valid，valid拆分中的注释已经过手动检查和更正，而train拆分中的注释仅通过算法进行了清理。valid样本通常具有比train样本更高质量的注释，但其他方面来自相同的分布。
sample_submission.csv：一个样本提交文件，格式正确。详情请参阅Evaluation页面。