当前位置：首页 > news >正文

【AI视野·今日Sound 声学论文速览第九期】Thu, 21 Sep 2023

news 2025/8/27 5:49:28

AI视野·今日CS.Sound 声学论文速览
Thu, 21 Sep 2023
Totally 1 papers
👉上期速览✈更多精彩请移步主页

Interesting:

📚Auto-ACD,大规模文本-音频数据集自动生成方法。
基于现有的大模型和api构建了一套大规模高质量的音频文本数据收集方法，包含1.9M audio-text 数据对。 (from 上海交大)
在这里插入图片描述

👍 👍 website: https://auto-acd.github.io/

Daily Sound Papers

A Large-scale Dataset for Audio-Language Representation Learning
Authors Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie
在大规模多模式数据集的推动下，人工智能社区在开发强大的基础模型方面取得了重大进展。然而，在音频表示学习领域，现有的音频语言数据集存在容量不足、内容简单和收集过程繁琐等局限性。为了应对这些挑战，我们提出了一种基于一系列公共工具或 API 的创新型自动音频字幕生成管道，并构建了一个大规模、高质量的音频语言数据集，称为 Auto ACD，包含超过 190 万个音频文本对。为了证明所提出的数据集的有效性，我们在数据集上训练了流行的模型，并展示了各种下游任务的性能改进，即音频语言检索、音频字幕、环境分类。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了基准。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

查看全文

http://www.lryc.cn/news/174233.html