当前位置: 首页 > news >正文

【AI视野·今日Sound 声学论文速览 第九期】Thu, 21 Sep 2023

AI视野·今日CS.Sound 声学论文速览
Thu, 21 Sep 2023
Totally 1 papers
👉上期速览✈更多精彩请移步主页

Interesting:

📚Auto-ACD,大规模文本-音频数据集自动生成方法。
基于现有的大模型和api构建了一套大规模高质量的音频文本数据收集方法,包含1.9M audio-text 数据对。 (from 上海交大)
在这里插入图片描述
在这里插入图片描述

👍 👍 website: https://auto-acd.github.io/


Daily Sound Papers

A Large-scale Dataset for Audio-Language Representation Learning
Authors Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie
在大规模多模式数据集的推动下,人工智能社区在开发强大的基础模型方面取得了重大进展。然而,在音频表示学习领域,现有的音频语言数据集存在容量不足、内容简单和收集过程繁琐等局限性。为了应对这些挑战,我们提出了一种基于一系列公共工具或 API 的创新型自动音频字幕生成管道,并构建了一个大规模、高质量的音频语言数据集,称为 Auto ACD,包含超过 190 万个音频文本对。为了证明所提出的数据集的有效性,我们在数据集上训练了流行的模型,并展示了各种下游任务的性能改进,即音频语言检索、音频字幕、环境分类。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了基准。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

http://www.lryc.cn/news/174233.html

相关文章:

  • 数据结构-----堆(完全二叉树)
  • set/multiset容器、map容器
  • Linux系统编程——总结初识Linux(常用命令、特点、常见操作系统)
  • Js使用ffmpeg进行视频剪辑和画面截取
  • Linux基本命令,基础知识
  • 【Android知识笔记】进程通信(三)
  • 云上亚运:所使用的高新技术,你知道吗?
  • 数据结构简述,时间、空间复杂度,学习网站推荐
  • 在线安装qt5.15之后任意版本
  • 【kafka实战】01 3分钟在Linux上安装kafka
  • yum安装mysql8
  • 十五)Stable Diffusion使用教程:另一个线稿出3D例子
  • 2023icpc网络预选赛I. Pa?sWorD(dp)
  • maven本地安装jar包
  • QT中的inherits
  • 全国职业技能大赛云计算--高职组赛题卷①(容器云)
  • 基于springboot+vue的入校申报审批系统
  • 安卓逆向 - EdXposed LSPosed VirtualXposed
  • Linux三大搜索指令的区别
  • C++ -- 特殊类设计
  • 指针和数组笔试题的透析
  • 「UG/NX」Block UI 超级点SuperPoint
  • Linux——kafka常用命令
  • GLTF编辑器如何快速重置模型原点
  • 【STL】vector常见用法及模拟实现(附源码)
  • 深度学习保姆级教学
  • 计算机视觉的优势和挑战
  • 群晖管家+内网穿透实现公网远程访问本地黑群晖
  • Essential C++【读书笔记 思考总结】
  • 深度学习实战基础案例——卷积神经网络(CNN)基于Xception的猫狗识别|第2例