当前位置：首页 > news >正文

Audio Flamingo

news 2025/8/11 20:54:21

文章目录

[Audio Flamingo 3](https://research.nvidia.com/labs/adlr/AF3/) [2025.6]
- abstract
- method
- - AF-Whisper
  - LLM
  - streaming tts deocder
- data
- experiment
- result

Audio Flamingo 3 [2025.6]

abstract

可以处理speech/audio/music，多种音频形态的speech2speech

method

AF-Whisper

whisper encoder : whisper Large V3
音频数据按照speech/sound/music三个维度打标签，其中sound/music的标签，主要通过AF2 encoder 进行打标；然后通过gpt 组成成一句描述性话语；作为whisper-decoder AR 预测的目标
decoder ： 24 layers, 8 attention heads, and 1024 hidden size.
其他方法是把speech/sound/music 当作不同的模态，使用不同的encoder，论文最后有对比，统一的编码器效果更好；

LLM

使用Qwen-2.5-7B

streaming tts deocder

DAC rvq 72 级码本，码本数增加可以提升音频质量，但是会增加预测长度；<

http://www.lryc.cn/news/617077.html

相关文章：

Graph-R1：一种用于结构化多轮推理的智能图谱检索框架，并结合端到端强化学习

无人机集群协同三维路径规划，采用梦境优化算法（DOA）实现，Matlab代码

量子计算机实用化：从理论到现实的艰难跨越

18.3 全量微调：数据预处理之清洗与准备

Java 基础编程案例：从输入交互到逻辑处理

Mysql系列--5、表的基本查询（上）

GitLab 零基础入门指南：从安装到项目管理全流程

Java：单例模式

在Word和WPS文字一页中实现一栏与多栏混排

攻击实验（ARP欺骗、MAC洪范、TCP SYN Flood攻击、DNS欺骗、DHCP饿死）

CompletableFuture实现Excel 多个sheet页批量导出

基于PyTorch一文讲清楚损失函数与激活函数并配上详细的图文讲解

展锐平台(Android15)WLAN热点名称修改不生效问题分析

使用tcp ntrip 协议接收数据报错 java.net.SocketException: Connection reset

IDEA 安装插件的两种方式

CVPR医学图像三套创新方案：通用分割+3D高效解码+SSM肿瘤定位（附链接）

C++高频知识点（二十）

jupyter notebook如何打开其他盘目录

创建降阶模型用于搅拌槽中的涡流预测

P3232 [HNOI2013] 游走，solution

后量子密码学的迁移与安全保障：迎接量子时代的挑战

力扣559:N叉树的最大深度

Beelzebub靶机攻略

腾讯云EdgeOne KV存储在游戏资源发布中的技术实践与架构解析

机器学习之K-means（K-均值）算法

【数据分析】循环移位岭回归分析：光遗传学冻结行为模式研究

复现论文《多无人机协同任务分配算法设计与实现》

小学数学计算技巧全攻略

7、西门子PLC基础术语：数据单位、存储区域、寻址方式、字节序