当前位置: 首页 > news >正文

Audio Flamingo

文章目录

  • [Audio Flamingo 3](https://research.nvidia.com/labs/adlr/AF3/) [2025.6]
    • abstract
    • method
      • AF-Whisper
      • LLM
      • streaming tts deocder
    • data
    • experiment
    • result

Audio Flamingo 3 [2025.6]

在这里插入图片描述

abstract

  • 可以处理speech/audio/music,多种音频形态的speech2speech

method

AF-Whisper

  • whisper encoder : whisper Large V3
  • 音频数据按照speech/sound/music三个维度打标签,其中sound/music的标签,主要通过AF2 encoder 进行打标;然后通过gpt 组成成一句描述性话语;作为whisper-decoder AR 预测的目标
  • decoder : 24 layers, 8 attention heads, and 1024 hidden size.
  • 其他方法是把speech/sound/music 当作不同的模态,使用不同的encoder,论文最后有对比,统一的编码器效果更好;

LLM

使用Qwen-2.5-7B

streaming tts deocder

  • DAC rvq 72 级码本,码本数增加可以提升音频质量,但是会增加预测长度;<
http://www.lryc.cn/news/617077.html

相关文章:

  • Graph-R1:一种用于结构化多轮推理的智能图谱检索框架,并结合端到端强化学习
  • 无人机集群协同三维路径规划,采用梦境优化算法(DOA)实现,Matlab代码
  • 量子计算机实用化:从理论到现实的艰难跨越
  • 18.3 全量微调:数据预处理之清洗与准备
  • Java 基础编程案例:从输入交互到逻辑处理
  • Mysql系列--5、表的基本查询(上)
  • GitLab 零基础入门指南:从安装到项目管理全流程
  • Java:单例模式
  • Python day40
  • 在Word和WPS文字一页中实现一栏与多栏混排
  • 攻击实验(ARP欺骗、MAC洪范、TCP SYN Flood攻击、DNS欺骗、DHCP饿死)
  • CompletableFuture实现Excel 多个sheet页批量导出
  • 基于PyTorch一文讲清楚损失函数与激活函数并配上详细的图文讲解
  • 展锐平台(Android15)WLAN热点名称修改不生效问题分析
  • 使用tcp ntrip 协议 接收数据报错 java.net.SocketException: Connection reset
  • IDEA 安装插件的两种方式
  • CVPR医学图像三套创新方案:通用分割+3D高效解码+SSM肿瘤定位(附链接)
  • C++高频知识点(二十)
  • jupyter notebook如何打开其他盘目录
  • 创建降阶模型用于搅拌槽中的涡流预测
  • P3232 [HNOI2013] 游走,solution
  • 后量子密码学的迁移与安全保障:迎接量子时代的挑战
  • 力扣559:N叉树的最大深度
  • Beelzebub靶机攻略
  • 腾讯云EdgeOne KV存储在游戏资源发布中的技术实践与架构解析
  • 机器学习之K-means(K-均值)算法
  • 【数据分析】循环移位岭回归分析:光遗传学冻结行为模式研究
  • 复现论文《多无人机协同任务分配算法设计与实现》
  • 小学数学计算技巧全攻略
  • 7、西门子PLC基础术语:数据单位、存储区域、寻址方式、字节序