【读代码】李沐团队开源音频大模型 Higgs Audio V2
一、项目简介
Higgs-Audio 是 Boson AI 团队开源的多模态音频大模型项目,致力于打造通用音频理解与生成的基础设施。Higgs-Audio 支持音频转文本(ASR)、文本转音频(TTS)、音频事件检测、音频检索、音频问答等多种任务,具备强大的多任务、多语言、多模态能力。
主要特性:
- 支持音频理解(ASR、事件检测、音频问答等)与音频生成(TTS、音频合成等)
- 多模态输入(音频、文本、图片等)与多模态输出
- 基于 Transformer/LLM 架构,具备强泛化能力
- 开放模型权重、推理代码与训练框架
- 支持 HuggingFace Transformers、PyTorch 等主流生态
二、快速上手
1. 环境准备
建议使用 Python 3.8+,推荐 GPU 环境(CUDA 11.7+),依赖 PyTorch、transformers、torchaudio 等。
git clone https://github.com/boson-ai/higgs-audio.git