当前位置：首页 > news >正文

【读代码】李沐团队开源音频大模型 Higgs Audio V2

news 2025/7/28 11:32:31

一、项目简介

Higgs-Audio 是 Boson AI 团队开源的多模态音频大模型项目，致力于打造通用音频理解与生成的基础设施。Higgs-Audio 支持音频转文本（ASR）、文本转音频（TTS）、音频事件检测、音频检索、音频问答等多种任务，具备强大的多任务、多语言、多模态能力。

主要特性：

支持音频理解（ASR、事件检测、音频问答等）与音频生成（TTS、音频合成等）
多模态输入（音频、文本、图片等）与多模态输出
基于 Transformer/LLM 架构，具备强泛化能力
开放模型权重、推理代码与训练框架
支持 HuggingFace Transformers、PyTorch 等主流生态

二、快速上手

1. 环境准备

建议使用 Python 3.8+，推荐 GPU 环境（CUDA 11.7+），依赖 PyTorch、transformers、torchaudio 等。

git clone https://github.com/boson-ai/higgs-audio.git

http://www.lryc.cn/news/597733.html

相关文章：

二、计算机网络技术——第4章：网络层

4️⃣字典（dict）速查表

三大论坛联动，2025合成生物学盛会助力生物制造高质量发展

半导体 CIM（计算机集成制造）系统

Hexo - 免费搭建个人博客02 - 创建个人博客

智能办公如何创建e9流程

ubuntu24的一些小问题

Spring事务注解详解：确保你的应用数据的一致性

Python Day22 - 复习日

Python-Pytorch编码习惯

C++ BFS实例：从入门到实战

设计模式八：原型模式 (Prototype Pattern)

java设计模式 -【装饰器模式】

AI营销核心技术解析：运作机制与行业应用实例

在模拟器上实现 GRE 实验

HCIP一二章笔记

动态路由协议基础

HF86611_VB1/HF86611Q_VB1：多通道USB HiFi音频解码器固件技术解析

0基础法考随手笔记 02（刑诉法专题04 辩护与代理）

音视频中一些常见的知识点

机器学习与视觉结合开发基础

设备虚拟化技术

漏洞扫描系列03:导出PDF/HTML报告

如何Visual Studio 的配置从 Qt-Debug 切换到 x64-Debug

定义损失函数并以此训练和评估模型

DPVR亮相青岛品牌日，崂山科创力量引领AI眼镜新浪潮

广告业技术范式转移：当AI开始重构整个价值链

基于YOLOv5+pyQT6的目标检测系统通用项目模板

指针的大小是多少？

电子公章怎么弄到合同上？2025最新指南