当前位置：首页 > news >正文

AudioGPT全新的音频内容理解与生成系统

news 2025/7/29 10:14:20

ChatGPT、GPT-4等大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出的非凡能力，引起了学界和业界的极大关注，也让人们看到了LLM在构建通用人工智能 (AGI) 系统方面的潜力。

现有的GPT模型具有极高的语言生成能力，是目前最为先进的自然语言处理模型之一，广泛应用于对话、翻译、代码生成等的自然语言处理领域。除了书面语言，用户在自然对话中主要使用口语(Spoken Language)，而大语言模型在音频处理领域的福利还差一些：

GPT模态限制。用户在自然对话中主要使用口语，对口语理解与合成有极大需求，而单模态GPT不能满足对音频(语音、音乐、背景音、3D说话人)模态的理解、生成需求。
音频数据、模型相对少。基础模型(Foundation Model)少或交互性差。相较于文本模态，用于重新训练语音多模态GPT的数据较少。
用户交互性差。用户广泛的使用语音助手如Siri, Alexa基于自然对话高效地完成工作。然而目前GPT之间的交互大多根据键盘输入的文本，交互性差，口语交互更能拉进和用户之间的关系，提升模型易用性。

为应对以上挑战，浙江大学、北京大学、卡内基梅隆大学、中国人民大学的研究人员提出了全新的音频理解与生成系统 AudioGPT。AudioGPT以 ChatGPT 充当负责对话与控制的大脑，语音基础模型协同完成跨模态转换