当前位置：首页 > news >正文

GPT-4o背后的语音技术

news 2025/7/24 8:01:30

GPT-4o背后的语音技术

GPT-4o是一个any2any的多模态模型，能够接受文本、音频、图像、视频等多模态输入，也能够生成包含文本、语音、图像和视频等混合内容的多模态输出。本文主要谈语音多模态的实现，并分享一些对于语音研究未来发展的看法。

GPT-4o (“o” 代表 “omni”) 是迈向更自然的人机交互的一步ーー它接受任何文本、音频、图像和视频的组合作为输入，并生成任何文本、音频和图像输出的组合。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人类对话的响应时间 (打开一个新窗口) 相似。它匹配 GPT-4 Turbo 在英语和代码文本上的性能，在非英语语言的文本上有显著的改进，同时在 API 上也更快和便宜 50% 。与现有型号相比，GPT-4o 在视觉和音频理解方面表现得尤为突出。

OpenAI的原始博客：https://openai.com/index/hello-gpt-4o/

当我们主要关注文本和语音模态时，GPT-4o其实就是一个语音语言模型(speech language model, SLM) 。该SLM同时具备语音理解能力和语音合成能力，输入端和输出端均支持文本和语音的混合多模态。那么，这一SLM应该如何实现呢？在大语言模型(

查看全文

http://www.lryc.cn/news/523703.html