当前位置：首页 > news >正文

voice agent实现方案调研

news 2025/6/30 16:58:09

前言
目前语音交互主要的实现大体有两种：

级联方案，指的是，大规模语言模型（LLM）、文本转语音（TTS）和语音转文本（STT），客户的话通过vad断句到STT的语音转文本，经过大模型进行生成文本，生成文本后通过TTS进行回复给用户。（主流方案）
端到端的方案，开发者无需再组合多个模型来实现语音助手功能，而是可以通过单一 API 调用来处理整个过程，从语音识别到文本推理，再到语音合成。这种集成方法不仅提高了效率，还保留了情感、重音和口音等细节，大大增强了用户体验。（openai realtime）

方案对比:
暂时无法在飞书文档外展示此内容
国内目前：没有realtime端到端的方案，据了解都在25年的时候会进行发布

openai：
Realtime API with WebRTC（适用于客户端应用程序）
Realtime API with WebSockets （适用于服务端到服务端应用程序）

声网RTC：
声网本身不做大模型，但是为了使大模型在语音领域的使用，采用级联方案，这样普通大模型也能够应用到语音领域
声网认为延迟很重要，所以在延迟上下了很多功夫，这种考虑是C端的用户，用户的语音输入可能使用5g和wifl进行传输，所以延迟不稳定。<

http://www.lryc.cn/news/517102.html

相关文章：

TCP通信原理学习

Three.js 基础概念：构建3D世界的核心要素

如何用代码提交spark任务并且获取任务权柄

关于Mac中的shell

【npm依赖包介绍】借助rimraf依赖包，在用npm run build构建项目时，清空dist目录，避免新旧混合

爬虫学习记录

Java Spring Boot实现基于URL + IP访问频率限制

C4D2025 win版本安装完无法打开，提示请将你的maxon App更新至最新版本，如何解决

微信小程序实现登录注册

SpringBoot环境和Maven配置

大语言模型训练所需的最低显存，联邦大语言模型训练的传输优化技术

恒压恒流原边反馈控制芯片 CRE6289F

Java中线程中断的几种方式，你了解吗？

Tesseract5.4.0自定义LSTM训练

HTML5 弹跳动画（Bounce Animation）详解

国产编辑器EverEdit - 两种删除空白行的方法

1月7日星期二今日早报简报微语报早读

随机置矩阵列为0[矩阵乘法pytorch版]

C# 中mysql数据库，已经在原有数据库升级数据库脚本，去管理可以一次，和多次执行的，nuget包

PCL 分段线性函数

王静波页岩气：工厂蜕变的创业传奇

php反序列化 ctf例题演示框架安全（TP,Yii,Laravel） phpggc生成框架利用pop

Koi技术教程-Tauri基础教程-第二节 Tauri的核心概念上

入门网络安全工程师要学习哪些内容【2025年寒假最新学习计划】

vulnhub靶场【DC系列】之5

前端面试题合集

基于RK3568/RK3588大车360度环视影像主动安全行车辅助系统解决方案，支持ADAS/DMS