当前位置: 首页 > news >正文

voice agent实现方案调研

前言
目前语音交互主要的实现大体有两种:

  1. 级联方案,指的是,大规模语言模型 (LLM)、文本转语音 (TTS) 和语音转文本 (STT),客户的话通过vad断句到STT的语音转文本,经过大模型进行生成文本,生成文本后通过TTS进行回复给用户。(主流方案)
  2. 端到端的方案,开发者无需再组合多个模型来实现语音助手功能,而是可以通过单一 API 调用来处理整个过程,从语音识别到文本推理,再到语音合成。这种集成方法不仅提高了效率,还保留了情感、重音和口音等细节,大大增强了用户体验。(openai realtime)

方案对比:
暂时无法在飞书文档外展示此内容
国内目前:没有realtime端到端的方案,据了解都在25年的时候会进行发布
image.png

openai:
Realtime API with WebRTC(适用于客户端应用程序)
Realtime API with WebSockets (适用于服务端到服务端应用程序)

声网RTC:
声网本身不做大模型,但是为了使大模型在语音领域的使用,采用级联方案,这样普通大模型也能够应用到语音领域
声网认为延迟很重要,所以在延迟上下了很多功夫,这种考虑是C端的用户,用户的语音输入可能使用5g和wifl进行传输,所以延迟不稳定。<

http://www.lryc.cn/news/517102.html

相关文章:

  • TCP通信原理学习
  • Three.js 基础概念:构建3D世界的核心要素
  • 如何用代码提交spark任务并且获取任务权柄
  • 关于Mac中的shell
  • 【npm依赖包介绍】借助rimraf依赖包,在用npm run build构建项目时,清空dist目录,避免新旧混合
  • 爬虫学习记录
  • Java Spring Boot实现基于URL + IP访问频率限制
  • C4D2025 win版本安装完无法打开,提示请将你的maxon App更新至最新版本,如何解决
  • 微信小程序实现登录注册
  • SpringBoot环境和Maven配置
  • 大语言模型训练所需的最低显存,联邦大语言模型训练的传输优化技术
  • 1.07 标准IO
  • 恒压恒流原边反馈控制芯片 CRE6289F
  • Java中线程中断的几种方式,你了解吗?
  • Tesseract5.4.0自定义LSTM训练
  • centOS7
  • HTML5 弹跳动画(Bounce Animation)详解
  • 4.1.3 串
  • 国产编辑器EverEdit - 两种删除空白行的方法
  • 1月7日星期二今日早报简报微语报早读
  • 随机置矩阵列为0[矩阵乘法pytorch版]
  • C# 中mysql数据库,已经在原有数据库升级数据库脚本,去管理可以一次,和多次执行的,nuget包
  • PCL 分段线性函数
  • 王静波页岩气:工厂蜕变的创业传奇
  • php反序列化 ctf例题演示 框架安全(TP,Yii,Laravel) phpggc生成框架利用pop
  • Koi技术教程-Tauri基础教程-第二节 Tauri的核心概念上
  • 入门网络安全工程师要学习哪些内容【2025年寒假最新学习计划】
  • vulnhub靶场【DC系列】之5
  • 前端面试题合集
  • 基于RK3568/RK3588大车360度环视影像主动安全行车辅助系统解决方案,支持ADAS/DMS