当前位置: 首页 > news >正文

游戏语音趋势解析,社交互动有助于营造沉浸式体验

语音交互的新架构出现

2024 年标志着对话语音 AI 取得了突破,出现了结合 STT → LLM → TTS 模型来聆听、推理和回应对话的协同语音系统。

OpenAI 的 ChatGPT 语音模式将语音转语音技术变成了现实,引入了基于音频和文本信息进行端到端预训练的模型,这些模型除了文本标记外,还能原生理解和生成音频。虽然 OpenAI 通过其Realtime API实现的可能还不是完全端到端的,正如其演示中处理中断的挑战所证明的那样,但它代表着朝着使用单一统一模型进行语音交互迈出了重要的一步。

语音 AI API 不断发展,实现企业级自然对话

2024 年,现代语音代理架构的三个核心组件的改进使语音 AI 能够用自然对话取代僵化的“按 1 转英语”电话树。

  • 语音转文本 (STT):转录质量已经足够强大,可以使其成为设计音频原生应用程序的标准工具。然而,领域特定术语和远场转录等问题仍然具有挑战性。2022 年,OpenAI 的Whisper凭借其开源模型奠定了基础,该模型在令人印象深刻的 680,000 小时多语言音频数据上进行了训练。Deepgram的 Nova-2 模型此后提高了标准,将单词错误率 (WER) 降低了 30%,并为 2024 年的商业应用设定了新的基准。

  • 大型语言模型 (LLM):2024 年GPT-4o、Llama 3.2、Claude 3.5 Sonnet和Gemini 2.0的发布标志着推理和效率的大幅提升。LLM 成本从 GPT-4 的 45 美元/百万大幅下降到Together AI上运行的 Llama 3.1 70B 的 2.75 美元/百万代币。语音模型现在支持输入流,允许音频在从 LLM 接收输入时实时生成,同时保持语音片段之间的一致韵律。

  • 文本转语音 (TTS):TTS 模型已达到生产级成熟度,在处理复杂内容(例如首字母缩略词和数字表达式)时,延迟更低、自然度更高、准确度更高。领先的 TTS 引擎已将合成声音从机器人般的声音转变为真正像人类一样的语音。这一进步得益于神经网络架构(SSM、Transformers、扩散模型)的创新、训练数据质量和多样性的进步以及音频编解码器的优化——这对于高效编码和解码用于流式传输或存储的数字音频至关重要。

    如果说传统的游戏语音讲究的是保障玩家稳定的交流体验,解决影响体验的常见问题,那么,网易云信提供的游戏语音则更进一步,其核心在于通过个性化服务和持续的技术革新,以尽可能低的成本,助力游戏厂商为游戏玩家提供更易用、更高质、更安全开放且多样化玩法的沉浸式语音环境

    图片

    通过持续打通语音技术和生态通路,为游戏开发者赋能。在提升玩家沉浸式语音体验方面,提供范围语音、空间音效等创新玩法,针对打机环境的瞬时噪音和手机功放时的远端回声问题,推出了云信自研的 3A 算法,包括 AI 降噪AI 回声消除等能力,确保玩家享受到高品质的游戏体验。

    另外,云信与 Wwise 引擎的深度融合则进一步优化游戏语音表现。针对游戏语音领域的多样化新趋势,通过对语音需求的深入需求,并将云信的即时通讯(IM)功能中的部分核心能力集成到了游戏语音,以增强游戏语音社交体验。

想要了解详情戳我戳我!或✉LTT936

语音 AI 也不再局限于最初专注于专业消费者和语音原生初创公司,而是开始满足企业需求。语音 AI 系统必须从根本上重新设计,以满足严格的实时交互标准,这些标准超过了传统异步应用程序的标准。由于实时对话无法编辑或重新生成,因此基础设施必须提供有保证的正常运行时间、完美的并发呼叫处理和不折不扣的可靠性。为了服务传统企业,升级了他们的平台,提供可定制的 SLA、峰值流量的动态扩展、强大的安全认证以及针对高度监管行业的自托管选项。这些功能在早期的语音 AI 产品中很少见,但随着技术的成熟,它们已成为标准。(该内容节选自公号,侵权删)

未来,无论游戏语音领域的需求和玩法如何演变,我们都将持续助力游戏厂商和独立开发者,满足更多创新玩法需求,并为玩家打造更加沉浸和震撼的音效体验。

http://www.lryc.cn/news/516930.html

相关文章:

  • 美食烹饪互动平台
  • 【51单片机零基础-chapter5:模块化编程】
  • Redis中的主从/Redis八股
  • ROS笔记
  • 在 Linux 上调试 C++ 程序
  • 让跨 project 联查更轻松,SLS StoreView 查询和分析实践
  • 20240107-类型转换
  • 关于Linux PAM模块下的pam_listfile
  • OKHttp调用第三方接口,响应转string报错okhttp3.internal.http.RealResponseBody@4a3d0218
  • 弱电与电力工程领域,如何通过工程项目管理软件提升效率
  • 引领实时数据分析新时代:阿里云实时数仓 Hologres
  • 什么是中间件中间件有哪些
  • css中的部分文字特性
  • PyQt5 UI混合开发,控件的提升
  • IP查询于访问控制保护你我安全
  • SpringBoot数据层解决方案
  • 前端数据模拟器 mockjs 和 fakerjs
  • Python 类 Class
  • PHP语言的并发编程
  • 小米智能哑铃上市,代理 IP 视角下的智能健身新篇
  • 业务日志设计
  • 对话|全年HUD前装将超330万台,疆程技术瞄准人机交互“第一屏”
  • 【论文笔记】QLoRA: Efficient Finetuning of Quantized LLMs
  • 计算机网络之---物理层的基本概念
  • Burpsuite20241102macM1版安装
  • 缓存常见问题
  • C++ 入门第25天:线程池(Thread Pool)基础
  • 微信小程序中的 storage(本地存储)和内存是两个完全不同的存储区域
  • WLAN基本原理与配置
  • KaliLinux 2022.1安装和相关配置