当前位置: 首页 > news >正文

OpenAI再下一城:发布Voice Engine,可使用文本和参考语音合成说话者的新语音!

转自 机器学习算法工程师

OpenAI又发布了一个最新的工作:Voice Engine。Voice Engine可以使用文本输入和单个 15 秒音频样本生成听起来自然且与原始说话者非常相似的语音。而且,一个小型模型仅通过一个 15 秒的样本就能创造出富有情感且逼真的语音。Voice Engine开发于2022年末,已经用于OpenAI的文本转语音API以及ChatGPT语音生成中。由于合成语音可能被滥用,所以OpenAI比较谨慎地发布和部署Voice Engine。

这里,OpenAI给出了Voice Engine的可能的早期应用。

提供阅读辅助

Voice Engine可以合成自然且听起来、富有情感的语音为非读者和儿童提供阅读辅助,这些语音代表了比预设语音更广泛的说话者范围。专注于儿童学业成功的教育技术公司 Age of Learning 一直在使用这项技术来生成预先编写的配音内容。他们还使用 Voice Engine 和 GPT-4 来创建实时、个性化的响应与学生互动。借助这项技术,Age of Learning 已经能够为更广泛的受众创造更多内容。

翻译内容

翻译内容,如视频和播客,让创作者和企业能够以流利的、自己的声音触及世界各地的更多人。这方面的早期采用者之一是 HeyGen,一个 AI 视觉叙事平台,它与企业客户合作,为各种内容创建定制的、类似人类的头像,从产品营销到销售演示。他们使用 Voice Engine 进行视频翻译,这样他们就可以将说话者的声音翻译成多种语言,触及全球观众。当用于翻译时,Voice Engine 保留了原始说话者的本地口音:例如,使用来自法语说话者的音频样本生成英语,会产生带有法语口音的语音。

触及全球社区

通过改善偏远地区的基本服务交付,触及全球社区。Dimagi 正在为社区卫生工作者构建工具,以提供各种基本服务,如对哺乳母亲的咨询。为了帮助这些工作者提升他们的技能,Dimagi 使用 Voice Engine 和 GPT-4 提供每位工作者的主要语言的交互式反馈,包括斯瓦希里语或更非正式的语言,如在肯尼亚流行的混合代码语言 Sheng。

支持非言语人群

例如用于影响言语的病症的治疗效果和对有学习需求的人的教育增强。Livox,一个 AI 替代通讯应用程序,为增强和替代通讯(AAC)设备提供动力,使残疾人能够交流。通过使用 Voice Engine,他们能够为非言语人群提供独特且非机械性的多种语言语音。他们的用户可以选择最能代表他们的语音,对于多语言用户,可以在每种口语中保持一致的语音。

帮助患者恢复他们的声音

对于那些患有突发性或退行性言语病症的人。Lifespan 的 Norman Prince Neurosciences Institute,一个非营利性卫生系统,作为布朗大学医学院的主要教学附属机构,正在探索 AI 在临床环境中的用途。他们一直在试行一个项目,为因肿瘤或神经原因导致言语障碍的个人提供 Voice Engine。由于 Voice Engine 只需要如此短的音频样本,医生 Fatima Mirza、Rohaid Ali 和 Konstantina Svokos 能够恢复一位因血管性脑肿瘤失去流利言语的年轻患者的语音,使用的是她为学校项目录制的视频中的音频。

http://www.lryc.cn/news/411389.html

相关文章:

  • KVM高级功能部署
  • 【C语言】柔性数组(打开前所未见的大门)
  • 设计模式17-适配模式
  • react ant Input defaultValue={value}设置了value值以后,但是defalult没有赋值上,输入框也没有显示
  • 大模型开发如何把一段文字变成一组token?
  • 【MSYS】Windows Terminal 集成
  • Python酷库之旅-第三方库Pandas(056)
  • ZBrush入门使用介绍——4、笔刷选项说明
  • Java每日一练,技术成长不间断
  • 传知代码-上下位关系自动检测方法(论文复现)
  • 从零开始的MicroPython(二) GPIO及代码应用
  • 嵌入式day15
  • 【电池管理系统(BMS)-01】 | 电池管理系统简介,动力电池和储能电池区别
  • C++ STL partial_sum 用法
  • 诚宜开张圣听不应妄自菲薄
  • Vue3 加载条(LoadingBar)
  • 《CSS创意项目实战指南》:点亮网页,从实战中掌握CSS的无限创意
  • [FBCTF2019]RCEService (PCRE回溯绕过和%a0换行绕过)
  • vue3后台管理系统 vue3+vite+pinia+element-plus+axios上
  • Mysql的事务隔离级别实现原理
  • 计算机体系结构:缓存一致性ESI
  • log4j2漏洞练习(未完成)
  • 常见网络攻击方法原理、应用场景和防御方法(一)
  • 【leetcode十分钟】覆盖所有点的最少矩形数目(C++思路详解)
  • 【Vue3】默认插槽
  • 华清day4 24-7-31
  • 搜维尔科技:Manus VR数据手套-适用于机器人、人工智能和机器学习解决方案
  • 知识文库杂志知识文库杂志社知识文库编辑部2024年第12期目录
  • 【Linux网络编程】套接字Socket
  • es之must、filter、must_not、should