当前位置: 首页 > news >正文

环境背景文本到语音转换

目录

    • 概述
    • 演示效果
    • 核心逻辑
    • 使用方式

概述

  • 本文所涉及的所有资源的获取方式:https://www.aspiringcode.com/content?id=100000000027&uid=2f1061526e3a4548ab2e111ad079ea8c

论文标题:

本文提出了 VoiceLDM,这是一种旨在生成准确遵循两种不同自然语言文本提示的音频的模型:描述提示和内容提示。前者提供有关音频整体环境背景的信息,而后者则传达语言内容。为了实现这一目标,我们采用基于潜在扩散模型的文本到音频(TTA)模型,并扩展其功能以纳入额外的内容提示作为条件输入。通过利用预训练对比语言音频预训练 (CLAP) 和 Whisper,VoiceLDM 可以在大量真实世界音频上进行训练,而无需手动注释或转录。此外,我们采用双分类器免费引导来进一步增强 VoiceLDM 的可控性。实验结果表明,VoiceLDM 能够生成与两种输入条件均吻合的可信音频,甚至超过了 AudioCaps 测试集上真实音频的语音清晰度。此外,我们还探索了 VoiceLDM 的文本转语音 (TTS) 和零样本文本转音频功能,并表明它取得了有竞争力的结果。

演示效果

可以看到演示效果(暂时只支持英文,不过试了一下拼音,效果尚可)

1、描述一个环境,比如:She is talking in a park! 2、写下一段内容,比如:Good morning! How are you feeling today? 3、程序就可以输出一段环境语音,让你一下子就能感受到:早晨鸟语花香的公园里,她在跟人家亲切的打招呼的场景语音

核心逻辑

详见描述

环境声(文本转音频) + 说话声(文字转语音) = 场景合成声(环境控制的文本转语音)

使用方式

生成带有描述提示和内容提示的音频

python generate.py --desc_prompt "She is talking in a park." --cont_prompt "Good morning! How are you feeling today?"

上述程序初次调用会下载对应模型,有些资源可能需要魔法:

涉及的模型(运行程序时会自动下载):

成功后会生成语音在outputs文件夹下:

  • 本文所涉及的所有资源的获取方式:https://www.aspiringcode.com/content?id=100000000027&uid=2f1061526e3a4548ab2e111ad079ea8c
http://www.lryc.cn/news/489618.html

相关文章:

  • 后端数据增删改查基于Springboot+mybatis mysql 时间根据当时时间自动填充,数据库连接查询不一致,mysql数据库连接不好用
  • 《Python编程实训快速上手》第九天--调试技巧
  • html5复习一
  • SSL/TLS,SSL,TLS分别是什么
  • css iframe标签使用
  • API的妙用
  • HTML5超酷响应式视频背景动画特效(六种风格,附源码)
  • Spire.PDF for .NET【页面设置】演示:打开 PDF 时自动显示书签或缩略图
  • 算法中常用到的数学知识:埃拉托色尼筛法(获取质数)、欧几里得算法(求两个数最大公因数)
  • 实战OpenCV之人脸识别
  • 图像预处理之图像滤波
  • 【通俗理解】隐变量的变分分布探索——从公式到应用
  • PyTorch 分布式并行计算
  • [cg] vulkan external_memory
  • 如何使用Python代码实现给GPU预加热
  • 硬件知识 cadence16.6 原理图输出为pdf 网络名下划线偏移 (ORCAD)
  • ffmpeg视频滤镜:提取缩略图-framestep
  • RecyclerView详解——(四)缓存复用机制
  • 进程 系统调用 中断
  • 演讲回顾丨杭州悦数 CTO 叶小萌:图数据库发展新航向——拥抱 GQL,融合 HTAP,携手 AI
  • Java安全—JNDI注入RMI服务LDAP服务JDK绕过
  • C++:设计模式-单例模式
  • Softing工业将OPC UA信息建模集成到边缘应用和安全集成服务器中
  • WPF中如何让Textbox显示为一条直线
  • VSCode汉化教程【简洁易懂】
  • 跨平台多开账号防关联:轻松管理多个账号!
  • DICOM图像处理:深入解析DICOM彩色图像中的Planar配置及其对像素数据解析处理的实现
  • jupyter notebook的 markdown相关技巧
  • Linux连接网络的三种方式
  • ##继承##