当前位置: 首页 > news >正文

coqui-ai/TTS 安装使用

Coqui AI的TTS是一款开源深度学习文本转语音工具,以高质量、多语言合成著称。它提供超过1100种语言的预训练模型库,能够轻松集成到各种应用中,并允许用户通过简单API进行个性化声音训练与微调。其技术亮点包括但不限于低资源适应性(如YourTTS模型可处理有限或零样本数据),实时流式传输功能(支持200毫秒级延迟)以及强大的跨语言克隆能力。

安装:

pip install TTS

根据提示配置环境,比如Microsoft C++ Build Tools,安装完成可以进行语音生成: 

示例:

import torch
from TTS.api import TTS# Get device
device = "cuda" if torch.cuda.is_available() else "cpu"# List available 🐸TTS models
print(TTS().list_models())# Init TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)# Run TTS
# ❗ Since this model is multi-lingual voice cloning model, we must set the target speaker_wav and language
# Text to speech list of amplitude values as output
wav = tts.tts(text="Hello world!", speaker_wav="my/cloning/audio.wav", language="en")
# Text to speech to a file
tts.tts_to_file(text="Hello world!", speaker_wav="my/cloning/audio.wav", language="en", file_path="output.wav")
  1. import torch: 导入PyTorch库,用于处理计算图和运行在GPU上的深度学习模型。
  2. from TTS.api import TTS: 从TTS库中导入TTS类,用于文本到语音合成的API。
  3. device = "cuda" if torch.cuda.is_available() else "cpu": 检测当前系统是否支持CUDA(GPU加速),如果支持,则将设备设置为GPU("cuda"),否则设置为CPU。
  4. print(TTS().list_models()): 打印可用的TTS模型列表,列出所有可用的语音合成模型。
  5. tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device): 初始化TTS对象,并指定要使用的语音合成模型。在这个例子中,使用了一个多语言语音克隆模型(multilingual voice cloning model),并将其移动到之前检测到的设备(GPU或CPU)上。
  6. tts.tts_to_file(text="Hello world!", speaker_wav="my/cloning/audio.wav", language="en", file_path="output.wav"): 将TTS生成的语音保存到文件中。调用tts.tts_to_file()方法,传入要转换的文本、目标说话者的语音文件路径(需要克隆语音的文件)、语言参数以及要保存语音的文件路径。

模型下载:

案例model文件下载缓慢,可以在这获取

路径修改参考:

os.environ.setdefault('TTS_HOME', 'D:/workplace/pyhon/model/TTS_HOME')
os.environ.setdefault('XDG_DATA_HOME', 'D:/workplace/pyhon/model/XDG_DATA_HOME')

http://www.lryc.cn/news/312884.html

相关文章:

  • Spring AOP相关注解及执行顺序
  • C++从零开始的打怪升级之路(day44)
  • [C++核心编程](七):类和对象——运算符重载*
  • 什么是MVC和MVVM
  • 物体检测-系列教程23:YOLOV5 源码解析13 (SPP层、Flatten模块、Concat模块、Classify模块)
  • 2024.3.6每日一题
  • YOLOSHOW - YOLOv5 / YOLOv7 / YOLOv8 / YOLOv9 基于 Pyside6 的图形化界面
  • sql高级
  • 更快更强,Claude 3全面超越GPT4,能归纳15万单词
  • devc++小游戏3.8.5
  • Java网络通信TCP
  • 层级锁笔记
  • 基于SpringBoot+Vue 的专家医院预约挂号系统
  • 计算机基础专升本笔记十二-Excel常用快捷键大全
  • 制作耳机壳的UV树脂和塑料材质相比优势有哪些?
  • JS(JavaScript)中如何实现,复选框checkbox多选功能
  • 直接修改zynq petalinux编译出来的rootfs.cpio.gz文件内容
  • 什么是 Golang 类型断言
  • mysql数据库root权限读写文件
  • 力扣爆刷第88天之hot100五连刷26-30
  • Ethersacn的交易数据是什么样的(2)
  • 学习Android的第二十二天
  • JavaScript——流程控制(程序结构)
  • 如何用ChatGPT+GEE+ENVI+Python进行高光谱,多光谱成像遥感数据处理?
  • AIGC工具( 7个 )
  • 学习Java的第一天
  • 【设计模式】工厂模式与抽象工厂模式
  • 使用plasmo框架开发浏览器插件,注入contents脚本和给页面添加UI组件
  • python并发 惰性处理大型数据集
  • Docker将本地的镜像上传到私有仓库