当前位置：首页 > article >正文

TTS：F5-TTS 带有 ConvNeXt V2 的扩散变换器

article 2025/9/17 10:39:10

1，项目简介

F5-TTS 于英文生成领域表现卓越，发音标准程度在本次评测软件中独占鳌头。再者，官方预设的多角色生成模式独具匠心，能够配置多个角色，一次性为多角色、多情绪生成对话式语音，别出心裁。

最低配置：无需显卡，CPU亦可推理生成
据说耗时是所有TTS中最低的
项目地址：https://github.com/SWivid/F5-TTS

2，项目启动

【傻瓜式启动】

conda create -n f5-tts python=3.10
conda activate f5-tts
pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124

pip install f5-ttsf5-tts_infer-gradio --port 7860 --host 0.0.0.0

【部署式启动】

服务端：socket_server.py
客户端：socket_client.py

3，功能支持

E2/F5 TTS 只能功能：

F5-TTS（通过流式匹配模仿流利、忠实语音的童话故事机）
E2 TTS（令人尴尬的简单完全非自回归零样本 TTS）

查看全文

http://www.lryc.cn/news/2378784.html

强化学习笔记（一）基本概念

大型语言模型中的QKV与多头注意力机制解析

基于地图的数据可视化：解锁地理数据的真正价值

利用自适应双向对比重建网络与精细通道注意机制实现图像去雾化技术的PyTorch代码解析

分布式链路跟踪

刷leetcodehot100返航版--二叉树

chmod 777含义：

AGI大模型（21）：混合检索之混合搜索

双重差分模型学习笔记４（理论）

Mysql 8.0.32 union all 创建视图后中文模糊查询失效

Jenkins 执行器（Executor）如何调整限制？

Android 中权限分类及申请方式

编程错题集系列（一）

【原创】基于视觉大模型gemma-3-4b实现短视频自动识别内容并生成解说文案

Spark（32）SparkSQL操作Mysql

基于 Python 的界面程序复现：标准干涉槽型设计计算及仿真

c++成员函数返回类对象引用和直接返回类对象的区别

AGI大模型（20）：混合检索之rank_bm25库来实现词法搜索

数字化转型- 数字化转型路线和推进

字体样式集合

IP68防水Type-C连接器实测：水下1米浸泡72小时的生存挑战

【技术追踪】InverseSR：使用潜在扩散模型进行三维脑部 MRI 超分辨率重建（MICCAI-2023）

React学习（二）-变量

list重点接口及模拟实现

【自然语言处理与大模型】大模型（LLM）基础知识④

系统架构设计（九）：分布式架构与微服务

Java 框架配置自动化：告别冗长的 XML 与 YAML 文件

vue使用Pinia实现不同页面共享token

遨游科普：三防平板是什么？有什么功能？

spring MVC 至 springboot的发展流程，配置文件变化

1，项目简介

2，项目启动

3，功能支持

相关文章：