当前位置: 首页 > article >正文

TTS:F5-TTS 带有 ConvNeXt V2 的扩散变换器

1,项目简介

F5-TTS 于英文生成领域表现卓越,发音标准程度在本次评测软件中独占鳌头。再者,官方预设的多角色生成模式独具匠心,能够配置多个角色,一次性为多角色、多情绪生成对话式语音,别出心裁。

  • 最低配置:无需显卡,CPU亦可推理生成
  • 据说耗时是所有TTS中最低的
  • 项目地址:https://github.com/SWivid/F5-TTS

2,项目启动

【傻瓜式启动】

conda create -n f5-tts python=3.10
conda activate f5-tts
pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124
pip install f5-ttsf5-tts_infer-gradio --port 7860 --host 0.0.0.0

【部署式启动】

  • 服务端:socket_server.py
  • 客户端:socket_client.py

3,功能支持

 E2/F5 TTS 只能功能:

  • F5-TTS(通过流式匹配模仿流利、忠实语音的童话故事机)
  • E2 TTS(令人尴尬的简单完全非自回归零样本 TTS)

http://www.lryc.cn/news/2378784.html

相关文章:

  • 强化学习笔记(一)基本概念
  • 大型语言模型中的QKV与多头注意力机制解析
  • 基于地图的数据可视化:解锁地理数据的真正价值
  • 利用自适应双向对比重建网络与精细通道注意机制实现图像去雾化技术的PyTorch代码解析
  • 分布式链路跟踪
  • 刷leetcodehot100返航版--二叉树
  • chmod 777含义:
  • AGI大模型(21):混合检索之混合搜索
  • 双重差分模型学习笔记4(理论)
  • Mysql 8.0.32 union all 创建视图后中文模糊查询失效
  • Jenkins 执行器(Executor)如何调整限制?
  • Android 中 权限分类及申请方式
  • 编程错题集系列(一)
  • 【原创】基于视觉大模型gemma-3-4b实现短视频自动识别内容并生成解说文案
  • Spark(32)SparkSQL操作Mysql
  • 基于 Python 的界面程序复现:标准干涉槽型设计计算及仿真
  • c++成员函数返回类对象引用和直接返回类对象的区别
  • AGI大模型(20):混合检索之rank_bm25库来实现词法搜索
  • 数字化转型- 数字化转型路线和推进
  • 字体样式集合
  • IP68防水Type-C连接器实测:水下1米浸泡72小时的生存挑战
  • 【技术追踪】InverseSR:使用潜在扩散模型进行三维脑部 MRI 超分辨率重建(MICCAI-2023)
  • React学习(二)-变量
  • list重点接口及模拟实现
  • 【自然语言处理与大模型】大模型(LLM)基础知识④
  • 系统架构设计(九):分布式架构与微服务
  • Java 框架配置自动化:告别冗长的 XML 与 YAML 文件
  • vue使用Pinia实现不同页面共享token
  • 遨游科普:三防平板是什么?有什么功能?
  • spring MVC 至 springboot的发展流程,配置文件变化