当前位置: 首页 > news >正文

大模型之三十二-语音合成TTS(coqui) 之二 fine-tune

在 大模型之三十-语音合成TTS(coqui)[shichaog @CSDN]中提到了xttsv2的fine-tune。

数据情况:

我是从bilibili up主小Lin说提取了一些视频,然后进行了重新的fine-tune。

训练结果

如下图所示,上面波形幅度较大的是xttsv2原始模型的结果,第二个是fine-tune了290000 step之后的结果,因为CSDN没法直接放wav文件,上传到CSDN上了,但是不知道怎么变成了VIP资源,如果想要的,可以留言,超过10+人我做个网盘链接供大家下载。
在这里插入图片描述

后续计划

  • 后续会训练vits模型以和xttsv2的效果做对比
  • 改进中文编码,只支持中英文以提高效率&性能
  • 增加文本上下文,以合成合适情感、情境的语音
http://www.lryc.cn/news/468717.html

相关文章:

  • JVM的内存模型是什么,每个区域的作用是什么,以及面试题(含答案)
  • 《设计模式三》Java代理模式实现
  • vue3中计算属性的用法以及使用场景
  • pytorh学习笔记——cifar10(六)MobileNet V1网络结构
  • 报表系统-连接数据库操作
  • [计算机网络] 常见端口号
  • Linux系统块存储子系统分析记录
  • 大数据——本地威胁检测的全球方法
  • 使用postman接口测试
  • Ubuntu24.04双系统安装(Linux/windows共存一文打通)
  • C++ - deque
  • 国产!瑞芯微米尔RK357核心板革新AIoT设备,8核6T高算力
  • 中国人寿财险青岛市分公司践行绿色金融,助力可持续发展
  • ajax 读取文件
  • 火语言RPA流程组件介绍--开始监听网络请求
  • CSS综合案例——新闻详情
  • 【【自动驾驶】车辆运动学模型】
  • 叉尖避障新科技:因泰立科技ILS-T52三维深度成像激光雷达
  • 精华帖分享 | 低估值还能涨多久?
  • 如何制作一个自己的网站?
  • torch报错
  • 深入探索卷积神经网络(CNN):图像分类的利器
  • 网站建设中需要注意哪些安全问题?----雷池社区版
  • 光控资本:养老金融建设提速 高速铜缆市场空间广阔
  • 部署前后端分离若依项目--CentOS7宝塔版
  • ubuntu22.04 R Rstudio conda python 深大
  • 二百七十一、Kettle——ClickHouse增量导入数据清洗记录表
  • 为什么说Tcp是面向字节流的以及(Tcp粘包问题、TCP/UDP对比、listen函数的backlog参数的意义)
  • Flink PostgreSQL CDC源码解读:深入理解数据流同步
  • 系统架构设计师 软件架构的定义与生命周期