当前位置：首页 > news >正文

大模型之三十二-语音合成TTS(coqui) 之二 fine-tune

news 2025/6/29 6:40:05

在大模型之三十-语音合成TTS(coqui)[shichaog @CSDN]中提到了xttsv2的fine-tune。

数据情况：

我是从bilibili up主小Lin说提取了一些视频，然后进行了重新的fine-tune。

训练结果

如下图所示，上面波形幅度较大的是xttsv2原始模型的结果，第二个是fine-tune了290000 step之后的结果，因为CSDN没法直接放wav文件，上传到CSDN上了，但是不知道怎么变成了VIP资源，如果想要的，可以留言，超过10+人我做个网盘链接供大家下载。
在这里插入图片描述

后续计划

后续会训练vits模型以和xttsv2的效果做对比
改进中文编码，只支持中英文以提高效率&性能
增加文本上下文，以合成合适情感、情境的语音

http://www.lryc.cn/news/468717.html

相关文章：

JVM的内存模型是什么，每个区域的作用是什么，以及面试题（含答案）

《设计模式三》Java代理模式实现

vue3中计算属性的用法以及使用场景

pytorh学习笔记——cifar10（六）MobileNet V1网络结构

报表系统-连接数据库操作

[计算机网络] 常见端口号

Linux系统块存储子系统分析记录

大数据——本地威胁检测的全球方法

使用postman接口测试

Ubuntu24.04双系统安装(Linux/windows共存一文打通）

国产！瑞芯微米尔RK357核心板革新AIoT设备，8核6T高算力

中国人寿财险青岛市分公司践行绿色金融，助力可持续发展

ajax 读取文件

火语言RPA流程组件介绍--开始监听网络请求

CSS综合案例——新闻详情

【【自动驾驶】车辆运动学模型】

叉尖避障新科技：因泰立科技ILS-T52三维深度成像激光雷达

精华帖分享 | 低估值还能涨多久？

如何制作一个自己的网站？

深入探索卷积神经网络（CNN）：图像分类的利器

网站建设中需要注意哪些安全问题？----雷池社区版

光控资本：养老金融建设提速高速铜缆市场空间广阔

部署前后端分离若依项目--CentOS7宝塔版

ubuntu22.04 R Rstudio conda python 深大

二百七十一、Kettle——ClickHouse增量导入数据清洗记录表

为什么说Tcp是面向字节流的以及（Tcp粘包问题、TCP/UDP对比、listen函数的backlog参数的意义）

Flink PostgreSQL CDC源码解读：深入理解数据流同步

系统架构设计师软件架构的定义与生命周期