当前位置: 首页 > news >正文

AI孙燕姿项目实现

最近在b站刷到很多关于ai孙笑川唱的歌曲,加上最近大火的ai孙燕姿,
这下“冷门歌手”整成热门歌手了

于是写下一篇文章, 如何实现属于的ai歌手。
注意滥用ai,侵犯他人的名誉是要承担法律责任的

在这里插入图片描述
下面是一些所需的文件链接:
sovits:github.com/svc-develop-team/so-vits-svc
一鍵包:www.bilibili.com/video/BV1Cc411H74D/
UVR5:www.bilibili.com/video/BV1ga411S7gP/

RX Audio Editor
123盤:www.123pan.com/s/RiyA-LjS03
夸克網盤:pan.quark.cn/s/f9791f6790d3
百度網盤:pan.baidu.com/s/1xUXd9vVHR11sjJ6wCVuwHQ?pwd=hjhj 提取碼: hjhj

Audio Slicer:
Github鏈接:github.com/flutydeer/audio-slicer/blob/main/README.zh-CN.md

整个项目的使用,从深度学习角度来说,可以分为模型推理和模型训练。

  • 第一种,我们可以用已有的ai歌手模型直接进行推理,输出
  • 第二种,自己训练一个ai歌手模型

对于模型推理,对电脑性能要求不高,但是模型训练,对显卡要求挺高

本项目主要使用的是So-VITS-SVC 4.0这个项目,github地址是:https://github.com/svc-develop-team/so-vits-svc

AI孙燕姿项目实现

  • 本地项目实现
    • 1.软件安装
    • 2.准备数据集
    • 3.开始训练 (本地训练)
    • 4.模型推理
  • 云端项目实现
  • ⚠️

本地项目实现

1.软件安装

sovits:github.com/svc-develop-team/so-vits-svc

解压后,找到webui.bat(这就是我们ai合成的工具)

2.准备数据集

注意数据集质量比数量更重要,如果要训练一个歌手,最好的方法就是下载他的唱的歌,下载高品质的音乐,除了歌手,还可以考虑采访的,直播的

做过语音处理的应该知道,语音数据需要经过一些处理,这里用UVR5软件提取出音乐的人声

具体实现

打开软件后,把需要提取的视频,拖到select input,文件最好用wav,设置输出路径select Output(随意),其余的参数,可以看下图
然后点击start processing,运行
在这里插入图片描述

处理完,还可以用RX Audio Editor(音频切片机)进一步处理,类似于做语音处理的,预加重,去燥,也可以用代码去实现

下载RX Audio Editor后解压,找到slicer-gui双击运行,将刚才处理好的,导入到其中,设置输出路径,输出完,把文件放到sovits目录下的dataset_raw
在这里插入图片描述

3.开始训练 (本地训练)

打开webui
点击识别数据集
然后点击数据预处理

在这里插入图片描述
往下看输出的信息,当看到100%,证明数据已经加载完毕了
在这里插入图片描述

配置自己的训练超参数,信息,然后点击从头开始训练
在这里插入图片描述

4.模型推理

回头推理界面,选择G开头的模型。选择配置文件,之后上传要转化的视频

在这里插入图片描述
设置音色变调
男转女 设置为5~8,女转男 -5~-8

在这里插入图片描述

接着直接点转换
在这里插入图片描述

如果音色不太好,可能就是模型训练,迭代次数少了,可以继续上次训练。跟深度学习模型训练原理一样

云端项目实现

跟上面处理数据集一样,把数据集压缩后,上传到云上的sovits项目地址的dataset_raw文件夹下,用命令unzip解压

云端项目实现的流程,在项目文件的reame-v4.ipynb里有详细说明了

在这里插入图片描述
按照这个jupyter notebook上面的步骤运行就行了

⚠️

这个github项目最后有一段关于模型使用的说明,以后ai的使用一定也会越来规范,不会滥用
在这里插入图片描述

http://www.lryc.cn/news/70457.html

相关文章:

  • 传统机器学习(六)集成算法(2)—Adaboost算法原理
  • 性能优化常用的技巧,你都知道吗?
  • 机器学习——损失函数(lossfunction)
  • 小航助学2022年NOC初赛图形化(小高组)(含题库答题软件账号)
  • 软考中级数据库系统工程师-第6-7章 数据库技术基础关系数据库
  • 掌握RDD算子2
  • ORACLE-SQL性能优化(3)
  • 3年外包裸辞,面试阿里、字节全都一面挂,哭死.....
  • JavaEE(系列16) -- 多线程(信号量与CountDownLatch)
  • Tomcat配置https协议证书-阿里云,Nginx配置https协议证书-阿里云,Tomcat配置https证书pfx转jks
  • 抖音定位基本原理
  • 【Hbase 05】Hbase表的设计原则与优化方案
  • 行业报告 | 2022文化科技十大前沿应用趋势(上)
  • 实现BIM的Revit软件学习资料
  • 09 集合框架2
  • 相见恨晚的5款良心软件,每款都是经过时间检验的精品
  • AI与税务管理:新技术带来的新机遇和新挑战
  • springboot 集成 Swagger3(速通)
  • 2023年NOC大赛创客智慧编程赛项图形化复赛模拟题二,包含答案解析
  • 2023年NOC大赛创客智慧编程赛项Python 复赛模拟题(二)
  • 【SQL】MySQL的查询语句
  • 测试的分类
  • 【5.21】六、自动化测试—持续集成测试
  • 【C++】 排列与组合算法详解(进阶篇)
  • Godot引擎 4.0 文档 - 循序渐进教程 - 监听玩家输入
  • Docker笔记9 | Docker中网络功能知识梳理和了解
  • 生态系统模型:SolVES、DNDC、CMIP6、GEE林业、APSIM、InVEST、无人机遥感、ArcGIS Pro模型等
  • 常见分布函数。
  • 【网络安全】红队攻防之基础免杀
  • CTF入门指南