当前位置：首页 > news >正文

国服最强文字转音频？Fish Speech

news 2025/8/1 15:18:55

官网文档与示例

在这里插入图片描述

Fish Speech V1.2 是一款领先的文本到语音 (TTS) 模型，使用 30 万小时的英语、中文和日语音频数据进行训练。我尝试用1066运行，但是质量不尽如人意，建议使用RTX系列的显卡进行推理。

使用结果展示

    text= """2024年1月6日，夜色如墨，而深圳C局客户机房内的灯光却异常明亮，现场支撑的淞哥，眼睛紧盯着屏幕，手指在键盘上飞速敲击，随着最后一行代码的执行，他难掩激动地在大网改造保障群对话框里迅速写下：“服务启动完成、OSS（无线运营商业务系统）正常接入、定时报表正常生成、数据迁移范围符合预期……”这不仅是一条消息，更是一声胜利的号角。
消息一发出，群里立刻沸腾了，点赞和鼓掌的表情包不断在屏幕上跳动着。这一刻，我们所有人的心都紧紧相连，共同分享着这份来之不易的喜悦。
我坐在电脑前，闭上眼睛，任由思绪穿越时空，回到了过去一年中的每一个日夜……
缘起：跨领域迎接挑战
在OMC（无线网络管理）的先进领域，运营商客户始终在追求拥有一个高效管理系统——能够统一掌控庞大网络设备的理想平台。无论省份、设备制造商如何分散，都能通过统一的OMC系统实现无缝运维管理，这将极大提升运维效率，优化网络性能。
此前，我们的PRS（无线网络性能评估系统）作为无线网络管理领域的创新成果，成为了运营商客户日常网络运维不可或缺的一部分。客户对我们的信赖和对大网能力的期待，成为我们不断追求技术突破的动力。
2019年，我们迈出了重要的一步：PRS首套1W大网商用系统上线。“1W大网”能够管理一万个等效网元，为了有效处理海量T级别网络性能数据，我们首次引入了“Hadoop分布式集群系统”。同时，我们还有灵活管理规模小于一万个网元的 “PRS小网”系统，它一直依赖于公司自主研发的高斯数据库来存储数据。因此在大网商用之初，研发团队面临的一大挑战便是同时维护Hadoop和高斯两套技术栈。"""

输出结果： output.wav

官网相关文档

https://fish.audio/zh-CN/about/    # 官方
https://speech.fish.audio/samples/ # 示例
https://github.com/fishaudio/fish-speech # 源码地址

使用硬件要求

GPU 内存: 4GB (用于推理), 8GB (用于微调)
系统: Linux, Windows

此处介绍的是ubuntu系统上的安装与使用。本文使用的windows 子系统ubuntu22.04

安装

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
python3 -m venv sp_venv
source sp_venv/bin/activate# 安装 pytorch
pip3 install torch torchvision torchaudio -i  https://pypi.tuna.tsinghua.edu.cn/simple# 下载fish-speech 代码
git clone https://github.com/fishaudio/fish-speech# 安装 fish-speech
cd fish-speech
pip3 install -e .# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev

下载模型文件
方法一：官网给定的下载模型文件命令：python ./tools/download_models.py
但是由于网络原型，可能下载不成功。如果有翻墙工具，可以下载。
方法二：通过 modelscope 社区进行下载：https://modelscope.cn/models/AI-ModelScope/fish-speech-1.2/files

cd fish-speech
mkdir checkpoints/fish-speech-1.2-sft

在这里插入图片描述
将下载的模型文件拷贝到 fish-speech-1.2-sft 文件夹下
如果使用的windows 子系统可以使用一下命令

wsl cp config.json /home/km/fish-speech/checkpoints/fish-speech-1.2-sft

使用
使用方法有两种，
一种是通过 web UI 使用，更直观，便捷
一种是通过API方式，更灵活，移植性更大

web UI

python -m tools.webui \--llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" \--decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \--decoder-config-name firefly_gan_vq

在这里插入图片描述
启动后 web : http://127.0.0.1:7860

API 方式使用

python -m tools.api \--listen 0.0.0.0:8080 \--llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" \--decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \--decoder-config-name firefly_gan_vq

使用

python -m tools.post_api \--text "要输入的文本" \--reference_audio "参考音频路径" \--reference_text "参考音频的文本内容" \--streaming True

参考音频路径可以在 https://speech.fish.audio/samples/ 中下载一个参考音频。也可以使用自己创建的音频文件。
注意格式为：wav
在这里插入图片描述

查看全文

http://www.lryc.cn/news/410083.html

数据结构(6):图

kaggle使用api下载数据集

前缀表达式（波兰式）和后缀表达式（逆波兰式）的计算方式

智能井盖管理系统：城市窨井的井下“保镖”

vue3-环境变量-JavaScript-axio-基础使用-lzstring-字符串压缩-python

ubuntu下载docker依赖包

java面向对象进阶进阶篇--《JDK8，JDK9接口中新增的方法、接口的应用、适配器设计模式》

15.2 zookeeper java client

素材管理太繁琐？有这一个就够了！

KubeSphere 部署向量数据库 Milvus 实战指南

前端canvas——贝塞尔曲线

Elasticsearch模糊查询之Wildcard

【人工智能】穿越科技迷雾：解锁人工智能、机器学习与深度学习的奥秘之旅

Nginx服务 rewrite、proxy_pass 用rewrite去除URL中的特定参数

RocketMQ事务消息机制原理

【C++】选择结构- 嵌套if语句

scrapy解决管道阻塞问题采用threadpool库线程池+twisted同步语法异步编程

Axure RP：打造动态交互的大屏可视化设计利器

“八股文”在实际工作中是助力、阻力还是空谈

项目开发：@ControllerAdvice注解的基本应用

Jmeter三种方式获取数组中多个数据并将其当做下个接口参数入参【附带JSON提取器和CSV格式化】

C++入门基础：C++中的循环语句

VUE 基础(二)

VMware Cloud Foundation ESXi 主机

PyTorch深度学习快速入门（下）

轻松入门Linux—CentOS,直接拿捏 —/— ＜1＞

pandas安装以及导入CSV

新能源车浪潮来袭，同时存在高压低压系统，如何准确进行高低压布线间距EMC分析？

QUIC 协议

【软件测试】--接口测试

使用结果展示

web UI

API 方式使用

相关文章：