当前位置: 首页 > news >正文

Stable Audio Open模型部署教程:用AI打造独家节拍,让声音焕发新活力!

Stable Audio Open 是一个开源的文本到音频模型,允许用户从简单的文本提示中生成长达 47 秒的高质量音频数据。该模型非常适合创建鼓点、乐器即兴演奏、环境声音、拟音录音和其他用于音乐制作和声音设计的音频样本。用户还可以根据他们的自定义音频数据微调模型,使他们能够从自己的鼓录音中创建新的节拍。

image.png

官方地址:https://stable-audio-open.com/zh

容器构建说明

本文档针对 ComfyUI 进行部署使用,因此在正式部署之前需要部署 ComfyUI

1. 部署 ComfyUI流程

(1)使用命令克隆 ComfyUI

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

(2)安装 conda(如已安装则跳过)

下面需要使用 Anaconda 或 Mimiconda 创建虚拟环境,可以输入 conda --version 进行检查。下面是 Mimiconda 的安装过程:

  • 下载 Miniconda 安装脚本
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
  • 运行安装脚本
bash Miniconda3-latest-Linux-x86_64.sh
  • 遵循安装提示并初始化

按 Enter 键查看许可证条款,阅读完毕后输入 yes 接受条款,安装完成后,脚本会询问是否初始化 conda 环境,输入 yes 并按 Enter 键。

  • 运行 source ~/.bashrc 命令激活 conda 环境
  • 再次输入 conda --version 命令来验证是否安装成功,如果出现类似 conda 4.10.3 这样的输出就成功了。

(3)创建虚拟环境

输入下面的命令:

conda create -n comfyui python=3.10
conda activate comfyui

(4)安装 pytorch

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121

(5)安装项目依赖

pip install -r requirements.txt

此时所需环境就已经搭建完成,通过下面命令进行启动:

python main.py

访问网址得到类似下图界面即表示成功启动:

image.png

2.部署 audio-open流程

(1) 下载模型

模型放置在 ComfyUI/models/chekpoints/ 文件夹下

模型主页:stabilityai/stable-audio-open-1.0 at main (huggingface.co)

点击上面链接,访问 Hugging Face 下载模型,如下图。首次访问该页面时,需要同意用户协议才能看到模型下载页。

image.png

下载下图模型:

image.png

(2)下载模型 t5_base

模型放置在 ComfyUI/models/clip/ 文件夹下

模型主页:model.safetensors · google-t5/t5-base at main (huggingface.co)

点击上面链接,访问 Hugging Face 下载模型:

image.png

hugging face 的下载方式有多种,如上图,可以在 ① 处直接下载,也可以在 ② 处克隆,还可以通过脚本下载,方式众多,自己选择。当然也可以通过魔搭社区进行下载,如下图:

(3)获取工作流

访问 Audio Examples | ComfyUI_examples (comfyanonymous.github.io)下载下图的音频,然后拖入 comfyui 界面中即可出现工作流,因为其中中已包含相关信息。

image.png

此时 comfyui 中会出现下面 AuraFlow 的工作流:

image.png

这样 AuraFlow 就可以在 comfyui 中使用了。

3. 拓展插件安装(可选)

(1)下载 manager 管理器

manager 是一个用来加强 ComfyUI 可用性的扩展,提供了对 ComfyUI 各种自定义节点的安装、删除、禁用、启用等管理功能。同时还提供了中心功能和便利功能,用来访问 ComfyUI 中各种信息。

cd /ComfyUI/custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

成功安装之后重启界面会出现一个“Manager”如图:

image.png

(2)界面汉化插件

git clone https://github.com/AIGODLIKE/AIGODLIKE-ComfyUI-Translation.git

下载文件之后需要重新启动,重启模型之后:

image.png

设置一次之后可点击图中框选出的选项进行语言的切换:

image.png

(3)中文提示词插件安装

cd /ComfyUI/custom_nodes
git clone https://github.com/thisjam/comfyui-sixgod_prompt.git

然后重启 ComfyUI 后看到下图的小标志就表示可以了:

image.png

使用方法:双击页面,在搜索框中搜索“six”即可出现,点击 sixGodPrompts,此时出现的就是提示词的中文输入框可以替代自带的 clip 输入框,可点击左下角的小标或按“AIT”+“q”打开和隐藏。

image.png

使用方法如下:

image.png

以上就是本地部署的详细教程。有问题可以在评论区交流哦~

http://www.lryc.cn/news/501043.html

相关文章:

  • 加油站-(贪心算法)
  • k8s-持久化存储PV与PVC(1)
  • Linux Red Hat Enterprise
  • 《中型 Vue 项目:挑战与成长》
  • 配置 DNS over HTTPS阻止DNS污染
  • Facebook广告文案流量秘诀
  • 22. 五子棋小游戏
  • fastadmin框架同时使用 阿里云oss和阿里云点播
  • Java-JMX 组件架构即详解
  • unity打包web,发送post请求,获取地址栏参数,解决TypeError:s.replaceAll is not a function
  • java+ssm+mysql校园物品租赁网
  • Spring Boot中实现JPA多数据源配置指南
  • 服务器加固
  • 探索CSS中的背景图片属性,让你的网页更加美观
  • Oracle的打开游标(OPEN_CURSORS)
  • 数值分析—数值积分
  • 克服大规模语言模型限制,构建新的应用方法——LangChain
  • 计算机网络 —— HTTPS 协议
  • React第十七章(useRef)
  • React第十五节useReducer使用详解差异
  • NanoLog起步笔记-5-客户端简要描述
  • Flink:入门介绍
  • 目标跟踪领域经典论文解析
  • 网络编程 | TCP套接字通信及编程实现经验教程
  • SAP导出表结构并保存到Excel 源码程序
  • Linux下redis环境的搭建
  • REDMI瞄准游戏赛道,推出小屏平板
  • springai结合ollama
  • React第十三节开发中常见问题之(视图更新、事件处理)
  • 【Appium报错】安装uiautomator2失败