当前位置: 首页 > news >正文

Stability AI发布基于稳定扩散的音频生成模型Stable Audio

近日Stability AI推出了一款名为Stable Audio的尖端生成模型,该模型可以根据用户提供的文本提示来创建音乐。在NVIDIA A100 GPU上Stable Audio可以在一秒钟内以44.1 kHz的采样率产生95秒的立体声音频,与原始录音相比,该模型处理时间的大幅减少归因于它对压缩音频潜在表示的有效处理。

架构

自动编码器(VAE),一个文本编码器和U-Net扩散模型。VAE通过获取输入音频数据并表示为保留足够信息用于转换的压缩格式,因为使用了卷积结构,所以不受描述音频编解码器的影响,可以有效地编码和解码可变长度的音频,同时保持高输出质量。

文本提示通过预先训练的文本编码器(称为CLAP)无缝集成。这个编码器是使用精心策划的数据集从头开始构建的,可以保留了文本特征包含了足够的信息,可以在单词和相应的声音之间建立有意义的联系。从CLAP编码器的倒数第二层提取的这些文本特征,然后通过U-Net的注意力层进行引导。

为了生成用于时间嵌入的音频片段,需要计算两个关键参数:片段的起始时间(以秒为单位)(称为“seconds_start”)和原始音频文件的总持续时间(以秒为单位)(称为“seconds_total”)。这些值被转换成离散学习的嵌入,在输入到U-Net的注意层之前与查询令牌连接。在推理阶段,这些值作为条件允许用户指定所需的最终音频输出长度。

Stable Audio中的扩散模型是一个U-Net架构,具有强大的9.07亿个参数,灵感来自Moûsai 模型。它结合残差层、自注意力层和交叉注意力层,基于文本和时间嵌入对输入数据进行有效降噪。

数据集

Stable Audio在包含超过80万个音频文件的广泛数据集上进行了训练。这个多样化的集合包括音乐、音效、乐器样本及其相关的文本元数据,总时长超过19,500小时。这个广泛的数据集是通过与音乐库AudioSparx的合作而提供的。

总结

Stability AI的Stable Audio AI模型标志着人工智能驱动的听觉创造力的重大飞跃。它为音乐和声音爱好者打开了新的视野。在未来还会提供进一步增强模型、数据集和训练技术的体系结构,发布基于Stable Audio的开源模型,并将提供必要的代码,以方便定制音频内容生成模型的训练。

项目的官方网站:

https://avoid.overfit.cn/post/86c750a6534b4cd380c94d3301fcf1bd

http://www.lryc.cn/news/171813.html

相关文章:

  • 华为OD机试 - 计算面积 - 逻辑分析(Java 2023 B卷 100分)
  • Ganache本地测试网+cpolar内网穿透实现公网访问内网
  • 【每日一题】ARC071D - ### | 前缀和 | 简单
  • (Vue2)VueRouter
  • 6.文本注释方法
  • [Linux打怪升级之路]-缓冲区
  • 【力扣】13. 罗马数字转整数
  • 高效时间管理,事无巨细掌握——OmniFocus Pro 3 for Mac最强GTD工具
  • 解锁前端Vue3宝藏级资料 第五章 Vue 组件应用 3( Slots )
  • 接口测试之文件上传
  • 7.Flask-Migrate数据库迁移
  • 信创办公–基于WPS的PPT最佳实践系列 (项目8创建电子相册)
  • JRedis的基本操作,基本数据类型操作
  • QT网页 webengine / CEF
  • Golang笔试题:编写一个函数,接收一个整数参数n,输出n的阶乘结果
  • 外包干了2个月,技术退步明显.......
  • 无涯教程-JavaScript - BINOM.DIST函数
  • linux定时重启tomcat
  • 在静态方法中访问@Value注入的静态变量!!
  • 掌握这些算法,让你的编程之路更顺畅——重要算法解析
  • flink集群与资源@k8s源码分析-总述
  • LeetCode 0213. 打家劫舍 II:动动态规划
  • VMware17 不可恢复错误mks解决方案
  • 【深度学习】 Python 和 NumPy 系列教程(廿五):Matplotlib详解:3、多子图和布局:subplot()函数
  • 计算机网络知识补充(1)
  • C# Onnx Yolov8 Pose 姿态识别
  • 7.algorithm2e中while怎么使用
  • Flask狼书笔记 | 08_个人博客(下)
  • 机器学习第十课--提升树
  • react scss.modules中使用iconfont