算力平台:
Stable Audio
Stable Audio 是由 Zach Evans 等人在 Stable Audio Open 中提出的。它以文本提示作为输入,并预测相应的声音或音乐样本。
Stable Audio Open 从文本提示生成可变长度(最长 47 秒)的 44.1kHz 立体声音频。它由三个组件组成:一个将波形压缩为可管理序列长度的自编码器,一个基于 T5 的文本嵌入用于文本条件化,以及一个在自编码器潜在空间中运行的基于 Transformer 的扩散(DiT)模型。
Stable Audio 在约 48,000 个音频录音的语料库上进行训练,其中约 47,000 个来自 Freesound,其余来自 Free Music Archive(FMA)。所有音频文件均在 CC0、CC BY 或 CC Sampling+ 许可下发布。这些数据用于训练自编码器和 DiT。
论文的摘要如下: 开放生成模型对社区至关重要,允许进行微调,并在展示新模型时作为基线。然而,大多数当前的文本到音频模型都是私有的,艺术家和研究人员无法在其基础上进行构建。在这里,我们描述了一个新的开放权重文本到音频模型的架构和训练过程,该模型使用 Creative Commons 数据进行训练。我们的评估显示,该模型在各种指标上的表现与最先进的技术相当。值得注意的是,报告的 FDopenl3 结果(衡量生成的真实性)展示了其在 44.1kHz 下高质量立体声音合成的潜力。
此流程由 Yoach Lacombe 贡献。原始代码库可以在 Stability-AI/stable-audio-tools 找到。
提示
在构建提示时,请记住:
- 描述性的提示输入效果最佳;使用形容词来描述声音(例如,“高质量”或“清晰”),并在可能的情况下使提示上下文具体化(例如,“带有快速节拍和合成器的旋律电子乐”比“电子乐”效果更好)。
- 使用负面提示可以显著提高生成音频的质量。尝试使用“低质量,一般质量”作为负面提示。
在推理过程中:
- 生成音频样本的质量可以通过
num_inference_steps
参数控制;更多的步骤会以较慢的推理速度为代价生成更高质量的音频。 - 可以一次性生成多个波形:将
num_waveforms_per_prompt
设置为大于 1 的值以启用。将在生成的波形和提示文本之间进行自动评分,并相应地从最佳到最差对音频进行排序。
StableAudioPipeline
[[autodoc]] StableAudioPipeline - all - call