Stable Audio

Stable Audio 是由 Zach Evans 等人在 Stable Audio Open 中提出的。它以文本提示作为输入，并预测相应的声音或音乐样本。

Stable Audio Open 从文本提示生成可变长度（最长 47 秒）的 44.1kHz 立体声音频。它由三个组件组成：一个将波形压缩为可管理序列长度的自编码器，一个基于 T5 的文本嵌入用于文本条件化，以及一个在自编码器潜在空间中运行的基于 Transformer 的扩散（DiT）模型。

Stable Audio 在约 48,000 个音频录音的语料库上进行训练，其中约 47,000 个来自 Freesound，其余来自 Free Music Archive（FMA）。所有音频文件均在 CC0、CC BY 或 CC Sampling+ 许可下发布。这些数据用于训练自编码器和 DiT。

论文的摘要如下：开放生成模型对社区至关重要，允许进行微调，并在展示新模型时作为基线。然而，大多数当前的文本到音频模型都是私有的，艺术家和研究人员无法在其基础上进行构建。在这里，我们描述了一个新的开放权重文本到音频模型的架构和训练过程，该模型使用 Creative Commons 数据进行训练。我们的评估显示，该模型在各种指标上的表现与最先进的技术相当。值得注意的是，报告的 FDopenl3 结果（衡量生成的真实性）展示了其在 44.1kHz 下高质量立体声音合成的潜力。

此流程由 Yoach Lacombe 贡献。原始代码库可以在 Stability-AI/stable-audio-tools 找到。

提示

在构建提示时，请记住：

描述性的提示输入效果最佳；使用形容词来描述声音（例如，“高质量”或“清晰”），并在可能的情况下使提示上下文具体化（例如，“带有快速节拍和合成器的旋律电子乐”比“电子乐”效果更好）。
使用负面提示可以显著提高生成音频的质量。尝试使用“低质量，一般质量”作为负面提示。

在推理过程中：

生成音频样本的质量可以通过 num_inference_steps 参数控制；更多的步骤会以较慢的推理速度为代价生成更高质量的音频。
可以一次性生成多个波形：将 num_waveforms_per_prompt 设置为大于 1 的值以启用。将在生成的波形和提示文本之间进行自动评分，并相应地从最佳到最差对音频进行排序。

StableAudioPipeline

[[autodoc]] StableAudioPipeline - all - call

Stable Audio ​

提示 ​

StableAudioPipeline ​

Stable Audio

提示

StableAudioPipeline