Skip to content

AudioLDM

AudioLDM 由 Haohe Liu 等人在 AudioLDM: Text-to-Audio Generation with Latent Diffusion Models 中提出。受 Stable Diffusion 的启发,AudioLDM 是一种文本到音频的 潜在扩散模型 (LDM),它从 CLAP 潜在空间中学习连续的音频表示。AudioLDM 以文本提示作为输入,并预测相应的音频。它可以生成文本条件下的音效、人声和音乐。

论文的摘要如下:

文本到音频 (TTA) 系统最近因其能够根据文本描述合成通用音频的能力而受到关注。然而,之前的 TTA 研究在生成质量上受到高计算成本的限制。在本研究中,我们提出了 AudioLDM,一种基于潜在空间的 TTA 系统,用于从对比语言-音频预训练 (CLAP) 潜在空间中学习连续的音频表示。预训练的 CLAP 模型使我们能够在提供文本嵌入作为采样条件的同时,使用音频嵌入训练 LDM。通过学习音频信号及其组成的潜在表示,而不建模跨模态关系,AudioLDM 在生成质量和计算效率方面都具有优势。在单个 GPU 上使用 AudioCaps 进行训练,AudioLDM 在客观和主观指标(例如,弗雷歇距离)上实现了最先进的 TTA 性能。此外,AudioLDM 是第一个能够在零样本方式下实现各种文本引导音频操作(例如,风格迁移)的 TTA 系统。我们的实现和演示可在 此 https URL 上获得。

原始代码库可在 haoheliu/AudioLDM 找到。

提示

在构建提示时,请记住:

  • 描述性的提示输入效果最佳;你可以使用形容词来描述声音(例如,“高质量”或“清晰”),并使提示上下文具体化(例如,“森林中的溪流”而不是“溪流”)。
  • 最好使用通用术语,如“猫”或“狗”,而不是模型可能不熟悉的特定名称或抽象对象。

在推理过程中:

  • 预测音频样本的 质量 可以通过 num_inference_steps 参数控制;更多的步骤会以较慢的推理速度为代价提供更高品质的音频。
  • 预测音频样本的 长度 可以通过调整 audio_length_in_s 参数来控制。

AudioLDMPipeline

[[autodoc]] AudioLDMPipeline - all - call

AudioPipelineOutput

[[autodoc]] pipelines.AudioPipelineOutput