MusicLDM
MusicLDM 由 Ke Chen、Yusong Wu、Haohe Liu、Marianna Nezhurina、Taylor Berg-Kirkpatrick 和 Shlomo Dubnov 在论文 MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies 中提出。MusicLDM 接受一个文本提示作为输入,并预测相应的音乐样本。
受 Stable Diffusion 和 AudioLDM 的启发,MusicLDM 是一个文本到音乐的 潜在扩散模型 (LDM),它从 CLAP 潜在表示中学习连续的音频表示。
MusicLDM 在一个包含 466 小时音乐数据的语料库上进行训练。在时间域和潜在空间中对音乐样本应用了节拍同步的数据增强策略。使用节拍同步的数据增强策略鼓励模型在训练样本之间进行插值,但保持在训练数据的范围内。结果是生成的音乐更加多样化,同时忠于相应的风格。
论文的摘要如下:
扩散模型在跨模态生成任务中展示了有希望的结果,包括文本到图像和文本到音频生成。然而,生成音乐作为一种特殊的音频类型,由于音乐数据的有限可用性和与版权和剽窃相关的敏感问题,带来了独特的挑战。在本文中,为了解决这些挑战,我们首先构建了一个最先进的文本到音乐模型 MusicLDM,该模型将 Stable Diffusion 和 AudioLDM 架构适应到音乐领域。我们通过在音乐数据样本集合上重新训练对比语言-音频预训练模型 (CLAP) 和 Hifi-GAN 声码器,作为 MusicLDM 的组件来实现这一点。然后,为了解决训练数据的限制并避免剽窃,我们利用节拍跟踪模型并提出了两种不同的数据增强混音策略:节拍同步音频混音和节拍同步潜在混音,分别直接或通过潜在嵌入空间重新组合训练音频。这些混音策略鼓励模型在音乐训练样本之间进行插值,并在训练数据的凸包内生成新音乐,使生成的音乐更加多样化,同时仍然忠于相应的风格。除了流行的评估指标外,我们还设计了几个基于 CLAP 分数的新评估指标,以证明我们提出的 MusicLDM 和节拍同步混音策略提高了生成音乐的质量和新颖性,以及输入文本和生成音乐之间的对应关系。
该管道由 sanchit-gandhi 贡献。
提示
在构建提示时,请注意:
- 描述性的提示输入效果最佳;使用形容词描述声音(例如,“高质量”或“清晰”),并在可能的情况下使提示具有特定的上下文(例如,“带有快速节拍和合成器的旋律技术音乐”比“技术音乐”更好)。
- 使用 负面提示 可以显著提高生成音频的质量。尝试使用“低质量,普通质量”作为负面提示。
在推理过程中:
- 生成音频样本的 质量 可以通过
num_inference_steps
参数控制;更高的步数会生成更高质量的音频,但推理速度会更慢。 - 可以一次性生成多个波形:将
num_waveforms_per_prompt
设置为大于 1 的值即可启用。将在生成的波形和提示文本之间进行自动评分,并根据评分从最佳到最差对音频进行排序。 - 生成音频样本的 长度 可以通过调整
audio_length_in_s
参数来控制。
MusicLDMPipeline
[[autodoc]] MusicLDMPipeline - all - call