Skip to content

语义引导

语义引导用于扩散模型,在 SEGA:使用语义引导指导文本到图像模型 中提出,并对图像生成提供了强大的语义控制。

文本提示的微小变化通常会导致完全不同的输出图像。然而,使用 SEGA,可以轻松直观地控制图像的各种变化,同时保持原始图像构图的真实性。

论文摘要如下:

文本到图像扩散模型最近因其从文本中生成高保真图像的惊人能力而受到广泛关注。然而,实现与用户意图一致的一次性生成几乎不可能,而输入提示的微小变化往往会导致截然不同的图像。这使得用户几乎无法进行语义控制。为了让用户掌控全局,我们展示了如何与扩散过程交互,以灵活地沿着语义方向引导它。这种语义引导 (SEGA) 适用于使用无分类器引导的任何生成架构。更重要的是,它允许进行细微和广泛的编辑、构图和风格变化,以及优化整体艺术构思。我们使用各种任务证明了 SEGA 在 Stable Diffusion、Paella 和 DeepFloyd-IF 等潜在和基于像素的扩散模型上的有效性,从而为其多功能性、灵活性以及对现有方法的改进提供了强有力的证据。

SemanticStableDiffusionPipeline

[[autodoc]] SemanticStableDiffusionPipeline - all - call

SemanticStableDiffusionPipelineOutput

[[autodoc]] pipelines.semantic_stable_diffusion.pipeline_output.SemanticStableDiffusionPipelineOutput - all