Attend-and-Excite
Attend-and-Excite 是为 Stable Diffusion 提出的,源自 Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models,并提供了对图像生成的文本注意力控制。
论文的摘要如下:
最近的文本到图像生成模型展示了无与伦比的能力,能够根据目标文本提示生成多样化和创造性的图像。尽管具有革命性,当前最先进的扩散模型在生成完全传达给定文本提示语义的图像时仍可能失败。我们分析了公开可用的 Stable Diffusion 模型,并评估了灾难性忽视的存在,即模型未能生成输入提示中的一个或多个主体。此外,我们发现,在某些情况下,模型也未能正确地将属性(例如颜色)绑定到相应的主体。为了帮助缓解这些失败案例,我们引入了生成语义护理(Generative Semantic Nursing, GSN)的概念,我们寻求在推理期间即时干预生成过程,以提高生成图像的忠实度。使用基于注意力的 GSN 公式,称为 Attend-and-Excite,我们指导模型优化交叉注意力单元,使其关注文本提示中的所有主体标记,并增强——或激发——它们的激活,鼓励模型生成文本提示中描述的所有主体。我们将我们的方法与替代方法进行了比较,并证明它在各种文本提示中更忠实地传达了所需的概念。
你可以在 项目页面、原始代码库 或通过 演示 中找到更多关于 Attend-and-Excite 的信息。
StableDiffusionAttendAndExcitePipeline
[[autodoc]] StableDiffusionAttendAndExcitePipeline - all - call
StableDiffusionPipelineOutput
[[autodoc]] pipelines.stable_diffusion.StableDiffusionPipelineOutput