Skip to content

T2I-Adapter

T2I-Adapter: 学习适配器以挖掘更多文本到图像扩散模型的可控能力 由 Chong Mou、Xintao Wang、Liangbin Xie、Jian Zhang、Zhongang Qi、Ying Shan、Xiaohu Qie 撰写。

使用预训练模型,我们可以提供控制图像(例如,深度图)来控制 Stable Diffusion 文本到图像生成,使其遵循深度图像的结构并填充细节。

论文的摘要如下:

大规模文本到图像(T2I)模型的惊人生成能力展示了学习复杂结构和有意义语义的强大力量。然而,仅依赖文本提示无法充分利用模型所学到的知识,尤其是在需要灵活和准确控制(例如,颜色和结构)时。在本文中,我们旨在“挖掘”T2I 模型隐含学习到的能力,然后明确地使用它们来更细粒度地控制生成。具体来说,我们提出学习简单且轻量级的 T2I-Adapters,以将 T2I 模型中的内部知识与外部控制信号对齐,同时冻结原始的大型 T2I 模型。通过这种方式,我们可以根据不同条件训练各种适配器,在生成结果的颜色和结构中实现丰富的控制和编辑效果。此外,所提出的 T2I-Adapters 具有实际价值的吸引人特性,例如可组合性和泛化能力。广泛的实验表明,我们的 T2I-Adapter 具有有前景的生成质量和广泛的应用范围。

该模型由社区贡献者 HimariO ❤️ 贡献。

StableDiffusionAdapterPipeline

[[autodoc]] StableDiffusionAdapterPipeline - all - call - enable_attention_slicing - disable_attention_slicing - enable_vae_slicing - disable_vae_slicing - enable_xformers_memory_efficient_attention - disable_xformers_memory_efficient_attention

StableDiffusionXLAdapterPipeline

[[autodoc]] StableDiffusionXLAdapterPipeline - all - call - enable_attention_slicing - disable_attention_slicing - enable_vae_slicing - disable_vae_slicing - enable_xformers_memory_efficient_attention - disable_xformers_memory_efficient_attention