Skip to content

aMUSEd

aMUSEd 由 Suraj Patil、William Berman、Robin Rombach 和 Patrick von Platen 在 aMUSEd: An Open MUSE Reproduction 中引入。

aMUSEd 是一个基于 MUSE 架构的轻量级文本到图像模型。aMUSEd 特别适用于需要轻量级和快速模型的应用,例如一次性快速生成大量图像。

aMUSEd 是一个基于 vqvae 令牌的 Transformer 模型,能够在比许多扩散模型更少的正向传递中生成图像。与 MUSE 相比,它使用较小的文本编码器 CLIP-L/14 而不是 t5-xxl。由于其参数数量少和生成过程的正向传递次数少,aMUSEd 可以快速生成大量图像。这种优势在较大的批量大小下尤为明显。

论文的摘要如下:

我们提出了 aMUSEd,一个基于 MUSE 的开源轻量级掩码图像模型(MIM),用于文本到图像生成。aMUSEd 仅使用了 MUSE 10% 的参数,专注于快速图像生成。我们认为,与文本到图像生成的主流方法潜在扩散相比,MIM 尚未得到充分探索。与潜在扩散相比,MIM 需要的推理步骤更少,且更具可解释性。此外,MIM 可以通过仅使用单张图像进行微调来学习额外的风格。我们希望通过展示其在大规模文本到图像生成中的有效性并发布可复现的训练代码,来鼓励对 MIM 的进一步探索。我们还发布了两个模型的检查点,这些模型可以直接生成 256x256 和 512x512 分辨率的图像。

ModelParams
amused-256603M
amused-512608M

AmusedPipeline

[[autodoc]] AmusedPipeline - call - all - enable_xformers_memory_efficient_attention - disable_xformers_memory_efficient_attention

[[autodoc]] AmusedImg2ImgPipeline - call - all - enable_xformers_memory_efficient_attention - disable_xformers_memory_efficient_attention

[[autodoc]] AmusedInpaintPipeline - call - all - enable_xformers_memory_efficient_attention - disable_xformers_memory_efficient_attention