算力平台:
InstructPix2Pix
InstructPix2Pix: Learning to Follow Image Editing Instructions 由 Tim Brooks、Aleksander Holynski 和 Alexei A. Efros 撰写。
论文的摘要如下:
我们提出了一种根据人类指令编辑图像的方法:给定一个输入图像和一个告诉模型要做什么的书面指令,我们的模型会按照这些指令编辑图像。为了获得此问题的训练数据,我们结合了两个大型预训练模型的知识——一个语言模型(GPT-3)和一个文本到图像模型(Stable Diffusion)——来生成一个大规模的图像编辑示例数据集。我们的条件扩散模型 InstructPix2Pix 在我们的生成数据上进行训练,并在推理时泛化到真实图像和用户书写的指令。由于它在正向传递中执行编辑,并且不需要每个示例的微调或反演,因此我们的模型可以快速编辑图像,仅需几秒钟。我们展示了针对各种输入图像和书面指令的引人注目的编辑结果。
你可以在 项目页面、原始代码库 上找到有关 InstructPix2Pix 的更多信息,并在 演示 中尝试使用它。
StableDiffusionInstructPix2PixPipeline
[[autodoc]] StableDiffusionInstructPix2PixPipeline - call - all - load_textual_inversion - load_lora_weights - save_lora_weights
StableDiffusionXLInstructPix2PixPipeline
[[autodoc]] StableDiffusionXLInstructPix2PixPipeline - call - all