算力平台:
unCLIP
Hierarchical Text-Conditional Image Generation with CLIP Latents 是由 Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen 撰写的。🤗 Diffusers 中的 unCLIP 模型来自 kakaobrain 的 karlo。
以下是论文的摘要:
像 CLIP 这样的对比模型已被证明能够学习到既捕捉语义又捕捉风格的图像鲁棒表示。为了利用这些表示进行图像生成,我们提出了一种两阶段模型:一个先验模型,根据文本描述生成 CLIP 图像嵌入,以及一个解码器,根据图像嵌入生成图像。我们表明,显式生成图像表示可以提高图像多样性,同时几乎不影响照片真实感和描述相似性。我们的基于图像表示的解码器还可以生成图像的变体,这些变体在保留图像的语义和风格的同时,变化了图像表示中不存在的非本质细节。此外,CLIP 的联合嵌入空间使得语言引导的图像操作能够以零样本的方式进行。我们使用扩散模型作为解码器,并对先验模型进行了自回归和扩散模型的实验,发现后者在计算上更高效,并能生成更高质量的样本。
你可以在 lucidrains/DALLE2-pytorch 找到 lucidrains 对 DALL-E 2 的复现。
UnCLIPPipeline
[[autodoc]] UnCLIPPipeline - all - call
UnCLIPImageVariationPipeline
[[autodoc]] UnCLIPImageVariationPipeline - all - call
ImagePipelineOutput
[[autodoc]] pipelines.ImagePipelineOutput