Skip to content

Kandinsky 3

Kandinsky 3 由 Vladimir ArkhipkinAnastasia MaltsevaIgor PavlovAndrei FilatovArseniy ShakhmatovAndrey KuznetsovDenis DimitrovZein Shaheen 创建。

其 GitHub 页面上的描述如下:

Kandinsky 3.0 是一个基于 Kandinsky2-x 模型家族的开源文本到图像扩散模型。与前代相比,该模型在文本理解和视觉质量方面有所提升,分别通过增加文本编码器和扩散 U-Net 模型的大小来实现。

其架构包括三个主要组件:

  1. FLAN-UL2,这是一个基于 T5 架构的编码器-解码器模型。
  2. 新的 U-Net 架构,采用 BigGAN-deep 块,深度加倍的同时保持相同数量的参数。
  3. Sber-MoVQGAN 是一个在图像恢复方面表现优异的解码器。

原始代码库可以在 ai-forever/Kandinsky-3 找到。

Kandinsky3Pipeline

[[autodoc]] Kandinsky3Pipeline - all - call

Kandinsky3Img2ImgPipeline

[[autodoc]] Kandinsky3Img2ImgPipeline - all - call