Kandinsky 3

Kandinsky 3 由 Vladimir Arkhipkin、Anastasia Maltseva、Igor Pavlov、Andrei Filatov、Arseniy Shakhmatov、Andrey Kuznetsov、Denis Dimitrov、Zein Shaheen 创建。

其 GitHub 页面上的描述如下：

Kandinsky 3.0 是一个基于 Kandinsky2-x 模型家族的开源文本到图像扩散模型。与前代相比，该模型在文本理解和视觉质量方面有所提升，分别通过增加文本编码器和扩散 U-Net 模型的大小来实现。

其架构包括三个主要组件：

FLAN-UL2，这是一个基于 T5 架构的编码器-解码器模型。
新的 U-Net 架构，采用 BigGAN-deep 块，深度加倍的同时保持相同数量的参数。
Sber-MoVQGAN 是一个在图像恢复方面表现优异的解码器。

原始代码库可以在 ai-forever/Kandinsky-3 找到。

Kandinsky3Pipeline

[[autodoc]] Kandinsky3Pipeline - all - call

Kandinsky3Img2ImgPipeline

[[autodoc]] Kandinsky3Img2ImgPipeline - all - call