算力平台:
Kandinsky 3
Kandinsky 3 由 Vladimir Arkhipkin、Anastasia Maltseva、Igor Pavlov、Andrei Filatov、Arseniy Shakhmatov、Andrey Kuznetsov、Denis Dimitrov、Zein Shaheen 创建。
其 GitHub 页面上的描述如下:
Kandinsky 3.0 是一个基于 Kandinsky2-x 模型家族的开源文本到图像扩散模型。与前代相比,该模型在文本理解和视觉质量方面有所提升,分别通过增加文本编码器和扩散 U-Net 模型的大小来实现。
其架构包括三个主要组件:
- FLAN-UL2,这是一个基于 T5 架构的编码器-解码器模型。
- 新的 U-Net 架构,采用 BigGAN-deep 块,深度加倍的同时保持相同数量的参数。
- Sber-MoVQGAN 是一个在图像恢复方面表现优异的解码器。
原始代码库可以在 ai-forever/Kandinsky-3 找到。
Kandinsky3Pipeline
[[autodoc]] Kandinsky3Pipeline - all - call
Kandinsky3Img2ImgPipeline
[[autodoc]] Kandinsky3Img2ImgPipeline - all - call