Skip to content

I2VGen-XL

I2VGen-XL: 通过级联扩散模型实现高质量图像到视频合成,作者为Shiwei Zhang、Jiayu Wang、Yingya Zhang、Kang Zhao、Hangjie Yuan、Zhiwu Qin、Xiang Wang、Deli Zhao和Jingren Zhou。

论文摘要如下:

视频合成近年来得益于扩散模型的快速发展取得了显著进展。然而,在语义准确性、清晰度和时空连续性方面仍面临挑战。这些挑战主要源于高质量对齐的文本-视频数据稀缺以及视频固有的复杂结构,使得模型难以同时确保语义和质量的卓越性。在本报告中,我们提出了一种级联的I2VGen-XL方法,通过解耦这两个因素来提升模型性能,并利用静态图像作为关键指导来确保输入数据的对齐。I2VGen-XL包含两个阶段:i) 基础阶段通过使用两个层次编码器来保证语义连贯性并保留输入图像的内容,ii) 细化阶段通过引入额外的简短文本来增强视频细节,并将分辨率提升至1280×720。为了提高多样性,我们收集了约3500万对单次拍摄的文本-视频对和60亿对文本-图像对来优化模型。通过这种方式,I2VGen-XL可以同时提升生成视频的语义准确性、细节连续性和清晰度。通过广泛的实验,我们研究了I2VGen-XL的底层原理,并将其与当前顶级方法进行了比较,证明了其在多样化数据上的有效性。源代码和模型将在此链接公开。

原始代码库可以在这里找到。模型检查点可以在这里找到。

I2VGenXL的示例输出:

笔记

  • I2VGenXL 始终使用 clip_skip 值为 1。这意味着它利用了 CLIP 文本编码器的倒数第二层表示。
  • 它可以生成质量通常与 Stable Video Diffusion (SVD) 相当的视频。
  • 与 SVD 不同,它还接受文本提示作为输入。
  • 它可以生成更高分辨率的视频。
  • 当使用 [DDIMScheduler](这是此管道的默认设置)时,推理步骤少于 50 步会导致结果不佳。
  • 此实现是 I2VGenXL 的 1 阶段变体。I2VGen-XL 论文中的主要图表显示了一个 2 阶段变体,然而,1 阶段变体效果良好。更多详情请参见 此讨论

I2VGenXLPipeline

[[autodoc]] I2VGenXLPipeline - all - call

I2VGenXLPipelineOutput

[[autodoc]] pipelines.i2vgen_xl.pipeline_i2vgen_xl.I2VGenXLPipelineOutput