用于计算机视觉任务的Marigold管道
Marigold是在Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation中提出的,这是一篇由Bingxin Ke、Anton Obukhov、Shengyu Huang、Nando Metzger、Rodrigo Caye Daudt和Konrad Schindler共同撰写的CVPR 2024 Oral论文。其核心思想是将文本到图像潜在扩散模型(LDMs)的丰富生成先验用于传统的计算机视觉任务。最初,这一想法被探索用于微调Stable Diffusion以进行单目深度估计,如上图所示。随后,
- Tianfu Wang训练了首个Marigold的潜在一致性模型(LCM),解锁了快速单步推理;
- Kevin Qu将该方法扩展到表面法线估计;
- Anton Obukhov将管道和文档贡献给了diffusers(由YiYi Xu和Sayak Paul支持)。
论文的摘要如下:
单目深度估计是计算机视觉中的一个基本任务。从单张图像中恢复3D深度在几何上是病态的,需要场景理解,因此深度学习的兴起带来了突破并不令人意外。单目深度估计器的显著进展反映了模型容量的增长,从相对适中的CNN到大型Transformer架构。然而,单目深度估计器在面对内容和布局不熟悉的图像时往往表现不佳,因为它们对视觉世界的知识受限于训练期间看到的数据,并且在零样本泛化到新领域时面临挑战。这促使我们探索,最近生成扩散模型中捕获的广泛先验是否能实现更好、更具泛化性的深度估计。我们引入了Marigold,一种从Stable Diffusion派生的仿射不变单目深度估计方法,保留了其丰富的先验知识。该估计器可以在单个GPU上使用合成训练数据在几天内进行微调。它在广泛的基准数据集上提供了最先进的性能,在特定情况下性能提升超过20%。项目页面:https://marigoldmonodepth.github.io。
可用的管道
每个管道支持一个计算机视觉任务,该任务以输入RGB图像为输入,并生成感兴趣模态的预测,例如输入图像的深度图。目前,以下任务已实现:
Pipeline | Predicted Modalities | Demos |
---|---|---|
MarigoldDepthPipeline | Depth, Disparity | Fast Demo (LCM), Slow Original Demo (DDIM) |
MarigoldNormalsPipeline | Surface normals | Fast Demo (LCM) |
可用的检查点
原始检查点可以在 PRS-ETH Hugging Face 组织下找到。
另请参阅 Marigold 使用示例。
MarigoldDepthPipeline
[[autodoc]] MarigoldDepthPipeline - all - call
MarigoldNormalsPipeline
[[autodoc]] MarigoldNormalsPipeline - all - call
MarigoldDepthOutput
[[autodoc]] pipelines.marigold.pipeline_marigold_depth.MarigoldDepthOutput
MarigoldNormalsOutput
[[autodoc]] pipelines.marigold.pipeline_marigold_normals.MarigoldNormalsOutput