算力平台:
文本引导的深度到图像生成
[[open-in-colab]]
[StableDiffusionDepth2ImgPipeline
] 允许你传递文本提示和初始图像来调节新图像的生成。此外,你还可以传递一个 depth_map
来保留图像结构。如果没有提供 depth_map
,管道将通过集成的 深度估计模型 自动预测深度。
首先创建一个 [StableDiffusionDepth2ImgPipeline
] 实例:
python
import torch
from diffusers import StableDiffusionDepth2ImgPipeline
from diffusers.utils import load_image, make_image_grid
pipeline = StableDiffusionDepth2ImgPipeline.from_pretrained(
"stabilityai/stable-diffusion-2-depth",
torch_dtype=torch.float16,
use_safetensors=True,
).to("cuda")
现在将你的提示传递给管道。你也可以传递一个 negative_prompt
来阻止某些词语引导图像的生成方式:
python
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
init_image = load_image(url)
prompt = "two tigers"
negative_prompt = "bad, deformed, ugly, bad anatomy"
image = pipeline(prompt=prompt, image=init_image, negative_prompt=negative_prompt, strength=0.7).images[0]
make_image_grid([init_image, image], rows=1, cols=2)
Input | Output |
---|---|
![]() | ![]() |