torch.Tensor
类。(image,)
而不是 (image)
[B,H,W,C]
的 torch.Tensor
,其中 C=3
。如果你需要保存或加载图像,需要在 PIL.Image
格式和张量之间进行转换——请参见下方代码片段!注意,有些 pytorch
操作提供(或期望)[B,C,H,W]
,即“通道优先”,这样做是为了计算效率。请务必小心区分。
[B,H,W]
的 torch.Tensor
。LoadImage
节点会使用图像的 alpha 通道(即“RGBA”中的“A”)来创建蒙版。LoadImage
节点在加载图像时总会生成一个 MASK 输出。许多图片(如 JPEG)没有 alpha 通道,这种情况下,LoadImage
会创建一个形状为 [1, 64, 64]
的默认蒙版。
numpy
、PIL
等库中,单通道图像(如蒙版)通常表示为二维数组,形状为 [H,W]
。C
(通道)维度是隐式的,因此与 IMAGE 类型不同,蒙版的批量通常只有三维:[B, H, W]
。B
维被隐式 squeeze 的蒙版,变成了 [H,W]
的张量。
在使用 MASK 时,你经常需要通过 unsqueeze 匹配形状,变成 [B,H,W,C]
,其中 C=1
。C
维 unsqueeze,请用 unsqueeze(-1)
,要给 B
维 unsqueeze,请用 unsqueeze(0)
。len(mask.shape)
。
dict
;潜变量样本通过键 samples
引用,形状为 [B,C,H,W]
,其中 C=4
。