WanSCAILToVideo - ComfyUI Built-in Node Documentation

WanSCAILToVideo 节点用于为视频生成准备 conditioning 和空潜在空间。它会处理参考图像、姿态视频和 CLIP 视觉输出等可选输入，并将它们嵌入到视频模型的正负 conditioning 中。该节点输出修改后的 conditioning 以及指定视频尺寸的空白潜在张量。

输入

参数	描述	数据类型	是否必需	范围
`正向`	正 conditioning 输入。	CONDITIONING	是	-
`负向`	负 conditioning 输入。	CONDITIONING	是	-
`vae`	用于编码图像和视频帧的 VAE 模型。	VAE	是	-
`宽度`	输出视频的宽度（像素），默认值：512。必须能被 8 整除。	INT	是	32 至 MAX_RESOLUTION
`高度`	输出视频的高度（像素），默认值：896。必须能被 8 整除。	INT	是	32 至 MAX_RESOLUTION
`长度`	视频的帧数，默认值：81。必须能被 4 整除。	INT	是	1 至 MAX_RESOLUTION
`批量大小`	每批生成的视频数量，默认值：1。	INT	是	1 至 4096
`clip视觉输出`	可选的 CLIP 视觉输出，用于 conditioning。	CLIP_VISION_OUTPUT	否	-
`参考图像`	可选的参考图像，用于 conditioning。	IMAGE	否	-
`姿态视频`	用于姿态 conditioning 的视频。将被缩小至主视频分辨率的一半。	IMAGE	否	-
`姿态强度`	姿态潜在向量的强度，默认值：1.0。	FLOAT	是	0.0 至 10.0
`姿态起始步`	开始使用姿态 conditioning 的步骤，默认值：0.0。	FLOAT	是	0.0 至 1.0
`姿态结束步`	结束使用姿态 conditioning 的步骤，默认值：1.0。	FLOAT	是	0.0 至 1.0

注意： pose_video 输入仅处理前 length 帧。reference_image 仅处理批次中的第一张图像。当提供了 reference_image 时，负 conditioning 会使用相同尺寸的零填充潜在向量。当提供了 clip_vision_output 时，它会同时应用于正 conditioning 和负 conditioning。

输出

输出名称	描述	数据类型
`正向`	修改后的正 conditioning，可能包含嵌入的参考图像潜在向量、CLIP 视觉输出或姿态视频潜在向量。	CONDITIONING
`负向`	修改后的负 conditioning，可能包含嵌入的参考图像潜在向量、CLIP 视觉输出或姿态视频潜在向量。	CONDITIONING
`latent`	形状为 `[batch_size, 16, ((length - 1) // 4) + 1, height // 8, width // 8]` 的空潜在张量。	LATENT

本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！在 GitHub 上编辑

Source fingerprint (SHA-256): 63de4b6fe41fc23ea81c21965a2dbfc82120bb1bad6785b2130af824e015fbcb

​输入

​输出

输入

输出