跳转到主要内容
WanSCAILToVideo 节点用于为视频生成准备 conditioning 和空潜在空间。它会处理参考图像、姿态视频和 CLIP 视觉输出等可选输入,并将它们嵌入到视频模型的正负 conditioning 中。该节点输出修改后的 conditioning 以及指定视频尺寸的空白潜在张量。

输入

参数描述数据类型是否必需范围
正向正 conditioning 输入。CONDITIONING-
负向负 conditioning 输入。CONDITIONING-
vae用于编码图像和视频帧的 VAE 模型。VAE-
宽度输出视频的宽度(像素),默认值:512。必须能被 8 整除。INT32 至 MAX_RESOLUTION
高度输出视频的高度(像素),默认值:896。必须能被 8 整除。INT32 至 MAX_RESOLUTION
长度视频的帧数,默认值:81。必须能被 4 整除。INT1 至 MAX_RESOLUTION
批量大小每批生成的视频数量,默认值:1。INT1 至 4096
clip视觉输出可选的 CLIP 视觉输出,用于 conditioning。CLIP_VISION_OUTPUT-
参考图像可选的参考图像,用于 conditioning。IMAGE-
姿态视频用于姿态 conditioning 的视频。将被缩小至主视频分辨率的一半。IMAGE-
姿态强度姿态潜在向量的强度,默认值:1.0。FLOAT0.0 至 10.0
姿态起始步开始使用姿态 conditioning 的步骤,默认值:0.0。FLOAT0.0 至 1.0
姿态结束步结束使用姿态 conditioning 的步骤,默认值:1.0。FLOAT0.0 至 1.0
注意: pose_video 输入仅处理前 length 帧。reference_image 仅处理批次中的第一张图像。当提供了 reference_image 时,负 conditioning 会使用相同尺寸的零填充潜在向量。当提供了 clip_vision_output 时,它会同时应用于正 conditioning 和负 conditioning。

输出

输出名称描述数据类型
负向修改后的正 conditioning,可能包含嵌入的参考图像潜在向量、CLIP 视觉输出或姿态视频潜在向量。CONDITIONING
latent修改后的负 conditioning,可能包含嵌入的参考图像潜在向量、CLIP 视觉输出或姿态视频潜在向量。CONDITIONING
latent形状为 [batch_size, 16, ((length - 1) // 4) + 1, height // 8, width // 8] 的空潜在张量。LATENT
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑

Source fingerprint (SHA-256): 63de4b6fe41fc23ea81c21965a2dbfc82120bb1bad6785b2130af824e015fbcb