WanDancerVideo - ComfyUI Built-in Node Documentation

WanDancerVideo 节点用于为 WanDancer 模型的视频生成准备 conditioning 数据和空的潜空间张量。它结合了正向和负向 conditioning，并支持起始图像、遮罩、CLIP 视觉嵌入和音频特征等可选输入，以控制生成的视频。

输入

参数	描述	数据类型	是否必填	范围
`正向`	用于引导视频生成的正向 conditioning。	CONDITIONING	是
`负向`	用于引导视频生成的负向 conditioning。	CONDITIONING	是
`vae`	用于将起始图像编码到潜空间的 VAE。	VAE	是
`宽度`	生成视频的宽度（像素），默认值：480。	INT	是	16 至 MAX_RESOLUTION（步长：16）
`高度`	生成视频的高度（像素），默认值：832。	INT	是	16 至 MAX_RESOLUTION（步长：16）
`长度`	生成视频的帧数。对于 WanDancer 应保持为 149（默认值：149）。	INT	是	1 至 MAX_RESOLUTION（步长：4）
`clip视觉输出`	第一帧的 CLIP 视觉嵌入。	CLIP_VISION_OUTPUT	否
`clip视觉参考输出`	参考图像的 CLIP 视觉嵌入。	CLIP_VISION_OUTPUT	否
`起始图像`	待编码的初始图像。可以是任意数量的帧，最多不超过指定的 `长度`。	IMAGE	否
`掩码`	起始图像的 conditioning 遮罩。白色区域保留，黑色区域生成。用于局部生成。	MASK	否
`音频编码器输出`	音频编码器的输出，提供音频特征、fps 和注入比例，用于音频条件生成。	AUDIO_ENCODER_OUTPUT	否

参数约束说明：

start_image 和 mask 输入为可选，但可同时使用。当提供 start_image 时，它会被编码并与潜空间张量拼接。如果同时提供 mask，则控制起始图像的哪些部分保留（白色）以及哪些部分重新生成（黑色）。如果未提供 mask，则整个起始图像区域将作为 conditioning 引导。
clip_vision_output 和 clip_vision_output_ref 输入为可选，可同时使用，为第一帧和参考图像提供视觉上下文。
audio_encoder_output 输入为可选，提供音频特征用于音频条件生成。

输出名称	描述	数据类型
`正向`	附加了额外数据（拼接潜空间、CLIP 视觉、音频）的正向 conditioning。	CONDITIONING
`负向`	附加了额外数据（拼接潜空间、CLIP 视觉、音频）的负向 conditioning。	CONDITIONING
`latent`	维度与指定的视频长度、高度和宽度匹配的空潜空间张量。	LATENT

本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！在 GitHub 上编辑

Source fingerprint (SHA-256): 7ab1b4662eb8d780295ea3a3e3139c64d81e03a979a293a481f82deaf1fc2f7e