跳转到主要内容
WanDancerVideo 节点用于为 WanDancer 模型的视频生成准备 conditioning 数据和空的潜空间张量。它结合了正向和负向 conditioning,并支持起始图像、遮罩、CLIP 视觉嵌入和音频特征等可选输入,以控制生成的视频。

输入

参数描述数据类型是否必填范围
正向用于引导视频生成的正向 conditioning。CONDITIONING
负向用于引导视频生成的负向 conditioning。CONDITIONING
vae用于将起始图像编码到潜空间的 VAE。VAE
宽度生成视频的宽度(像素),默认值:480。INT16 至 MAX_RESOLUTION(步长:16)
高度生成视频的高度(像素),默认值:832。INT16 至 MAX_RESOLUTION(步长:16)
长度生成视频的帧数。对于 WanDancer 应保持为 149(默认值:149)。INT1 至 MAX_RESOLUTION(步长:4)
clip视觉输出第一帧的 CLIP 视觉嵌入。CLIP_VISION_OUTPUT
clip视觉参考输出参考图像的 CLIP 视觉嵌入。CLIP_VISION_OUTPUT
起始图像待编码的初始图像。可以是任意数量的帧,最多不超过指定的 长度IMAGE
掩码起始图像的 conditioning 遮罩。白色区域保留,黑色区域生成。用于局部生成。MASK
音频编码器输出音频编码器的输出,提供音频特征、fps 和注入比例,用于音频条件生成。AUDIO_ENCODER_OUTPUT
参数约束说明:
  • start_imagemask 输入为可选,但可同时使用。当提供 start_image 时,它会被编码并与潜空间张量拼接。如果同时提供 mask,则控制起始图像的哪些部分保留(白色)以及哪些部分重新生成(黑色)。如果未提供 mask,则整个起始图像区域将作为 conditioning 引导。
  • clip_vision_outputclip_vision_output_ref 输入为可选,可同时使用,为第一帧和参考图像提供视觉上下文。
  • audio_encoder_output 输入为可选,提供音频特征用于音频条件生成。

输出

输出名称描述数据类型
负向附加了额外数据(拼接潜空间、CLIP 视觉、音频)的正向 conditioning。CONDITIONING
latent附加了额外数据(拼接潜空间、CLIP 视觉、音频)的负向 conditioning。CONDITIONING
latent维度与指定的视频长度、高度和宽度匹配的空潜空间张量。LATENT
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑

Source fingerprint (SHA-256): 7ab1b4662eb8d780295ea3a3e3139c64d81e03a979a293a481f82deaf1fc2f7e