跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.comfy.org/llms.txt

Use this file to discover all available pages before exploring further.

本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
WanDancerVideo 节点用于为 WanDancer 模型的视频生成准备 conditioning 数据和空的潜空间张量。它结合了正向和负向 conditioning,并支持起始图像、遮罩、CLIP 视觉嵌入和音频特征等可选输入,以控制生成的视频。

输入

参数数据类型是否必填范围描述
正向CONDITIONING用于引导视频生成的正向 conditioning。
负向CONDITIONING用于引导视频生成的负向 conditioning。
vaeVAE用于将起始图像编码到潜空间的 VAE。
宽度INT16 至 MAX_RESOLUTION(步长:16)生成视频的宽度(像素),默认值:480。
高度INT16 至 MAX_RESOLUTION(步长:16)生成视频的高度(像素),默认值:832。
长度INT1 至 MAX_RESOLUTION(步长:4)生成视频的帧数。对于 WanDancer 应保持为 149(默认值:149)。
clip视觉输出CLIP_VISION_OUTPUT第一帧的 CLIP 视觉嵌入。
clip视觉参考输出CLIP_VISION_OUTPUT参考图像的 CLIP 视觉嵌入。
起始图像IMAGE待编码的初始图像。可以是任意数量的帧,最多不超过指定的 长度
掩码MASK起始图像的 conditioning 遮罩。白色区域保留,黑色区域生成。用于局部生成。
音频编码器输出AUDIO_ENCODER_OUTPUT音频编码器的输出,提供音频特征、fps 和注入比例,用于音频条件生成。
参数约束说明:
  • start_imagemask 输入为可选,但可同时使用。当提供 start_image 时,它会被编码并与潜空间张量拼接。如果同时提供 mask,则控制起始图像的哪些部分保留(白色)以及哪些部分重新生成(黑色)。如果未提供 mask,则整个起始图像区域将作为 conditioning 引导。
  • clip_vision_outputclip_vision_output_ref 输入为可选,可同时使用,为第一帧和参考图像提供视觉上下文。
  • audio_encoder_output 输入为可选,提供音频特征用于音频条件生成。

输出

输出名称数据类型描述
负向CONDITIONING附加了额外数据(拼接潜空间、CLIP 视觉、音频)的正向 conditioning。
latentCONDITIONING附加了额外数据(拼接潜空间、CLIP 视觉、音频)的负向 conditioning。
latentLATENT维度与指定的视频长度、高度和宽度匹配的空潜空间张量。

Source fingerprint (SHA-256): 7ab1b4662eb8d780295ea3a3e3139c64d81e03a979a293a481f82deaf1fc2f7e