WanSoundImageToVideo - ComfyUI Built-in Node Documentation - ComfyUI

WanSoundImageToVideo 节点可根据图像生成视频内容，并支持可选的音频条件控制。该节点接收正面和负面条件提示以及 VAE 模型来创建视频潜在表示，并可结合参考图像、音频编码、控制视频和运动参考来引导视频生成过程。

输入

参数	描述	数据类型	是否必填	范围
`正面提示词`	正面条件提示，用于引导生成视频中应出现的内容	CONDITIONING	是	-
`负面提示词`	负面条件提示，用于指定生成视频中应避免的内容	CONDITIONING	是	-
`VAE`	用于编码和解码视频潜在表示的 VAE 模型	VAE	是	-
`宽度`	输出视频的宽度（像素），默认值：832，必须能被 16 整除	INT	是	16 至 MAX_RESOLUTION
`高度`	输出视频的高度（像素），默认值：480，必须能被 16 整除	INT	是	16 至 MAX_RESOLUTION
`长度`	生成视频的帧数，默认值：77，必须能被 4 整除	INT	是	1 至 MAX_RESOLUTION
`批次大小`	同时生成的视频数量，默认值：1	INT	是	1 至 4096
`音频编码器输出`	可选的音频编码，可根据声音特征影响视频生成	AUDIOENCODEROUTPUT	否	-
`参考图像`	可选的参考图像，为视频内容提供视觉引导	IMAGE	否	-
`控制视频`	可选的控制视频，用于引导生成视频的运动和结构	IMAGE	否	-
`参考动作`	可选的运动参考，为视频中的运动模式提供引导	IMAGE	否	-

输出

输出名称	描述	数据类型
`正面提示词`	经过修改以适应视频生成的正面条件处理结果	CONDITIONING
`负面提示词`	经过修改以适应视频生成的负面条件处理结果	CONDITIONING
`潜变量`	在潜在空间中生成的视频表示，可解码为最终视频帧	LATENT

本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！在 GitHub 上编辑

Source fingerprint (SHA-256): f80f82b8671294a14ecfecf91bc13febae0c91c5efa438467a4413d52dc82d3f

WanSCAILToVideo - ComfyUI Built-in Node Documentation

WanSoundImageToVideoExtend - ComfyUI Built-in Node Documentation