跳转到主要内容
WanSoundImageToVideo 节点可根据图像生成视频内容,并支持可选的音频条件控制。该节点接收正面和负面条件提示以及 VAE 模型来创建视频潜在表示,并可结合参考图像、音频编码、控制视频和运动参考来引导视频生成过程。

输入

参数描述数据类型是否必填范围
正面提示词正面条件提示,用于引导生成视频中应出现的内容CONDITIONING-
负面提示词负面条件提示,用于指定生成视频中应避免的内容CONDITIONING-
VAE用于编码和解码视频潜在表示的 VAE 模型VAE-
宽度输出视频的宽度(像素),默认值:832,必须能被 16 整除INT16 至 MAX_RESOLUTION
高度输出视频的高度(像素),默认值:480,必须能被 16 整除INT16 至 MAX_RESOLUTION
长度生成视频的帧数,默认值:77,必须能被 4 整除INT1 至 MAX_RESOLUTION
批次大小同时生成的视频数量,默认值:1INT1 至 4096
音频编码器输出可选的音频编码,可根据声音特征影响视频生成AUDIOENCODEROUTPUT-
参考图像可选的参考图像,为视频内容提供视觉引导IMAGE-
控制视频可选的控制视频,用于引导生成视频的运动和结构IMAGE-
参考动作可选的运动参考,为视频中的运动模式提供引导IMAGE-

输出

输出名称描述数据类型
负面提示词经过修改以适应视频生成的正面条件处理结果CONDITIONING
潜变量经过修改以适应视频生成的负面条件处理结果CONDITIONING
latent在潜在空间中生成的视频表示,可解码为最终视频帧LATENT
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑

Source fingerprint (SHA-256): f80f82b8671294a14ecfecf91bc13febae0c91c5efa438467a4413d52dc82d3f