WanInfiniteTalkToVideo - ComfyUI Built-in Node Documentation

WanInfiniteTalkToVideo 节点可根据音频输入生成视频序列。它使用视频扩散模型，以从一个或两个说话者提取的音频特征为条件，生成说话人头视频的潜在表示。该节点可以生成新序列，或利用先前帧的运动上下文来扩展现有序列。

输入

参数	描述	数据类型	是否必需	范围
`模式`	音频输入模式。`"single_speaker"` 使用一个音频输入。`"two_speakers"` 启用第二个说话者的输入及对应的遮罩。	COMBO	是	`"single_speaker"` `"two_speakers"`
`模型`	基础视频扩散模型。	MODEL	是	-
`模型补丁`	包含音频投影层的模型补丁。	MODELPATCH	是	-
`正向提示`	用于引导生成的正向条件。	CONDITIONING	是	-
`负向提示`	用于引导生成的负向条件。	CONDITIONING	是	-
`vae`	用于将图像编码到潜在空间及从潜在空间解码的 VAE。	VAE	是	-
`宽度`	输出视频的宽度（像素）。必须能被 16 整除。（默认值：832）	INT	否	16 - MAX_RESOLUTION
`高度`	输出视频的高度（像素）。必须能被 16 整除。（默认值：480）	INT	否	16 - MAX_RESOLUTION
`长度`	要生成的帧数。（默认值：81）	INT	否	1 - MAX_RESOLUTION
`clip视觉输出`	可选的 CLIP 视觉输出，用于额外的条件控制。	CLIPVISIONOUTPUT	否	-
`起始图像`	可选的起始图像，用于初始化视频序列。	IMAGE	否	-
`音频编码器输出1`	包含第一个说话者特征的主音频编码器输出。	AUDIOENCODEROUTPUT	是	-
`运动帧数`	扩展序列时用作运动上下文的先前帧数。（默认值：9）	INT	否	1 - 33
`音频缩放`	应用于音频条件的缩放因子。（默认值：1.0）	FLOAT	否	-10.0 - 10.0
`前置帧`	可选的先前视频帧，用于从中扩展。	IMAGE	否	-
`audio_encoder_output_2`	第二个音频编码器输出。当 `模式` 设置为 `"two_speakers"` 时必需。	AUDIOENCODEROUTPUT	否	-
`mask_1`	第一个说话者的遮罩，如果使用两个音频输入则必需。	MASK	否	-
`mask_2`	第二个说话者的遮罩，如果使用两个音频输入则必需。	MASK	否	-

参数约束：

当 mode 设置为 "two_speakers" 时，参数 audio_encoder_output_2、mask_1 和 mask_2 变为必需。
如果提供了 audio_encoder_output_2，则必须同时提供 mask_1 和 mask_2。
如果提供了 mask_1 和 mask_2，则必须同时提供 audio_encoder_output_2。
如果提供了 previous_frames，则其包含的帧数必须至少等于 motion_frame_count 指定的数量。

输出

输出名称	描述	数据类型
`模型`	已应用音频条件的修补模型。	MODEL
`正向提示`	正向条件，可能已通过额外上下文（例如起始图像、CLIP 视觉）进行修改。	CONDITIONING
`负向提示`	负向条件，可能已通过额外上下文进行修改。	CONDITIONING
`latent`	潜在空间中生成的视频序列。	LATENT
`裁剪图像`	扩展序列时，应从运动上下文起始处裁剪的帧数。	INT

本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！在 GitHub 上编辑

Source fingerprint (SHA-256): 6bb976da5cac0b61edb7d4c9d206c7c7ea9ffc0e982034c23c7f2e891e972888

​输入

​输出

输入

输出