跳转到主要内容
WanInfiniteTalkToVideo 节点可根据音频输入生成视频序列。它使用视频扩散模型,以从一个或两个说话者提取的音频特征为条件,生成说话人头视频的潜在表示。该节点可以生成新序列,或利用先前帧的运动上下文来扩展现有序列。

输入

参数描述数据类型是否必需范围
模式音频输入模式。"single_speaker" 使用一个音频输入。"two_speakers" 启用第二个说话者的输入及对应的遮罩。COMBO"single_speaker"
"two_speakers"
模型基础视频扩散模型。MODEL-
模型补丁包含音频投影层的模型补丁。MODELPATCH-
正向提示用于引导生成的正向条件。CONDITIONING-
负向提示用于引导生成的负向条件。CONDITIONING-
vae用于将图像编码到潜在空间及从潜在空间解码的 VAE。VAE-
宽度输出视频的宽度(像素)。必须能被 16 整除。(默认值:832)INT16 - MAX_RESOLUTION
高度输出视频的高度(像素)。必须能被 16 整除。(默认值:480)INT16 - MAX_RESOLUTION
长度要生成的帧数。(默认值:81)INT1 - MAX_RESOLUTION
clip视觉输出可选的 CLIP 视觉输出,用于额外的条件控制。CLIPVISIONOUTPUT-
起始图像可选的起始图像,用于初始化视频序列。IMAGE-
音频编码器输出1包含第一个说话者特征的主音频编码器输出。AUDIOENCODEROUTPUT-
运动帧数扩展序列时用作运动上下文的先前帧数。(默认值:9)INT1 - 33
音频缩放应用于音频条件的缩放因子。(默认值:1.0)FLOAT-10.0 - 10.0
前置帧可选的先前视频帧,用于从中扩展。IMAGE-
audio_encoder_output_2第二个音频编码器输出。当 模式 设置为 "two_speakers" 时必需。AUDIOENCODEROUTPUT-
mask_1第一个说话者的遮罩,如果使用两个音频输入则必需。MASK-
mask_2第二个说话者的遮罩,如果使用两个音频输入则必需。MASK-
参数约束:
  • mode 设置为 "two_speakers" 时,参数 audio_encoder_output_2mask_1mask_2 变为必需。
  • 如果提供了 audio_encoder_output_2,则必须同时提供 mask_1mask_2
  • 如果提供了 mask_1mask_2,则必须同时提供 audio_encoder_output_2
  • 如果提供了 previous_frames,则其包含的帧数必须至少等于 motion_frame_count 指定的数量。

输出

输出名称描述数据类型
正向提示已应用音频条件的修补模型。MODEL
负向提示正向条件,可能已通过额外上下文(例如起始图像、CLIP 视觉)进行修改。CONDITIONING
latent负向条件,可能已通过额外上下文进行修改。CONDITIONING
裁剪图像潜在空间中生成的视频序列。LATENT
trim_image扩展序列时,应从运动上下文起始处裁剪的帧数。INT
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑

Source fingerprint (SHA-256): 6bb976da5cac0b61edb7d4c9d206c7c7ea9ffc0e982034c23c7f2e891e972888