输入
| 参数 | 描述 | 数据类型 | 是否必需 | 范围 |
|---|---|---|---|---|
模式 | 音频输入模式。"single_speaker" 使用一个音频输入。"two_speakers" 启用第二个说话者的输入及对应的遮罩。 | COMBO | 是 | "single_speaker""two_speakers" |
模型 | 基础视频扩散模型。 | MODEL | 是 | - |
模型补丁 | 包含音频投影层的模型补丁。 | MODELPATCH | 是 | - |
正向提示 | 用于引导生成的正向条件。 | CONDITIONING | 是 | - |
负向提示 | 用于引导生成的负向条件。 | CONDITIONING | 是 | - |
vae | 用于将图像编码到潜在空间及从潜在空间解码的 VAE。 | VAE | 是 | - |
宽度 | 输出视频的宽度(像素)。必须能被 16 整除。(默认值:832) | INT | 否 | 16 - MAX_RESOLUTION |
高度 | 输出视频的高度(像素)。必须能被 16 整除。(默认值:480) | INT | 否 | 16 - MAX_RESOLUTION |
长度 | 要生成的帧数。(默认值:81) | INT | 否 | 1 - MAX_RESOLUTION |
clip视觉输出 | 可选的 CLIP 视觉输出,用于额外的条件控制。 | CLIPVISIONOUTPUT | 否 | - |
起始图像 | 可选的起始图像,用于初始化视频序列。 | IMAGE | 否 | - |
音频编码器输出1 | 包含第一个说话者特征的主音频编码器输出。 | AUDIOENCODEROUTPUT | 是 | - |
运动帧数 | 扩展序列时用作运动上下文的先前帧数。(默认值:9) | INT | 否 | 1 - 33 |
音频缩放 | 应用于音频条件的缩放因子。(默认值:1.0) | FLOAT | 否 | -10.0 - 10.0 |
前置帧 | 可选的先前视频帧,用于从中扩展。 | IMAGE | 否 | - |
audio_encoder_output_2 | 第二个音频编码器输出。当 模式 设置为 "two_speakers" 时必需。 | AUDIOENCODEROUTPUT | 否 | - |
mask_1 | 第一个说话者的遮罩,如果使用两个音频输入则必需。 | MASK | 否 | - |
mask_2 | 第二个说话者的遮罩,如果使用两个音频输入则必需。 | MASK | 否 | - |
- 当
mode设置为"two_speakers"时,参数audio_encoder_output_2、mask_1和mask_2变为必需。 - 如果提供了
audio_encoder_output_2,则必须同时提供mask_1和mask_2。 - 如果提供了
mask_1和mask_2,则必须同时提供audio_encoder_output_2。 - 如果提供了
previous_frames,则其包含的帧数必须至少等于motion_frame_count指定的数量。
输出
| 输出名称 | 描述 | 数据类型 |
|---|---|---|
正向提示 | 已应用音频条件的修补模型。 | MODEL |
负向提示 | 正向条件,可能已通过额外上下文(例如起始图像、CLIP 视觉)进行修改。 | CONDITIONING |
latent | 负向条件,可能已通过额外上下文进行修改。 | CONDITIONING |
裁剪图像 | 潜在空间中生成的视频序列。 | LATENT |
trim_image | 扩展序列时,应从运动上下文起始处裁剪的帧数。 | INT |
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
Source fingerprint (SHA-256):
6bb976da5cac0b61edb7d4c9d206c7c7ea9ffc0e982034c23c7f2e891e972888