Documentation Index
Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
Use this file to discover all available pages before exploring further.
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
概述
为 VOID 视频优化流程的第二遍生成时间相关的噪声。它接收第一遍输出的视频,并沿着光流矢量扭曲高斯噪声,生成与视频内容一致运动的噪声。该扭曲噪声用作第二遍的初始潜在表示,从而改善最终输出的时间一致性。输入
| 参数 | 数据类型 | 必填 | 范围 | 描述 |
|---|---|---|---|---|
optical_flow | MODEL | 是 | - | 来自 OpticalFlowLoader 的光流模型(RAFT-large)。 |
video | IMAGE | 是 | - | 第一遍输出视频帧 [T, H, W, 3]。 |
width | INT | 是 | 16 至 MAX_RESOLUTION(步长 8) | 输出潜在表示的宽度(默认值:672)。 |
height | INT | 是 | 16 至 MAX_RESOLUTION(步长 8) | 输出潜在表示的高度(默认值:384)。 |
length | INT | 是 | 1 至 MAX_RESOLUTION(步长 1) | 像素帧数。向下取整以使 latent_t 为偶数(patch_size_t=2 要求),例如 49 → 45(默认值:45)。 |
batch_size | INT | 是 | 1 至 64 | 要生成的相同噪声序列数量(默认值:1)。 |
length 参数的说明: length 值会自动向下取整到最接近的有效值,该值能产生偶数 latent_t 维度。这是 CogVideoX-Fun-V1.5 模型的 patch_size_t=2 约束所要求的。当发生取整时,会记录一条警告信息。
输出
| 输出名称 | 数据类型 | 描述 |
|---|---|---|
warped_noise | LATENT | 一个 5D 张量 (B, C, T, H, W),包含经光流扭曲的高斯噪声,可直接用作 VOID 第二遍的初始潜在表示。 |
Source fingerprint (SHA-256):
a0f986e54bcc6c455220f89f5d840585a9eae081e522ea11e0ce37ab46821bd9