跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.comfy.org/llms.txt

Use this file to discover all available pages before exploring further.

本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑

概述

为 VOID 视频优化流程的第二遍生成时间相关的噪声。它接收第一遍输出的视频,并沿着光流矢量扭曲高斯噪声,生成与视频内容一致运动的噪声。该扭曲噪声用作第二遍的初始潜在表示,从而改善最终输出的时间一致性。

输入

参数数据类型必填范围描述
optical_flowMODEL-来自 OpticalFlowLoader 的光流模型(RAFT-large)。
videoIMAGE-第一遍输出视频帧 [T, H, W, 3]。
widthINT16 至 MAX_RESOLUTION(步长 8)输出潜在表示的宽度(默认值:672)。
heightINT16 至 MAX_RESOLUTION(步长 8)输出潜在表示的高度(默认值:384)。
lengthINT1 至 MAX_RESOLUTION(步长 1)像素帧数。向下取整以使 latent_t 为偶数(patch_size_t=2 要求),例如 49 → 45(默认值:45)。
batch_sizeINT1 至 64要生成的相同噪声序列数量(默认值:1)。
关于 length 参数的说明: length 值会自动向下取整到最接近的有效值,该值能产生偶数 latent_t 维度。这是 CogVideoX-Fun-V1.5 模型的 patch_size_t=2 约束所要求的。当发生取整时,会记录一条警告信息。

输出

输出名称数据类型描述
warped_noiseLATENT一个 5D 张量 (B, C, T, H, W),包含经光流扭曲的高斯噪声,可直接用作 VOID 第二遍的初始潜在表示。

Source fingerprint (SHA-256): a0f986e54bcc6c455220f89f5d840585a9eae081e522ea11e0ce37ab46821bd9