メインコンテンツへスキップ
以下が翻訳結果です。

概要

VOID動画精細化プロセスの2回目のパス用に、時間的に相関のあるノイズを生成します。パス1からの出力動画を取得し、ガウシアンノイズをオプティカルフローベクトルに沿ってワープすることで、動画コンテンツと一貫性を持って動くノイズを作成します。このワープされたノイズはパス2の初期潜在変数として使用され、最終出力の時間的一貫性を向上させます。

入力

パラメータ説明データ型必須範囲
optical_flowOpticalFlowLoader(RAFT-large)からのオプティカルフローモデル。MODELはい-
videoパス1の出力動画フレーム [T, H, W, 3]。IMAGEはい-
width出力潜在変数の幅(デフォルト: 672)。INTはい16 ~ MAX_RESOLUTION(ステップ 8)
height出力潜在変数の高さ(デフォルト: 384)。INTはい16 ~ MAX_RESOLUTION(ステップ 8)
lengthピクセルフレーム数。latent_t を偶数にするために切り捨てられます(patch_size_t=2 の要件)。例: 49 → 45(デフォルト: 45)。INTはい1 ~ MAX_RESOLUTION(ステップ 1)
batch_size生成する同一ノイズシーケンスの数(デフォルト: 1)。INTはい1 ~ 64
length パラメータに関する注意: length の値は、latent_t 次元が偶数になる最も近い有効な値に自動的に切り捨てられます。これは、CogVideoX-Fun-V1.5 モデルの patch_size_t=2 制約によるものです。切り捨てが発生した場合、警告がログに記録されます。

出力

出力名説明データ型
warped_noiseオプティカルフローでワープされたガウシアンノイズを含む5次元テンソル(B, C, T, H, W)。VOIDパス2の初期潜在変数として使用可能です。LATENT
このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集

Source fingerprint (SHA-256): a0f986e54bcc6c455220f89f5d840585a9eae081e522ea11e0ce37ab46821bd9