WanInfiniteTalkToVideo - ComfyUI 組み込みノードのドキュメント

このドキュメントは AI によって生成されました。誤りを発見した場合や改善に関するご提案があれば、ぜひご貢献ください！ GitHub で編集する

WanInfiniteTalkToVideo ノードは、音声入力から動画シーケンスを生成します。このノードでは、1人または2人の話者から抽出された音声特徴を条件として用いる動画拡散モデルを活用し、話者（トーキングヘッド）動画の潜在表現を生成します。また、既存の動画シーケンスを前フレームを運動コンテキストとして利用して拡張することも可能です。

入力

パラメーター	データ型	必須	範囲	説明
`mode`	COMBO	はい	`"single_speaker"` `"two_speakers"`	音声入力モード。「`"single_speaker"`」では単一の音声入力を使用します。「`"two_speakers"`」では、2人目の話者の入力および対応するマスクを有効化します。
`model`	MODEL	はい	-	基本となる動画拡散モデル。
`model_patch`	MODELPATCH	はい	-	音声投影層を含むモデルパッチ。
`positive`	CONDITIONING	はい	-	生成をガイドするためのポジティブな条件付け。
`negative`	CONDITIONING	はい	-	生成をガイドするためのネガティブな条件付け。
`vae`	VAE	はい	-	画像と潜在空間との間の符号化・復号化に使用される VAE。
`width`	INT	いいえ	16 – MAX_RESOLUTION	出力動画の幅（ピクセル単位）。16 の倍数である必要があります。（デフォルト：832）
`height`	INT	いいえ	16 – MAX_RESOLUTION	出力動画の高さ（ピクセル単位）。16 の倍数である必要があります。（デフォルト：480）
`length`	INT	いいえ	1 – MAX_RESOLUTION	生成するフレーム数。（デフォルト：81）
`clip_vision_output`	CLIPVISIONOUTPUT	いいえ	-	追加の条件付けに使用可能なオプションの CLIP ビジョン出力。
`start_image`	IMAGE	いいえ	-	動画シーケンスの初期化に使用可能なオプションの開始画像。
`audio_encoder_output_1`	AUDIOENCODEROUTPUT	はい	-	最初の話者の特徴を含む主音声エンコーダ出力。
`motion_frame_count`	INT	いいえ	1 – 33	シーケンスの拡張時に運動コンテキストとして使用する直前のフレーム数。（デフォルト：9）
`audio_scale`	FLOAT	いいえ	-10.0 – 10.0	音声条件付けに適用されるスケーリング係数。（デフォルト：1.0）
`previous_frames`	IMAGE	いいえ	-	拡張元となるオプションの直前の動画フレーム。
`audio_encoder_output_2`	AUDIOENCODEROUTPUT	いいえ	-	2番目の音声エンコーダ出力。`mode` を `"two_speakers"` に設定した場合に必須です。
`mask_1`	MASK	いいえ	-	最初の話者のマスク。2つの音声入力を使用する場合に必須です。
`mask_2`	MASK	いいえ	-	2番目の話者のマスク。2つの音声入力を使用する場合に必須です。

パラメーター制約：

mode を "two_speakers" に設定した場合、パラメーター audio_encoder_output_2、mask_1、mask_2 は必須となります。
audio_encoder_output_2 を指定した場合は、mask_1 および mask_2 も必ず指定する必要があります。
mask_1 および mask_2 を指定した場合は、audio_encoder_output_2 も必ず指定する必要があります。
previous_frames を指定した場合、そのフレーム数は motion_frame_count で指定された数以上である必要があります。

出力

出力名	データ型	説明
`model`	MODEL	音声条件付けが適用されたパッチ済みモデル。
`positive`	CONDITIONING	補足的なコンテキスト（例：開始画像、CLIP ビジョン）に基づいて変更されている可能性のあるポジティブな条件付け。
`negative`	CONDITIONING	補足的なコンテキストに基づいて変更されている可能性のあるネガティブな条件付け。
`latent`	LATENT	潜在空間内で生成された動画シーケンス。
`trim_image`	INT	シーケンスの拡張時に運動コンテキストの先頭から切り捨てるべきフレーム数。

Documentation Index

​入力

​出力

入力

出力