メインコンテンツへスキップ
このドキュメントは AI によって生成されました。誤りを発見した場合や改善に関するご提案があれば、ぜひご貢献ください! GitHub で編集する
WanInfiniteTalkToVideo ノードは、音声入力から動画シーケンスを生成します。このノードでは、1人または2人の話者から抽出された音声特徴を条件として用いる動画拡散モデルを活用し、話者(トーキングヘッド)動画の潜在表現を生成します。また、既存の動画シーケンスを前フレームを運動コンテキストとして利用して拡張することも可能です。

入力

パラメーターデータ型必須範囲説明
modeCOMBOはい"single_speaker"
"two_speakers"
音声入力モード。「"single_speaker"」では単一の音声入力を使用します。「"two_speakers"」では、2人目の話者の入力および対応するマスクを有効化します。
modelMODELはい-基本となる動画拡散モデル。
model_patchMODELPATCHはい-音声投影層を含むモデルパッチ。
positiveCONDITIONINGはい-生成をガイドするためのポジティブな条件付け。
negativeCONDITIONINGはい-生成をガイドするためのネガティブな条件付け。
vaeVAEはい-画像と潜在空間との間の符号化・復号化に使用される VAE。
widthINTいいえ16 – MAX_RESOLUTION出力動画の幅(ピクセル単位)。16 の倍数である必要があります。(デフォルト:832)
heightINTいいえ16 – MAX_RESOLUTION出力動画の高さ(ピクセル単位)。16 の倍数である必要があります。(デフォルト:480)
lengthINTいいえ1 – MAX_RESOLUTION生成するフレーム数。(デフォルト:81)
clip_vision_outputCLIPVISIONOUTPUTいいえ-追加の条件付けに使用可能なオプションの CLIP ビジョン出力。
start_imageIMAGEいいえ-動画シーケンスの初期化に使用可能なオプションの開始画像。
audio_encoder_output_1AUDIOENCODEROUTPUTはい-最初の話者の特徴を含む主音声エンコーダ出力。
motion_frame_countINTいいえ1 – 33シーケンスの拡張時に運動コンテキストとして使用する直前のフレーム数。(デフォルト:9)
audio_scaleFLOATいいえ-10.0 – 10.0音声条件付けに適用されるスケーリング係数。(デフォルト:1.0)
previous_framesIMAGEいいえ-拡張元となるオプションの直前の動画フレーム。
audio_encoder_output_2AUDIOENCODEROUTPUTいいえ-2番目の音声エンコーダ出力。mode"two_speakers" に設定した場合に必須です。
mask_1MASKいいえ-最初の話者のマスク。2つの音声入力を使用する場合に必須です。
mask_2MASKいいえ-2番目の話者のマスク。2つの音声入力を使用する場合に必須です。
パラメーター制約:
  • mode"two_speakers" に設定した場合、パラメーター audio_encoder_output_2mask_1mask_2 は必須となります。
  • audio_encoder_output_2 を指定した場合は、mask_1 および mask_2 も必ず指定する必要があります。
  • mask_1 および mask_2 を指定した場合は、audio_encoder_output_2 も必ず指定する必要があります。
  • previous_frames を指定した場合、そのフレーム数は motion_frame_count で指定された数以上である必要があります。

出力

出力名データ型説明
modelMODEL音声条件付けが適用されたパッチ済みモデル。
positiveCONDITIONING補足的なコンテキスト(例:開始画像、CLIP ビジョン)に基づいて変更されている可能性のあるポジティブな条件付け。
negativeCONDITIONING補足的なコンテキストに基づいて変更されている可能性のあるネガティブな条件付け。
latentLATENT潜在空間内で生成された動画シーケンス。
trim_imageINTシーケンスの拡張時に運動コンテキストの先頭から切り捨てるべきフレーム数。