メインコンテンツへスキップ
WanInfiniteTalkToVideo ノードは、音声入力からビデオシーケンスを生成します。このノードは、1人または2人の話者から抽出された音声特徴量を条件として、ビデオ拡散モデルを使用し、トーキングヘッドビデオの潜在表現を生成します。新しいシーケンスを生成することも、モーションコンテキストとして以前のフレームを使用して既存のシーケンスを拡張することもできます。

入力

パラメータ説明データ型必須範囲
モード音声入力モード。"single_speaker" は1つの音声入力を使用します。"two_speakers" は2人目の話者と対応するマスクの入力を有効にします。COMBOはい"single_speaker"
"two_speakers"
モデルベースとなるビデオ拡散モデル。MODELはい-
モデルパッチ音声投影レイヤーを含むモデルパッチ。MODELPATCHはい-
ポジティブ生成をガイドするポジティブ条件付け。CONDITIONINGはい-
ネガティブ生成をガイドするネガティブ条件付け。CONDITIONINGはい-
vae画像を潜在空間にエンコードし、潜在空間からデコードするために使用されるVAE。VAEはい-
出力ビデオの幅(ピクセル単位)。16で割り切れる必要があります。(デフォルト: 832)INTいいえ16 - MAX_RESOLUTION
高さ出力ビデオの高さ(ピクセル単位)。16で割り切れる必要があります。(デフォルト: 480)INTいいえ16 - MAX_RESOLUTION
長さ生成するフレーム数。(デフォルト: 81)INTいいえ1 - MAX_RESOLUTION
clipビジョン出力追加の条件付けのためのオプションのCLIPビジョン出力。CLIPVISIONOUTPUTいいえ-
開始画像ビデオシーケンスを初期化するためのオプションの開始画像。IMAGEいいえ-
オーディオエンコーダ出力1最初の話者の特徴量を含むプライマリ音声エンコーダ出力。AUDIOENCODEROUTPUTはい-
モーションフレーム数シーケンスを拡張する際にモーションコンテキストとして使用する過去のフレーム数。(デフォルト: 9)INTいいえ1 - 33
オーディオスケール音声条件付けに適用されるスケーリング係数。(デフォルト: 1.0)FLOATいいえ-10.0 - 10.0
前のフレーム拡張元となるオプションの以前のビデオフレーム。IMAGEいいえ-
audio_encoder_output_22番目の音声エンコーダ出力。モード"two_speakers" に設定されている場合に必須です。AUDIOENCODEROUTPUTいいえ-
mask_1最初の話者のマスク。2つの音声入力を使用する場合に必須です。MASKいいえ-
mask_22番目の話者のマスク。2つの音声入力を使用する場合に必須です。MASKいいえ-
パラメータ制約:
  • mode"two_speakers" に設定されている場合、パラメータ audio_encoder_output_2mask_1mask_2 が必須になります。
  • audio_encoder_output_2 が指定された場合、mask_1mask_2 の両方も指定する必要があります。
  • mask_1mask_2 が指定された場合、audio_encoder_output_2 も指定する必要があります。
  • previous_frames が指定された場合、motion_frame_count で指定された数以上のフレームが含まれている必要があります。

出力

出力名説明データ型
ポジティブ音声条件付けが適用されたパッチ済みモデル。MODEL
ネガティブ追加コンテキスト(開始画像、CLIPビジョンなど)で変更される可能性のあるポジティブ条件付け。CONDITIONING
潜在追加コンテキストで変更される可能性のあるネガティブ条件付け。CONDITIONING
トリム画像潜在空間で生成されたビデオシーケンス。LATENT
trim_imageシーケンスを拡張する際に、モーションコンテキストの先頭からトリミングする必要があるフレーム数。INT
このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集

Source fingerprint (SHA-256): 6bb976da5cac0b61edb7d4c9d206c7c7ea9ffc0e982034c23c7f2e891e972888