このドキュメントは AI によって生成されました。誤りを発見した場合や改善に関するご提案があれば、ぜひご貢献ください! GitHub で編集するWanInfiniteTalkToVideo ノードは、音声入力から動画シーケンスを生成します。このノードでは、1人または2人の話者から抽出された音声特徴を条件として用いる動画拡散モデルを活用し、話者(トーキングヘッド)動画の潜在表現を生成します。また、既存の動画シーケンスを前フレームを運動コンテキストとして利用して拡張することも可能です。
入力
| パラメーター | データ型 | 必須 | 範囲 | 説明 |
|---|---|---|---|---|
mode | COMBO | はい | "single_speaker""two_speakers" | 音声入力モード。「"single_speaker"」では単一の音声入力を使用します。「"two_speakers"」では、2人目の話者の入力および対応するマスクを有効化します。 |
model | MODEL | はい | - | 基本となる動画拡散モデル。 |
model_patch | MODELPATCH | はい | - | 音声投影層を含むモデルパッチ。 |
positive | CONDITIONING | はい | - | 生成をガイドするためのポジティブな条件付け。 |
negative | CONDITIONING | はい | - | 生成をガイドするためのネガティブな条件付け。 |
vae | VAE | はい | - | 画像と潜在空間との間の符号化・復号化に使用される VAE。 |
width | INT | いいえ | 16 – MAX_RESOLUTION | 出力動画の幅(ピクセル単位)。16 の倍数である必要があります。(デフォルト:832) |
height | INT | いいえ | 16 – MAX_RESOLUTION | 出力動画の高さ(ピクセル単位)。16 の倍数である必要があります。(デフォルト:480) |
length | INT | いいえ | 1 – MAX_RESOLUTION | 生成するフレーム数。(デフォルト:81) |
clip_vision_output | CLIPVISIONOUTPUT | いいえ | - | 追加の条件付けに使用可能なオプションの CLIP ビジョン出力。 |
start_image | IMAGE | いいえ | - | 動画シーケンスの初期化に使用可能なオプションの開始画像。 |
audio_encoder_output_1 | AUDIOENCODEROUTPUT | はい | - | 最初の話者の特徴を含む主音声エンコーダ出力。 |
motion_frame_count | INT | いいえ | 1 – 33 | シーケンスの拡張時に運動コンテキストとして使用する直前のフレーム数。(デフォルト:9) |
audio_scale | FLOAT | いいえ | -10.0 – 10.0 | 音声条件付けに適用されるスケーリング係数。(デフォルト:1.0) |
previous_frames | IMAGE | いいえ | - | 拡張元となるオプションの直前の動画フレーム。 |
audio_encoder_output_2 | AUDIOENCODEROUTPUT | いいえ | - | 2番目の音声エンコーダ出力。mode を "two_speakers" に設定した場合に必須です。 |
mask_1 | MASK | いいえ | - | 最初の話者のマスク。2つの音声入力を使用する場合に必須です。 |
mask_2 | MASK | いいえ | - | 2番目の話者のマスク。2つの音声入力を使用する場合に必須です。 |
modeを"two_speakers"に設定した場合、パラメーターaudio_encoder_output_2、mask_1、mask_2は必須となります。audio_encoder_output_2を指定した場合は、mask_1およびmask_2も必ず指定する必要があります。mask_1およびmask_2を指定した場合は、audio_encoder_output_2も必ず指定する必要があります。previous_framesを指定した場合、そのフレーム数はmotion_frame_countで指定された数以上である必要があります。
出力
| 出力名 | データ型 | 説明 |
|---|---|---|
model | MODEL | 音声条件付けが適用されたパッチ済みモデル。 |
positive | CONDITIONING | 補足的なコンテキスト(例:開始画像、CLIP ビジョン)に基づいて変更されている可能性のあるポジティブな条件付け。 |
negative | CONDITIONING | 補足的なコンテキストに基づいて変更されている可能性のあるネガティブな条件付け。 |
latent | LATENT | 潜在空間内で生成された動画シーケンス。 |
trim_image | INT | シーケンスの拡張時に運動コンテキストの先頭から切り捨てるべきフレーム数。 |