メインコンテンツへスキップ
SCAIL-2 は、Wan2.1 上に構築されたエンドツーエンドのキャラクターアニメーションモデルです。駆動ビデオの動きを参照キャラクター画像に転送することで、キャラクターアニメーション(キャラクターに動きを実行させる)とビデオ内キャラクター置換(追跡された人物を参照キャラクターに置き換える)を可能にします。 主な機能
  • エンドツーエンドのキャラクターアニメーション:駆動ビデオの動きで静止キャラクター画像を駆動
  • 2つのモード:アニメーションモード(キャラクターが動きを実行)と置換モード(追跡人物を参照キャラクターに置き換え)
  • 長尺ビデオ対応:チャンクベースの重複フレーム拡張生成
  • 組み込み ComfyUI ノード:ネイティブの WanSCAILToVideoSCAIL2ColoredMaskSAM3 トラッキングを使用。標準モデルダウンロード以外にカスタムノードは不要
関連リンク

SCAIL-2 キャラクター置換ワークフロー

Comfy Cloud で実行

Comfy Cloud で開く

ワークフローをダウンロード

JSON をダウンロードするか、テンプレートライブラリで “SCAIL-2” を検索
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している

ワークフローの仕組み

このワークフローは、2つのサブグラフノード:Base サブグラフ(最初のセグメント)と Extend サブグラフ(以降のセグメント): を使用して、ショートビデオとロングビデオの両方のキャラクターアニメーションをサポートします。
  1. 駆動ビデオ(pose_video)と参照キャラクター画像を読み込み
  2. Base サブグラフ が最初のセグメント(デフォルト 81 フレーム)を処理
  3. Extend サブグラフ が 2 番目以降のセグメントを処理し、前のセグメントの previous_frames を連鎖
  4. 結果をプレビューして保存

サブグラフについて

このワークフローはモジュール処理に Subgraph ノードを使用します。ワークフローのカスタマイズと拡張については、サブグラフのドキュメントをご覧ください。

長尺ビデオ

長いビデオの場合は、セグメント数を計算します:ceil(total_frames / 76)。最初のセグメント以外はすべて Extend サブグラフを使用します。さらにセグメントを追加するには Extend ノードを複製し、previous_frames 出力を連鎖させ、segment_index を増やします。
注意: WanSCAILToVideo はすべてのセグメントを自動でキューできません:各セグメントは手動で実行してください。

2つのモード

モードreplace_mode駆動ビデオマスク背景説明
置換モードtrue(デフォルト)駆動ビデオで追跡された人物を参照キャラクターに置き換え
アニメーションモードfalse参照キャラクターが駆動ビデオの動きを実行
両方のサブグラフノードで replace_mode パラメータを設定します。

入力とパラメータ

共通パラメータ(Base と Extend)

パラメータ説明
pose_video動きを転送する駆動ビデオ
reference_imageアニメーション化または挿入するキャラクター画像
prompt出力ビデオの説明
replace_modetrue = 置換モード、false = アニメーションモード
segment_index1 = 最初のチャンク、2+ = 継続。ポーズオフセット = 76 × (インデックス − 1)
width / height出力解像度(例: 896×512)。16 で割り切れる必要あり
frame_countセグメントあたりのフレーム数(デフォルト: 81)
previous_frame_countセグメント間の重複フレーム数(デフォルト: 5)
pose_strength / pose_start / pose_endポーズ条件付けの強度とタイミング

SAM3 トラッキング(2つの入力)

sam3_video_objectsam3_image_object 入力は、SAM3 マスクトラッキングを制御します:SCAIL-2 の出力プロンプトではありません。これらはカラーマスクでどのオブジェクトを追跡するかを決定します。
入力ターゲット出力
sam3_video_object駆動ビデオpose_video_mask
sam3_image_object参照画像reference_image_mask
  • オープンボキャブラリテキストを使用(デフォルト: human
  • ビデオと参照で対象が同じ場合は同じ用語を使用
  • ビデオと参照で異なるフォーカスが必要な場合(例:混雑したシーン)は異なる用語を使用

モデルのインストール

まず ComfyUI を最新バージョンに更新して、組み込みの WanSCAILToVideo および SCAIL2ColoredMask ノードを入手してください。

必要なモデル

diffusion_models text_encoders(いずれか) clip_vision vae loras checkpoints

ファイル保存場所

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_14B_SCAIL_2_fp16.safetensors
│   ├── text_encoders/
│   │   └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│   ├── clip_vision/
│   │   └── clip_vision_h.safetensors
│   ├── vae/
│   │   └── Wan2_1_VAE_bf16.safetensors
│   ├── loras/
│   │   ├── lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors
│   │   └── wan2.1_SCAIL_2_DPO_lora_bf16.safetensors
│   └── checkpoints/
│       └── sam3.1_multiplex_fp16.safetensors