メインコンテンツへスキップ
ATI(Any Trajectory Instruction:任意軌道指示) は、ByteDanceチームが提案した制御可能な動画生成フレームワークです。ATIはWan2.1をベースとして実装されており、物体、局所領域、カメラモーションなど、動画内のさまざまな要素を、任意の軌道指示によって統一的に制御することをサポートします。 プロジェクトURL:https://github.com/bytedance/ATI

主な特徴

  • 統合的なモーション制御:物体、局所領域、カメラモーションなど、複数のモーションタイプに対する軌道制御をサポート。
  • インタラクティブな軌道エディタ:画像上に自由に軌道を描画・編集できる視覚的ツール。
  • Wan2.1互換性:公式Wan2.1実装をベースとしており、実行環境およびモデル構造と互換性があります。
  • 豊富な可視化ツール:入力軌道、出力動画、および軌道オーバーレイの可視化をサポート。

WAN ATI 軌道制御ワークフローの例

ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している

1. ワークフローのダウンロード

以下の動画をダウンロードし、ComfyUIにドラッグ&ドロップすることで、対応するワークフローを読み込みます。 以下のような画像を入力として使用します: v2v-input

2. モデルのダウンロード

ワークフローからモデルファイルを正常にダウンロードできていない場合、以下のリンクから手動でダウンロードしてみてください。 Diffusionモデル VAE テキストエンコーダー(以下のいずれか1つを選択) clip_vision ファイル保存先
ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   └───Wan2_1-I2V-ATI-14B_fp8_e4m3fn.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # または他のバージョン
│   ├───📂 clip_vision/
│   │   └─── clip_vision_h.safetensors
│   └───📂 vae/
│       └──  wan_2.1_vae.safetensors

3. ワークフロー実行のステップバイステップ手順

ワークフローステップ図 画像中の番号順に手順を確認し、対応するワークフローがスムーズに実行されるようご注意ください。
  1. Load Diffusion ModelノードがWan2_1-I2V-ATI-14B_fp8_e4m3fn.safetensorsモデルを正しく読み込んでいることを確認してください。
  2. Load CLIPノードがumt5_xxl_fp8_e4m3fn_scaled.safetensorsモデルを正しく読み込んでいることを確認してください。
  3. Load VAEノードがwan_2.1_vae.safetensorsモデルを正しく読み込んでいることを確認してください。
  4. Load CLIP Visionノードがclip_vision_h.safetensorsモデルを正しく読み込んでいることを確認してください。
  5. Load Imageノードに提供された入力画像をアップロードしてください。
  6. 軌道編集:現時点ではComfyUIには対応する軌道エディタがまだ実装されていません。以下のリンクから軌道編集を完了できます。
  7. プロンプト(ポジティブ/ネガティブ)を変更したい場合は、番号5CLIP Text Encoderノードで編集してください。
  8. Runボタンをクリックするか、ショートカットキー Ctrl(Macの場合はCmd) + Enter を押して動画生成を実行してください。