メインコンテンツへスキップ

Wan2.1 Fun Camera について

Wan2.1 Fun Camera は、アリバグループのチームが開発した動画生成プロジェクトであり、カメラの動きを制御することで動画生成の効果を調整することに重点を置いています。 モデル重みのダウンロード先: ソースコードリポジトリ: VideoX-Fun ComfyUI は現在、Wan2.1 Fun Camera モデルをネイティブ対応しています
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している

モデルのインストール

これらのモデルは、一度だけインストールすれば十分です。また、対応するワークフロー画像内にもモデルのダウンロード情報が記載されていますので、ご自身の好みに合わせてダウンロード方法をお選びください。 以下に示すすべてのモデルは、Wan_2.1_ComfyUI_repackaged から入手できます。 Diffusion モデル(1.3B または 14B のいずれかを選択): 以前に Wan2.1 関連のモデルをご利用になったことがある場合、以下のモデルは既にご所有である可能性があります。万が一不足している場合は、それぞれダウンロードしてください。 Text Encoders(いずれか1つを選択): VAE: CLIP Vision: ファイルの保存場所:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │   ├── wan2.1_fun_camera_v1.1_1.3B_bf16.safetensors # 1.3B バージョン
│ │   └── wan2.1_fun_camera_v1.1_14B_bf16.safetensors # 14B バージョン
│ ├── 📂 text_encoders/
│ │   └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ ├── 📂 vae/
│ │   └── wan_2.1_vae.safetensors
│ └── 📂 clip_vision/
│     └── clip_vision_h.safetensors

ComfyUI Wan2.1 Fun Camera 1.3B ネイティブワークフロー例

1. ワークフロー関連ファイルのダウンロード

1.1 ワークフローファイル

以下の動画をダウンロードし、ComfyUI にドラッグ&ドロップすることで、対応するワークフローを読み込むことができます:

JSON ワークフローファイルをダウンロード

14B バージョンをご利用になりたい場合は、単にモデルファイルを 14B バージョンに置き換えてください。ただし、VRAM の要件にご注意ください。

1.2 入力画像のダウンロード

以下の画像をダウンロードし、これを開始フレームとして使用します: 入力参照画像

2. ワークフローをステップ・バイ・ステップで完了させる

Wan2.1 Fun Camera ワークフロー手順
  1. 正しいバージョンのモデルファイルが読み込まれていることを確認します:
    • 1.3B バージョン:wan2.1_fun_camera_v1.1_1.3B_bf16.safetensors
    • 14B バージョン:wan2.1_fun_camera_v1.1_14B_bf16.safetensors
  2. Load CLIP ノードが umt5_xxl_fp8_e4m3fn_scaled.safetensors を読み込んでいることを確認します
  3. Load VAE ノードが wan_2.1_vae.safetensors を読み込んでいることを確認します
  4. Load CLIP Vision ノードが clip_vision_h.safetensors を読み込んでいることを確認します
  5. 開始フレームを Load Image ノードにアップロードします
  6. 自分で用意した入力画像を使用する場合は、プロンプトを修正します
  7. WanCameraEmbedding ノードでカメラの動きを設定します
  8. Run ボタンをクリックするか、ショートカットキー Ctrl (Cmd) + Enter を使用して生成を実行します

ComfyUI Wan2.1 Fun Camera 14B ワークフローおよび入力画像

JSON ワークフローファイルをダウンロード

入力画像
入力画像

パフォーマンスの参考値

1.3B バージョン:
  • RTX 4090 で 512×512 解像度にて 81 フレームを生成するのに約 72 秒かかります
14B バージョン:
  • RTX4090(24GB VRAM)では、512×512 解像度での生成時に VRAM 不足が発生する可能性があります。また、A100 でより大きな解像度を使用した場合にも、VRAM 不足が報告されています