メインコンテンツへスキップ
Wan2.2-Fun-Control は、Alibaba PAI チームによってリリースされた次世代の動画生成・制御モデルです。革新的な Control Codes 機制を導入し、深層学習とマルチモーダル条件入力を組み合わせることで、预设された制御条件に準拠した高品質な動画を生成できます。本モデルは Apache 2.0 ライセンス でリリースされており、商用利用も可能です。 主な機能:
  • マルチモーダル制御: Canny(線画)Depth(深度)OpenPose(人体ポーズ)MLSD(幾何学的エッジ)、および軌跡制御を含む複数の制御条件をサポート
  • 高品質動画生成: Wan2.2 アーキテクチャに基づき、映画レベルの品質の動画を出力
  • 多言語サポート: 中国語や英語を含む多言語プロンプトをサポート
以下は関連モデル重みとコードリポジトリです:

ComfyOrg Wan2.2 Fun InP & Control YouTube ライブストリーム録画

Wan2.2 Fun Control 動画生成ワークフロー例

ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している
このワークフローは 2 つのバージョンを提供します:
  1. lightx2v による Wan2.2-Lightning 4 ステップ LoRA を使用したバージョン:動画のダイナミクスにいくつかの損失が生じる可能性がありますが、速度は速くなります
  2. 加速 LoRA を使用しない fp8_scaled バージョン
以下は、RTX4090D 24GB VRAM GPU を使用し、640×640 解像度、81 フレームでテストした結果です
モデルタイプVRAM 使用量初回生成時間2 回目生成時間
fp8_scaled83%≈ 524s≈ 520s
fp8_scaled + 4-step LoRA89%≈ 138s≈ 79s
4 ステップ LoRA を使用すると初次利用者のエクスペリエンスが向上しますが、動画のダイナミクスに損失が生じる可能性があるため、デフォルトでは加速 LoRA バージョンを有効にしています。別のワークフローを有効にしたい場合は、それを選択し、Ctrl+B を使用して有効にしてください。

1. ワークフローと素材のダウンロード

以下の動画または JSON ファイルをダウンロードし、ComfyUI にドラッグしてワークフローを読み込んでください

JSON ワークフローをダウンロード

入力素材として以下の画像および動画をダウンロードしてください。 入力開始画像
ここでは前処理済みの動画を使用しています。

2. モデル

以下のモデルは Wan_2.2_ComfyUI_Repackaged で見つかります Diffusion Model Wan2.2-Lightning LoRA (オプション、加速用) VAE Text Encoder
ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_fun_control_low_noise_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_fun_control_high_noise_14B_fp8_scaled.safetensors
│   ├───📂 loras/
│   │   ├─── wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
│   │   └─── wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

3. ワークフローガイド

Wan2.2 Fun Control ワークフロー手順
このワークフローは LoRA を使用します。対応する Diffusion モデルと LoRA が一致していることを確認してください - high noise と low noise のモデルと LoRA は対応して使用する必要があります。
  1. High noise モデルと LoRA の読み込み
    • Load Diffusion Model ノードが wan2.2_fun_control_high_noise_14B_fp8_scaled.safetensors モデルを読み込むことを確認
    • LoraLoaderModelOnly ノードが wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors を読み込むことを確認
  2. Low noise モデルと LoRA の読み込み
    • Load Diffusion Model ノードが wan2.2_fun_control_low_noise_14B_fp8_scaled.safetensors モデルを読み込むことを確認
    • LoraLoaderModelOnly ノードが wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors を読み込むことを確認
  3. Load CLIP ノードが umt5_xxl_fp8_e4m3fn_scaled.safetensors モデルを読み込むことを確認
  4. Load VAE ノードが wan_2.1_vae.safetensors モデルを読み込むことを確認
  5. Load Image ノードで開始フレームをアップロード
  6. 2 つ目の Load video ノードでポーズ制御動画を読み込みます。提供された動画は前処理済みで、直接使用できます
  7. 前処理済みのポーズ動画を提供しているため、対応する動画画像前処理ノードを無効にする必要があります。選択して Ctrl + B を使用して無効にできます
  8. プロンプトを変更 - 中国語と英語の両方を使用できます
  9. Wan22FunControlToVideo で動画の次元を変更します。デフォルトは 640×640 解像度に設定されており、VRAM が少ないユーザーの処理時間が長くなりすぎないようにしています
  10. Run ボタンをクリック、またはショートカット Ctrl(cmd) + Enter を使用して動画生成を実行

追加の注記

ComfyUI の組み込みノードには Canny 前処理のみが含まれているため、ComfyUI-comfyui_controlnet_aux のようなツールを使用して、他のタイプの画像前処理を実装できます