メインコンテンツへスキップ
Wan2.2-Fun-Inp は、Alibaba PAI チームが開発・公開した首尾フレーム制御型動画生成モデルです。ユーザーは開始フレーム画像と終了フレーム画像を入力することで、それらの間を滑らかに遷移する中間動画を生成できます。これにより、クリエイターはより高度な創造的コントロールを実現できます。本モデルは Apache 2.0 ライセンスのもとで公開されており、商用利用も可能です。 主な特徴
  • 首尾フレーム制御機能:開始フレームと終了フレームの画像を入力し、その間の自然な遷移動画を生成。動画の一貫性と創作の自由度を向上
  • 高品質動画生成:Wan2.2 アーキテクチャを基盤とし、映画レベルの高精細動画を出力
  • マルチ解像度対応:512×512、768×768、1024×1024 など複数の解像度での動画生成をサポートし、さまざまな用途に対応
モデルバージョン
  • 14B 高性能版:モデルサイズは32GB以上。高品質な結果を提供しますが、大量のVRAMを必要とします
関連するモデル重みおよびコードリポジトリは以下の通りです:

ComfyOrg Wan2.2 Fun InP & Control YouTube ライブ配信アーカイブ動画

Wan2.2 Fun Inp 首尾フレーム制御動画生成ワークフローの例

ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している
本ワークフローには以下の2つのバージョンが含まれています:
  1. lightx2v が提供する Wan2.2-Lightning の4ステップLoRAを活用した高速化バージョン(動画の動きに若干の損失が出る可能性あり)
  2. 加速用LoRAを含まない、標準の fp8_scaled バージョン
以下は、RTX4090D(24GB VRAM)GPUを用いたテスト結果(解像度:640×640、フレーム数:81)です。
モデルタイプVRAM使用率初回生成時間2回目以降の生成時間
fp8_scaled83%≈ 524秒≈ 520秒
fp8_scaled + 4ステップLoRA89%≈ 138秒≈ 79秒
LoRAによる高速化効果は非常に顕著ですが、動画のダイナミクスに若干の劣化が生じる場合があります。そのため、本ワークフローでは、高速化LoRAを有効化したバージョンをデフォルトで提供しています。他のバージョン(非LoRA版)を使用したい場合は、該当ノードを選択して Ctrl+B ショートカットで有効化してください。

1. ワークフローファイルのダウンロード

ComfyUI を最新版に更新した後、メニュー WorkflowBrowse TemplatesVideo から「Wan2.2 Fun Inp」を選択してワークフローを読み込んでください。 または、ComfyUI を最新版に更新した上で、以下のリンクからワークフローファイルをダウンロードし、ComfyUI の画面にドラッグ&ドロップして読み込んでください。

JSON形式ワークフローをダウンロード

Comfy Cloud で実行

以下の画像を開始フレームおよび終了フレームの素材としてご使用ください。 Wan2.2 Fun Control ComfyUI ワークフロー 開始フレーム素材 Wan2.2 Fun Control ComfyUI ワークフロー 終了フレーム素材

2. モデルの準備

Diffusion モデル Lightning LoRA(任意:高速化用) VAE テキストエンコーダー
ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_fun_inpaint_high_noise_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_fun_inpaint_low_noise_14B_fp8_scaled.safetensors
│   ├───📂 loras/
│   │   ├─── wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
│   │   └─── wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

3. ワークフローの手順ガイド

ワークフロー手順図
本ワークフローはLoRAを用いた構成です。対応するDiffusionモデルとLoRAが正しく一致していることを確認してください。
  1. High noise モデルおよび LoRA の読み込み
    • Load Diffusion Model ノードが wan2.2_fun_inpaint_high_noise_14B_fp8_scaled.safetensors を読み込んでいることを確認
    • LoraLoaderModelOnly ノードが wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors を読み込んでいることを確認
  2. Low noise モデルおよび LoRA の読み込み
    • Load Diffusion Model ノードが wan2.2_fun_inpaint_low_noise_14B_fp8_scaled.safetensors を読み込んでいることを確認
    • LoraLoaderModelOnly ノードが wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors を読み込んでいることを確認
  3. Load CLIP ノードが umt5_xxl_fp8_e4m3fn_scaled.safetensors を読み込んでいることを確認
  4. Load VAE ノードが wan_2.1_vae.safetensors を読み込んでいることを確認
  5. 開始フレームおよび終了フレームの画像をそれぞれアップロード
  6. 「Prompt」グループ内にプロンプトを入力
  7. WanFunInpaintToVideo ノードで解像度および動画長を調整
    • width および height パラメータを調整(デフォルト値は 640)。小さめのサイズを設定していますが、必要に応じて変更可能です。
    • length(総フレーム数)を調整。現在のワークフローのFPSは16です。たとえば5秒間の動画を生成したい場合は、5 × 16 = 80 と設定してください。
  8. Run ボタンをクリックするか、ショートカットキー Ctrl(macOSの場合はCmd) + Enter を押して動画生成を実行