メインコンテンツへスキップ
Wan FLF2V(First-Last Frame Video Generation:始終フレーム動画生成)は、アリババ・トングイ・ワンシャン(通義万相)チームが開発したオープンソースの動画生成モデルです。ライセンスは Apache 2.0 です。
ユーザーは開始フレームと終了フレームの2枚の画像のみを提供すれば、モデルが自動的に中間の遷移フレームを生成し、論理的かつ自然な流れを持つ720p高精細動画を出力します。
主な技術的特長
  1. 高精度な始終フレーム制御:始終フレームの一致率は98%に達し、開始・終了シーンによって動画の境界を定義し、中間の動的変化を知的に補完することで、シーン遷移やオブジェクトの形態変化などの効果を実現します。
  2. 安定・滑らかな動画生成:CLIPのセマンティック特徴およびクロスアテンション機構を活用し、同様のモデルと比較して動画のジャッター率を37%低減。自然で滑らかな遷移を保証します。
  3. 多機能なクリエイティブ能力:中国語・英語字幕の動的埋め込み、アニメ/リアル/ファンタジーなど複数スタイルの生成に対応し、さまざまなクリエイティブニーズに応えます。
  4. 720p高精細出力:後処理を必要とせず、直接1280×720解像度の動画を生成。SNSや商用用途に最適です。
  5. オープンソースエコシステム対応:モデル重み、ソースコード、訓練フレームワークがすべてオープンソース化されており、主要なAIプラットフォームへのデプロイをサポートします。
技術原理とアーキテクチャ
  1. DiTアーキテクチャ:拡散モデルおよびDiffusion Transformerアーキテクチャに基づき、Full Attention機構を組み合わせて時空間依存性のモデリングを最適化し、動画の一貫性を確保します。
  2. 3D因果的変分エンコーダ:Wan-VAE技術により、高精細フレームを1/128サイズに圧縮しつつ、微細な動的ディテールを保持。メモリ使用量を大幅に削減します。
  3. 3段階トレーニング戦略:480P解像度での事前学習から始め、段階的に720Pへとアップグレード。フェーズごとの最適化により、生成品質と計算効率のバランスを図ります。
関連リンク
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している

Wan2.1 FLF2V 720P ComfyUIネイティブワークフロー例

1. ワークフローファイルおよび関連入力ファイルのダウンロード

このモデルは高解像度画像で学習されているため、小さいサイズを使用すると良好な結果が得られない場合があります。本例では720×1280のサイズを使用していますが、VRAMが少ない環境ではスムーズな実行が困難になり、生成に非常に長い時間がかかる可能性があります。
必要に応じて、テスト目的で動画生成サイズを調整してください。ただし、このモデルでは小さなサイズでは十分な品質の出力が得られないことにご注意ください。
以下のWebPファイルをダウンロードし、ComfyUIにドラッグ&ドロップして対応するワークフローを読み込んでください。このワークフローには、必要なモデルのダウンロード情報が既に埋め込まれています。 Wan2.1 FLF2V 720P f16 ワークフロー 以下の2枚の画像をダウンロードしてください。これらを動画の開始フレームおよび終了フレームとして使用します。 start_image end_image

2. 手動によるモデルインストール

本ガイドで使用するすべてのモデルは、こちらから入手できます。 diffusion_models:ご使用のハードウェア環境に応じて、以下のいずれかのバージョンを選択してください。
以前にWan Video関連のワークフローを試されたことがある場合は、すでに以下のファイルをお持ちの場合があります。
Text encoders:以下のいずれか1つのバージョンをダウンロードしてください。 VAE CLIP Vision ファイル保存先
ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └─── wan2.1_flf2v_720p_14B_fp16.safetensors           # またはFP8版
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors           # または選択したバージョン
│   ├── vae/
│   │   └──  wan_2.1_vae.safetensors
│   └── clip_vision/
│       └──  clip_vision_h.safetensors   

3. ワークフロー実行手順(ステップ・バイ・ステップ)

Wan2.1 FLF2V 720P ネイティブワークフロー手順
  1. Load Diffusion Modelノードがwan2.1_flf2v_720p_14B_fp16.safetensorsまたはwan2.1_flf2v_720p_14B_fp8_e4m3fn.safetensorsを正しく読み込んでいることを確認してください。
  2. Load CLIPノードがumt5_xxl_fp8_e4m3fn_scaled.safetensorsを正しく読み込んでいることを確認してください。
  3. Load VAEノードがwan_2.1_vae.safetensorsを正しく読み込んでいることを確認してください。
  4. Load CLIP Visionノードがclip_vision_h.safetensorsを正しく読み込んでいることを確認してください。
  5. 開始フレーム画像をStart_imageノードにアップロードしてください。
  6. 終了フレーム画像をEnd_imageノードにアップロードしてください。
  7. (任意)ポジティブプロンプトおよびネガティブプロンプトを編集できます(中国語および英語の両方がサポートされています)。
  8. 重要WanFirstLastFrameToVideoノードでは、デフォルトで720×1280のサイズが使用されています。これは720Pモデルであるため、小さいサイズでは良好な出力が得られません。高品質な生成を行うには、720×1280に近いサイズをご使用ください。
  9. Runボタンをクリックするか、ショートカットキー Ctrl(Macの場合はCmd) + Enter を押して動画生成を実行してください。