ComfyUI Wan2.1 FLF2V ネイティブ例

Wan FLF2V（First-Last Frame Video Generation：始終フレーム動画生成）は、アリババ・トングイ・ワンシャン（通義万相）チームが開発したオープンソースの動画生成モデルです。ライセンスは Apache 2.0 です。
ユーザーは開始フレームと終了フレームの2枚の画像のみを提供すれば、モデルが自動的に中間の遷移フレームを生成し、論理的かつ自然な流れを持つ720p高精細動画を出力します。 主な技術的特長

高精度な始終フレーム制御：始終フレームの一致率は98%に達し、開始・終了シーンによって動画の境界を定義し、中間の動的変化を知的に補完することで、シーン遷移やオブジェクトの形態変化などの効果を実現します。
安定・滑らかな動画生成：CLIPのセマンティック特徴およびクロスアテンション機構を活用し、同様のモデルと比較して動画のジャッター率を37%低減。自然で滑らかな遷移を保証します。
多機能なクリエイティブ能力：中国語・英語字幕の動的埋め込み、アニメ／リアル／ファンタジーなど複数スタイルの生成に対応し、さまざまなクリエイティブニーズに応えます。
720p高精細出力：後処理を必要とせず、直接1280×720解像度の動画を生成。SNSや商用用途に最適です。
オープンソースエコシステム対応：モデル重み、ソースコード、訓練フレームワークがすべてオープンソース化されており、主要なAIプラットフォームへのデプロイをサポートします。

技術原理とアーキテクチャ

DiTアーキテクチャ：拡散モデルおよびDiffusion Transformerアーキテクチャに基づき、Full Attention機構を組み合わせて時空間依存性のモデリングを最適化し、動画の一貫性を確保します。
3D因果的変分エンコーダ：Wan-VAE技術により、高精細フレームを1/128サイズに圧縮しつつ、微細な動的ディテールを保持。メモリ使用量を大幅に削減します。
3段階トレーニング戦略：480P解像度での事前学習から始め、段階的に720Pへとアップグレード。フェーズごとの最適化により、生成品質と計算効率のバランスを図ります。

関連リンク

GitHubリポジトリ: GitHub
Hugging Faceモデルページ: Hugging Face
ModelScopeコミュニティ: ModelScope

ポータブル版または自宅サーバーで実行しているユーザー
デスクトップ版またはクラウド版ユーザー

ComfyUI が最新版に更新されていることを確認してください。

このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。（デスクトップ版の更新は若干遅れることがあります）ワークフローを読み込んだ際にノードが欠落している場合の主な原因：

最新の ComfyUI（Nightly 版）を使用していない
起動時に一部のノードのインポートに失敗している

Wan2.1 FLF2V 720P ComfyUIネイティブワークフロー例

1. ワークフローファイルおよび関連入力ファイルのダウンロード

このモデルは高解像度画像で学習されているため、小さいサイズを使用すると良好な結果が得られない場合があります。本例では720×1280のサイズを使用していますが、VRAMが少ない環境ではスムーズな実行が困難になり、生成に非常に長い時間がかかる可能性があります。
必要に応じて、テスト目的で動画生成サイズを調整してください。ただし、このモデルでは小さなサイズでは十分な品質の出力が得られないことにご注意ください。

以下のWebPファイルをダウンロードし、ComfyUIにドラッグ＆ドロップして対応するワークフローを読み込んでください。このワークフローには、必要なモデルのダウンロード情報が既に埋め込まれています。 Wan2.1 FLF2V 720P f16 ワークフロー

以下の2枚の画像をダウンロードしてください。これらを動画の開始フレームおよび終了フレームとして使用します。 start_image

2. 手動によるモデルインストール

本ガイドで使用するすべてのモデルは、こちらから入手できます。 diffusion_models：ご使用のハードウェア環境に応じて、以下のいずれかのバージョンを選択してください。

以前にWan Video関連のワークフローを試されたことがある場合は、すでに以下のファイルをお持ちの場合があります。

Text encoders：以下のいずれか1つのバージョンをダウンロードしてください。

VAE

wan_2.1_vae.safetensors

CLIP Vision

clip_vision_h.safetensors

ファイル保存先

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └─── wan2.1_flf2v_720p_14B_fp16.safetensors           # またはFP8版
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors           # または選択したバージョン
│   ├── vae/
│   │   └──  wan_2.1_vae.safetensors
│   └── clip_vision/
│       └──  clip_vision_h.safetensors   

3. ワークフロー実行手順（ステップ・バイ・ステップ）

Load Diffusion Modelノードがwan2.1_flf2v_720p_14B_fp16.safetensorsまたはwan2.1_flf2v_720p_14B_fp8_e4m3fn.safetensorsを正しく読み込んでいることを確認してください。
Load CLIPノードがumt5_xxl_fp8_e4m3fn_scaled.safetensorsを正しく読み込んでいることを確認してください。
Load VAEノードがwan_2.1_vae.safetensorsを正しく読み込んでいることを確認してください。
Load CLIP Visionノードがclip_vision_h.safetensorsを正しく読み込んでいることを確認してください。
開始フレーム画像をStart_imageノードにアップロードしてください。
終了フレーム画像をEnd_imageノードにアップロードしてください。
（任意）ポジティブプロンプトおよびネガティブプロンプトを編集できます（中国語および英語の両方がサポートされています）。
（重要）WanFirstLastFrameToVideoノードでは、デフォルトで720×1280のサイズが使用されています。これは720Pモデルであるため、小さいサイズでは良好な出力が得られません。高品質な生成を行うには、720×1280に近いサイズをご使用ください。
Runボタンをクリックするか、ショートカットキー Ctrl（Macの場合はCmd） + Enter を押して動画生成を実行してください。

Documentation Index

​Wan2.1 FLF2V 720P ComfyUIネイティブワークフロー例

​1. ワークフローファイルおよび関連入力ファイルのダウンロード

​2. 手動によるモデルインストール

​3. ワークフロー実行手順（ステップ・バイ・ステップ）

Wan2.1 FLF2V 720P ComfyUIネイティブワークフロー例

1. ワークフローファイルおよび関連入力ファイルのダウンロード

2. 手動によるモデルインストール

3. ワークフロー実行手順（ステップ・バイ・ステップ）