メインコンテンツへスキップ
テンプレートの調整および CausVid LoRA に関する使用方法・説明の追加を行ったため、本ドキュメントは更新が必要です。更新作業には一定の準備期間が必要となるため、その間はテンプレート内の注記を参照してご使用ください。

VACE について

VACE 14B は、アリババグループの Tongyi Wanxiang チームが公開したオープンソースの統合型動画編集モデルです。このモデルは、複数のタスクを統合した機能、高解像度処理のサポート、および柔軟なマルチモーダル入力機構を備えており、動画制作の効率性と品質を大幅に向上させます。 本モデルは Apache-2.0 ライセンスの下でオープンソース化されており、個人利用および商用利用が可能です。 以下に、その主な特徴および技術的ハイライトを総合的に解説します:
  • マルチモーダル入力:テキスト、画像、動画、マスク、制御信号など、複数の入力形式をサポート
  • 統合アーキテクチャ:単一のモデルで複数のタスクをサポートし、機能を自由に組み合わせ可能
  • モーション転送:参照動画に基づいて連続的かつ自然な動作を生成
  • 局所的置換:マスクを用いて動画内の特定領域を置換
  • 動画拡張:動作の補完や背景の延長を実行
  • 背景置換:被写体を保持したまま、環境の背景を変更
現在、VACE は 1.3B および 14B の 2 つのバージョンをリリースしています。1.3B バージョンと比較して、14B バージョンは 720P 解像度での出力をサポートし、画質のディテールと安定性が向上しています。
モデル480P720P
VACE-1.3B
VACE-14B
関連するモデル重みおよびコードリポジトリ:
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している

モデルのダウンロードおよびワークフローへの読み込み

本ドキュメントで紹介するすべてのワークフローは同一のテンプレートを使用しているため、まずモデルのダウンロードおよび読み込み手順を説明し、その後、異なるノードを Bypass(無効化)することで、各種入力の有効/無効を切り替えて、異なるワークフローを実現できます。
なお、具体的なサンプルワークフローの情報内には既にモデルのダウンロード情報が埋め込まれているため、サンプルワークフローをダウンロードする際に同時にモデルも取得できます。

モデルのダウンロード

diffusion_models
wan2.1_vace_14B_fp16.safetensors
wan2.1_vace_1.3B_fp16.safetensors
以前に Wan Video 関連のワークフローをご利用になったことがある場合、以下のモデルファイルはすでにダウンロード済みです。
VAE Text encoders からいずれか 1 つのバージョンを選択してダウンロードしてください: ファイルの保存先:
📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └─── wan2.1_vace_14B_fp16.safetensors
│   ├── 📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # または umt5_xxl_fp16.safetensors
│   └── 📂 vae/
│       └──  wan_2.1_vae.safetensors

モデルの読み込み

本ドキュメントで扱うワークフローでは、使用するモデルが共通であり、ワークフロー自体も同一であるため、各ワークフローにおいて異なる入力を有効/無効にするためにノードの Bypass を切り替えるだけです。以下の画像を参考に、それぞれのワークフローで対応するモデルが正しく読み込まれていることを確認してください。 Wan2.1 VACE モデル読み込み
  1. Load Diffusion Model ノードが wan2.1_vace_14B_fp16.safetensors を読み込んでいることを確認してください
  2. Load CLIP ノードが umt5_xxl_fp8_e4m3fn_scaled.safetensors または umt5_xxl_fp16.safetensors を読み込んでいることを確認してください
  3. Load VAE ノードが wan_2.1_vae.safetensors を読み込んでいることを確認してください

How to toggle Node Bypass Status

When a node is set to Bypass status, data passing through the node will not be affected by the node and will be output directly. We often set nodes to Bypass status when we don’t need them. Here are three ways to toggle a node’s Bypass status: Toggle Bypass
  1. After selecting the node, click the arrow in the indicator section of the selection toolbox to quickly toggle the node’s Bypass status
  2. After selecting the node, right-click the node and select Mode -> Always to switch to Always mode
  3. After selecting the node, right-click the node and select the Bypass option to toggle the Bypass status

VACE テキストから動画へ(Text-to-Video)ワークフロー

MP4 ファイルからワークフローを読み込めない場合は、ComfyUI のフロントエンドが最新版であることを確認してください。requirements.txt をご参照ください。MP4 ファイルからのワークフロー読み込みが可能であることを確認してください。現在、requirements.txt に記載されている最新の ComfyUI フロントエンドバージョンは 1.19.9 です。

1. ワークフローのダウンロード

以下の動画をダウンロードし、ComfyUI にドラッグ&ドロップすることで、対応するワークフローを読み込んでください。

2. ステップ・バイ・ステップでワークフローを完了する

image 画像中の番号順に操作を行い、ワークフローがスムーズに実行されるようご確認ください。
  1. CLIP Text Encode (Positive Prompt) ノードにポジティブプロンプトを入力してください
  2. CLIP Text Encode (Negative Prompt) ノードにネガティブプロンプトを入力してください
  3. WanVaceToVideo で画像サイズ(初回実行時は 640×640 解像度を推奨)およびフレーム数(動画の再生時間)を設定してください
  4. Run ボタンをクリックするか、ショートカット Ctrl(Mac の場合は Cmd)+ Enter を押して動画生成を実行してください
  5. 生成が完了すると、動画は自動的に ComfyUI/output/video ディレクトリに保存されます(サブフォルダの場所は save video ノードの設定により異なります)
NVIDIA GeForce RTX 4090 GPU を用いたテスト結果:
  • 720×1280 解像度で 81 フレームを生成する場合、約 40 分かかります
  • 640×640 解像度で 49 フレームを生成する場合、約 7 分かかります
ただし、720P の動画品質の方が優れています。

VACE 画像から動画へ(Image-to-Video)ワークフロー

上記のワークフローをそのままご利用いただけます。ただし、Load reference image 内の Load image ノードの Bypass を解除し、ご自身の画像を入力してください。また、以下の画像もご利用いただけます。このファイルでは、すでに必要なパラメータが事前に設定されています。

1. ワークフローのダウンロード

以下の動画をダウンロードし、ComfyUI にドラッグ&ドロップすることで、対応するワークフローを読み込んでください。 以下の画像を入力としてダウンロードしてください: vace-i2v-input

2. ステップ・バイ・ステップでワークフローを完了する

Workflow Steps 画像中の番号順に操作を行い、ワークフローがスムーズに実行されるようご確認ください。
  1. Load image ノードに該当する画像を入力してください
  2. テキストから動画へ(Text-to-Video)ワークフローと同様に、プロンプトを修正・編集できます
  3. WanVaceToVideo で画像サイズ(初回実行時は 640×640 解像度を推奨)およびフレーム数(動画の再生時間)を設定してください
  4. Run ボタンをクリックするか、ショートカット Ctrl(Mac の場合は Cmd)+ Enter を押して動画生成を実行してください
  5. 生成が完了すると、動画は自動的に ComfyUI/output/video ディレクトリに保存されます(サブフォルダの場所は save video ノードの設定により異なります)
画像サイズを設定するために「画像の寸法を取得」などのノードをご利用になる場合がありますが、対応するノードには幅・高さのステップサイズ要件があるため、画像の寸法が 16 で割り切れない場合、エラーが発生することがあります。

3. 追加のワークフローに関する注意点

VACE は、単一の画像内に複数の参照画像を入力し、それらに対応する動画を生成することもサポートしています。関連するサンプルは、VACE プロジェクトのページでご確認いただけます。

VACE 動画から動画へ(Video-to-Video)ワークフロー

1. ワークフローのダウンロード

以下の動画をダウンロードし、ComfyUI にドラッグ&ドロップすることで、対応するワークフローを読み込んでください。 以下の素材を入力として使用します:
  1. 参照用の入力画像
    v2v-input
  2. 以下の動画は事前に前処理済みであり、動画生成の制御に使用します。
  1. 以下の動画は元の動画です。これらの素材をダウンロードし、comfyui_controlnet_aux のような前処理ノードを用いて画像の前処理を行うことができます。

2. ステップ・バイ・ステップでワークフローを完了する

Workflow Steps 画像中の番号順に操作を行い、ワークフローがスムーズに実行されるようご確認ください。
  1. Load reference image 内の Load Image ノードに参照画像を入力してください
  2. Load control video 内の Load Video ノードに制御用動画を入力してください。提供された動画はすでに前処理済みのため、追加の処理は不要です
  3. 元の動画を自分で前処理する必要がある場合は、Image preprocessing グループを編集するか、comfyui_controlnet_aux ノードを用いて前処理を実行してください
  4. プロンプトを修正してください
  5. WanVaceToVideo で画像サイズ(初回実行時は 640×640 解像度を推奨)およびフレーム数(動画の再生時間)を設定してください
  6. Run ボタンをクリックするか、ショートカット Ctrl(Mac の場合は Cmd)+ Enter を押して動画生成を実行してください
  7. 生成が完了すると、動画は自動的に ComfyUI/output/video ディレクトリに保存されます(サブフォルダの場所は save video ノードの設定により異なります)

VACE 動画アウトペインティング(Video Outpainting)ワークフロー

[更新予定]

VACE 最初と最後のフレームを指定した動画生成

[更新予定] 最初および最後のフレームが有効に機能するためには、動画の length 設定が length - 1 が 4 で割り切れる値になる必要があります。
対応する Batch_size 設定は、Batch_size = length - 2 を満たす必要があります。

関連ノードのドキュメント

以下のドキュメントを参照して、関連ノードについて学んでください。

WanVaceToVideo ノードのドキュメント

WanVaceToVideo ノードのドキュメント

TrimVideoLatent ノードのドキュメント

ComfyUI TrimVideoLatent ノードのドキュメント