ComfyUI Hunyuan Video 使用例

Hunyuan Video シリーズは Tencent によって開発およびオープンソース化されたもので、130 億 (13B) パラメータ規模のハイブリッドアーキテクチャを特徴とし、テキストから動画 (Text-to-Video) および画像から動画 (Image-to-Video) 生成の両方をサポートしています。技術的特徴：

コアアーキテクチャ： Sora と同様の DiT (Diffusion Transformer) アーキテクチャを採用し、テキスト、画像、動作情報を効果的に融合させることで、生成された動画フレーム間の一貫性、品質、整合性を向上させます。統一されたフルアテンション機構により、被写体の一貫性を保ちながらマルチビューのカメラ遷移を実現します。
3D VAE： カスタム 3D VAE は動画をコンパクトな潜在空間に圧縮し、画像から動画の生成をより効率的にします。
優れた画像・動画・テキストの整合性： 画像と動画生成の両方に優れた MLLM テキストエンコーダーを利用し、テキスト指示への追従、詳細の捕捉、複雑な推論をより良く行います。

公式リポジトリ Hunyuan Video および Hunyuan Video-I2V で詳細を確認できます。このガイドでは、ComfyUI において テキストから動画 および 画像から動画 のワークフローを設定する方法を順を追って説明します。

このチュートリアルのワークフロー画像のメタデータには、モデルのダウンロード情報が含まれています。それらを ComfyUI にドラッグするか、メニュー Workflows -> Open (ctrl+o) を使用して対応するワークフローを読み込むと、必要なモデルのダウンロードを促すメッセージが表示されます。あるいは、自動ダウンロードが失敗した場合や、Desktop バージョンを使用していない場合に備えて、このガイドではモデルへの直接リンクも提供しています。すべてのモデルはこちらからダウンロード可能です。

ポータブル版または自宅サーバーで実行しているユーザー
デスクトップ版またはクラウド版ユーザー

ComfyUI が最新版に更新されていることを確認してください。

このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。（デスクトップ版の更新は若干遅れることがあります）ワークフローを読み込んだ際にノードが欠落している場合の主な原因：

最新の ComfyUI（Nightly 版）を使用していない
起動時に一部のノードのインポートに失敗している

すべてのワークフローで共通のモデル

以下のモデルは、テキストから動画および画像から動画の両方のワークフローで使用されます。ダウンロードして、指定されたディレクトリに保存してください：

保存場所：

ComfyUI/
├── models/
│   ├── text_encoders/
│   │   ├── clip_l.safetensors
│   │   └── llava_llama3_fp8_scaled.safetensors
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors

Hunyuan テキストから動画ワークフロー

Hunyuan Text-to-Video は 2024 年 12 月にオープンソース化され、中国語と英語の両方での自然言語記述を通じて 5 秒間のショート動画生成をサポートしています。

1. ワークフロー

下の画像をダウンロードし、ComfyUI にドラッグしてワークフローを読み込んでください： ComfyUI ワークフロー - Hunyuan テキストから動画

2. モデルの手動インストール

hunyuan_video_t2v_720p_bf16.safetensors をダウンロードし、ComfyUI/models/diffusion_models フォルダに保存してください。これらのモデルファイルがすべて正しい場所に存在することを確認してください：

ComfyUI/
├── models/
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       // 共通モデル
│   │   └── llava_llama3_fp8_scaled.safetensors      // 共通モデル
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors       // 共通モデル
│   └── diffusion_models/
│       └── hunyuan_video_t2v_720p_bf16.safetensors  // T2V モデル

3. ワークフローの実行手順

DualCLIPLoader ノードで以下のモデルがロードされていることを確認してください：
- clip_name1: clip_l.safetensors
- clip_name2: llava_llama3_fp8_scaled.safetensors
Load Diffusion Model ノードで hunyuan_video_t2v_720p_bf16.safetensors がロードされていることを確認してください
Load VAE ノードで hunyuan_video_vae_bf16.safetensors がロードされていることを確認してください
Queue ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用してワークフローを実行します

EmptyHunyuanLatentVideo ノードの length パラメータが 1 に設定されている場合、モデルは静止画像を生成できます。

Hunyuan 画像から動画ワークフロー

Hunyuan Image-to-Video モデルは 2025 年 3 月 6 日にオープンソース化され、HunyuanVideo フレームワークに基づいています。静止画像を滑らかで高品質な動画に変換し、髪の毛の成長や物体の変形などの特別な動画効果をカスタマイズするための LoRA 訓練コードも提供しています。現在、Hunyuan Image-to-Video モデルには 2 つのバージョンがあります：

v1 “concat”: 動きの流暢さは優れていますが、画像ガイドへの準拠度は低いです
v2 “replace”: v1 の翌日に更新されたバージョンで、画像ガイドは優れていますが、v1 に比べてダイナミクスが劣るようです

v1”concat”

v2”replace”

v1 および v2 バージョンで共通のモデル

以下のファイルをダウンロードし、ComfyUI/models/clip_vision ディレクトリに保存してください：

llava_llama3_vision.safetensors

V1”concat”画像から動画ワークフロー

1. ワークフローおよびアセット

下のワークフロー画像をダウンロードし、ComfyUI にドラッグしてワークフローを読み込んでください： ComfyUI ワークフロー - Hunyuan 画像から動画 v1

下の画像をダウンロードしてください。これは画像から動画生成の起始フレームとして使用します：

2. 関連モデルの手動インストール

hunyuan_video_image_to_video_720p_bf16.safetensors

これらのモデルファイルがすべて正しい場所に存在することを確認してください：

ComfyUI/
├── models/
│   ├── clip_vision/
│   │   └── llava_llama3_vision.safetensors                     // I2V 共通モデル
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                                  // 共通モデル
│   │   └── llava_llama3_fp8_scaled.safetensors                 // 共通モデル
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors                  // 共通モデル
│   └── diffusion_models/
│       └── hunyuan_video_image_to_video_720p_bf16.safetensors  // I2V v1"concat"バージョンモデル

3. ワークフローの実行手順

DualCLIPLoader で以下のモデルがロードされていることを確認してください：
- clip_name1: clip_l.safetensors
- clip_name2: llava_llama3_fp8_scaled.safetensors
Load CLIP Vision で llava_llama3_vision.safetensors がロードされていることを確認してください
Load Image Model で hunyuan_video_image_to_video_720p_bf16.safetensors がロードされていることを確認してください
Load VAE で vae_name: hunyuan_video_vae_bf16.safetensors がロードされていることを確認してください
Load Diffusion Model で hunyuan_video_image_to_video_720p_bf16.safetensors がロードされていることを確認してください
Queue ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用してワークフローを実行します

v2”replace”画像から動画ワークフロー

v2 ワークフローは本質的に v1 ワークフローと同じです。replace モデルをダウンロードし、Load Diffusion Model ノードで使用するだけです。

1. ワークフローおよびアセット

下のワークフロー画像をダウンロードし、ComfyUI にドラッグしてワークフローを読み込んでください： ComfyUI ワークフロー - Hunyuan 画像から動画 v2

下の画像をダウンロードしてください。これは画像から動画生成の起始フレームとして使用します：

2. 関連モデルの手動インストール

hunyuan_video_v2_replace_image_to_video_720p_bf16.safetensors

これらのモデルファイルがすべて正しい場所に存在することを確認してください：

ComfyUI/
├── models/
│   ├── clip_vision/
│   │   └── llava_llama3_vision.safetensors                                // I2V 共通モデル
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                                             // 共通モデル
│   │   └── llava_llama3_fp8_scaled.safetensors                            // 共通モデル
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors                             // 共通モデル
│   └── diffusion_models/
│       └── hunyuan_video_v2_replace_image_to_video_720p_bf16.safetensors  // V2"replace"バージョンモデル

3. ワークフローの実行手順

DualCLIPLoader ノードで以下のモデルがロードされていることを確認してください：
- clip_name1: clip_l.safetensors
- clip_name2: llava_llama3_fp8_scaled.safetensors
Load CLIP Vision ノードで llava_llama3_vision.safetensors がロードされていることを確認してください
Load Image Model ノードで hunyuan_video_image_to_video_720p_bf16.safetensors がロードされていることを確認してください
Load VAE ノードで hunyuan_video_vae_bf16.safetensors がロードされていることを確認してください
Load Diffusion Model ノードで hunyuan_video_v2_replace_image_to_video_720p_bf16.safetensors がロードされていることを確認してください
Queue ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用してワークフローを実行します

自分で試してみる

以下に、いくつかの画像とプロンプトを提供します。そのコンテンツに基づいて、または調整を加えて、独自の動画を作成してください。

Futuristic robot dancing ballet, dynamic motion, fast motion, fast shot, moving scene

Samurai waving sword and hitting the camera. camera angle movement, zoom in, fast scene, super fast, dynamic

flying car fastly moving and flying through the city

cyberpunk car race in night city, dynamic, super fast, fast shot

Documentation Index

​すべてのワークフローで共通のモデル

​Hunyuan テキストから動画ワークフロー

​1. ワークフロー

​2. モデルの手動インストール

​3. ワークフローの実行手順

​Hunyuan 画像から動画ワークフロー

​v1 および v2 バージョンで共通のモデル

​V1”concat”画像から動画ワークフロー

​1. ワークフローおよびアセット

​2. 関連モデルの手動インストール

​3. ワークフローの実行手順

​v2”replace”画像から動画ワークフロー

​1. ワークフローおよびアセット

​2. 関連モデルの手動インストール

​3. ワークフローの実行手順

​自分で試してみる

すべてのワークフローで共通のモデル

Hunyuan テキストから動画ワークフロー

1. ワークフロー

2. モデルの手動インストール

3. ワークフローの実行手順

Hunyuan 画像から動画ワークフロー

v1 および v2 バージョンで共通のモデル

V1”concat”画像から動画ワークフロー

1. ワークフローおよびアセット

2. 関連モデルの手動インストール

3. ワークフローの実行手順

v2”replace”画像から動画ワークフロー

1. ワークフローおよびアセット

2. 関連モデルの手動インストール

3. ワークフローの実行手順

自分で試してみる