メインコンテンツへスキップ
Hunyuan Video シリーズは Tencent によって開発およびオープンソース化されたもので、130 億 (13B) パラメータ規模のハイブリッドアーキテクチャを特徴とし、テキストから動画 (Text-to-Video) および 画像から動画 (Image-to-Video) 生成の両方をサポートしています。 技術的特徴:
  • コアアーキテクチャ: Sora と同様の DiT (Diffusion Transformer) アーキテクチャを採用し、テキスト、画像、動作情報を効果的に融合させることで、生成された動画フレーム間の一貫性、品質、整合性を向上させます。統一されたフルアテンション機構により、被写体の一貫性を保ちながらマルチビューのカメラ遷移を実現します。
  • 3D VAE: カスタム 3D VAE は動画をコンパクトな潜在空間に圧縮し、画像から動画の生成をより効率的にします。
  • 優れた画像・動画・テキストの整合性: 画像と動画生成の両方に優れた MLLM テキストエンコーダーを利用し、テキスト指示への追従、詳細の捕捉、複雑な推論をより良く行います。
公式リポジトリ Hunyuan Video および Hunyuan Video-I2V で詳細を確認できます。 このガイドでは、ComfyUI において テキストから動画 および 画像から動画 のワークフローを設定する方法を順を追って説明します。
このチュートリアルのワークフロー画像のメタデータには、モデルのダウンロード情報が含まれています。それらを ComfyUI にドラッグするか、メニュー Workflows -> Open (ctrl+o) を使用して対応するワークフローを読み込むと、必要なモデルのダウンロードを促すメッセージが表示されます。あるいは、自動ダウンロードが失敗した場合や、Desktop バージョンを使用していない場合に備えて、このガイドではモデルへの直接リンクも提供しています。すべてのモデルは こちら からダウンロード可能です。
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している

すべてのワークフローで共通のモデル

以下のモデルは、テキストから動画および画像から動画の両方のワークフローで使用されます。ダウンロードして、指定されたディレクトリに保存してください: 保存場所:
ComfyUI/
├── models/
│   ├── text_encoders/
│   │   ├── clip_l.safetensors
│   │   └── llava_llama3_fp8_scaled.safetensors
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors

Hunyuan テキストから動画ワークフロー

Hunyuan Text-to-Video は 2024 年 12 月にオープンソース化され、中国語と英語の両方での自然言語記述を通じて 5 秒間のショート動画生成をサポートしています。

1. ワークフロー

下の画像をダウンロードし、ComfyUI にドラッグしてワークフローを読み込んでください: ComfyUI ワークフロー - Hunyuan テキストから動画

2. モデルの手動インストール

hunyuan_video_t2v_720p_bf16.safetensors をダウンロードし、ComfyUI/models/diffusion_models フォルダに保存してください。 これらのモデルファイルがすべて正しい場所に存在することを確認してください:
ComfyUI/
├── models/
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       // 共通モデル
│   │   └── llava_llama3_fp8_scaled.safetensors      // 共通モデル
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors       // 共通モデル
│   └── diffusion_models/
│       └── hunyuan_video_t2v_720p_bf16.safetensors  // T2V モデル

3. ワークフローの実行手順

ComfyUI Hunyuan Video T2V ワークフロー
  1. DualCLIPLoader ノードで以下のモデルがロードされていることを確認してください:
    • clip_name1: clip_l.safetensors
    • clip_name2: llava_llama3_fp8_scaled.safetensors
  2. Load Diffusion Model ノードで hunyuan_video_t2v_720p_bf16.safetensors がロードされていることを確認してください
  3. Load VAE ノードで hunyuan_video_vae_bf16.safetensors がロードされていることを確認してください
  4. Queue ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用してワークフローを実行します
EmptyHunyuanLatentVideo ノードの length パラメータが 1 に設定されている場合、モデルは静止画像を生成できます。

Hunyuan 画像から動画ワークフロー

Hunyuan Image-to-Video モデルは 2025 年 3 月 6 日にオープンソース化され、HunyuanVideo フレームワークに基づいています。静止画像を滑らかで高品質な動画に変換し、髪の毛の成長や物体の変形などの特別な動画効果をカスタマイズするための LoRA 訓練コードも提供しています。 現在、Hunyuan Image-to-Video モデルには 2 つのバージョンがあります:
  • v1 “concat”: 動きの流暢さは優れていますが、画像ガイドへの準拠度は低いです
  • v2 “replace”: v1 の翌日に更新されたバージョンで、画像ガイドは優れていますが、v1 に比べてダイナミクスが劣るようです

v1”concat”

HunyuanVideo v1

v2”replace”

HunyuanVideo v2

v1 および v2 バージョンで共通のモデル

以下のファイルをダウンロードし、ComfyUI/models/clip_vision ディレクトリに保存してください:

V1”concat”画像から動画ワークフロー

1. ワークフローおよびアセット

下のワークフロー画像をダウンロードし、ComfyUI にドラッグしてワークフローを読み込んでください: ComfyUI ワークフロー - Hunyuan 画像から動画 v1 下の画像をダウンロードしてください。これは画像から動画生成の起始フレームとして使用します: 起始フレーム

2. 関連モデルの手動インストール

これらのモデルファイルがすべて正しい場所に存在することを確認してください:
ComfyUI/
├── models/
│   ├── clip_vision/
│   │   └── llava_llama3_vision.safetensors                     // I2V 共通モデル
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                                  // 共通モデル
│   │   └── llava_llama3_fp8_scaled.safetensors                 // 共通モデル
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors                  // 共通モデル
│   └── diffusion_models/
│       └── hunyuan_video_image_to_video_720p_bf16.safetensors  // I2V v1"concat"バージョンモデル

3. ワークフローの実行手順

ComfyUI Hunyuan Video I2V v1 ワークフロー
  1. DualCLIPLoader で以下のモデルがロードされていることを確認してください:
    • clip_name1: clip_l.safetensors
    • clip_name2: llava_llama3_fp8_scaled.safetensors
  2. Load CLIP Visionllava_llama3_vision.safetensors がロードされていることを確認してください
  3. Load Image Modelhunyuan_video_image_to_video_720p_bf16.safetensors がロードされていることを確認してください
  4. Load VAEvae_name: hunyuan_video_vae_bf16.safetensors がロードされていることを確認してください
  5. Load Diffusion Modelhunyuan_video_image_to_video_720p_bf16.safetensors がロードされていることを確認してください
  6. Queue ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用してワークフローを実行します

v2”replace”画像から動画ワークフロー

v2 ワークフローは本質的に v1 ワークフローと同じです。replace モデルをダウンロードし、Load Diffusion Model ノードで使用するだけです。

1. ワークフローおよびアセット

下のワークフロー画像をダウンロードし、ComfyUI にドラッグしてワークフローを読み込んでください: ComfyUI ワークフロー - Hunyuan 画像から動画 v2 下の画像をダウンロードしてください。これは画像から動画生成の起始フレームとして使用します: 起始フレーム

2. 関連モデルの手動インストール

これらのモデルファイルがすべて正しい場所に存在することを確認してください:
ComfyUI/
├── models/
│   ├── clip_vision/
│   │   └── llava_llama3_vision.safetensors                                // I2V 共通モデル
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                                             // 共通モデル
│   │   └── llava_llama3_fp8_scaled.safetensors                            // 共通モデル
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors                             // 共通モデル
│   └── diffusion_models/
│       └── hunyuan_video_v2_replace_image_to_video_720p_bf16.safetensors  // V2"replace"バージョンモデル

3. ワークフローの実行手順

ComfyUI Hunyuan Video I2V v2 ワークフロー
  1. DualCLIPLoader ノードで以下のモデルがロードされていることを確認してください:
    • clip_name1: clip_l.safetensors
    • clip_name2: llava_llama3_fp8_scaled.safetensors
  2. Load CLIP Vision ノードで llava_llama3_vision.safetensors がロードされていることを確認してください
  3. Load Image Model ノードで hunyuan_video_image_to_video_720p_bf16.safetensors がロードされていることを確認してください
  4. Load VAE ノードで hunyuan_video_vae_bf16.safetensors がロードされていることを確認してください
  5. Load Diffusion Model ノードで hunyuan_video_v2_replace_image_to_video_720p_bf16.safetensors がロードされていることを確認してください
  6. Queue ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用してワークフローを実行します

自分で試してみる

以下に、いくつかの画像とプロンプトを提供します。そのコンテンツに基づいて、または調整を加えて、独自の動画を作成してください。 example
Futuristic robot dancing ballet, dynamic motion, fast motion, fast shot, moving scene

example
Samurai waving sword and hitting the camera. camera angle movement, zoom in, fast scene, super fast, dynamic

example
flying car fastly moving and flying through the city

example
cyberpunk car race in night city, dynamic, super fast, fast shot