メインコンテンツへスキップ
Kandinsky 5.0 は、Kandinsky Lab によって開発された動画および画像生成のための拡散モデルシリーズです。Kandinsky 5.0 T2V Lite は、オープンソースの動画生成モデルの中で上位ランクに位置する軽量な 2B パラメータモデルであり、最大 10 秒の動画を生成できます。
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している

概要

Kandinsky 5.0 は、Flow Matching を備えた潜在拡散パイプラインを使用し、以下の特徴があります:
  • 拡散 Transformer (DiT): テキスト埋め込みへのクロスアテンションを備えた主要な生成バックボーン
  • Qwen2.5-VL と CLIP: 高品質なテキスト埋め込みを提供
  • HunyuanVideo 3D VAE: 動画を潜在空間にエンコードおよびデコード
このモデルシリーズには、異なるユースケースに最適化された複数の変種が含まれます:
  • SFT モデル: 最高品質の生成
  • CFG-distilled: 推論速度が 2 倍
  • Diffusion-distilled: 品質の低下を最小限に抑えつつ速度が 6 倍(16 ステップ)
  • Pretrain モデル: ファインチューニング用に設計
すべてのモデルは、5 秒および 10 秒の動画生成バージョンで利用可能です。

モデル変種

モデル動画の長さNFEレイテンシ (H100)
Kandinsky 5.0 T2V Lite SFT5s / 10s100139s / 224s
Kandinsky 5.0 T2V Lite no-CFG5s / 10s5077s / 124s
Kandinsky 5.0 T2V Lite distill5s / 10s1635s / 61s
Kandinsky 5.0 I2V Lite5s100673s

文生動画ワークフロー

1. ワークフローファイルのダウンロード

ComfyUI を最新バージョンに更新し、メニュー ワークフロー -> テンプレートを表示 -> 動画 から “Kandinsky 5.0 T2V” を見つけてワークフローを読み込んでください。

JSON ワークフローファイルをダウンロード

2. モデルの手動ダウンロード

テキストエンコーダー 拡散モデル VAE
ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      ├── qwen_2.5_vl_7b_fp8_scaled.safetensors
│   │      └── clip_l.safetensors
│   ├── 📂 diffusion_models/
│   │      └── kandinsky5lite_t2v_sft_5s.safetensors
│   └── 📂 vae/
│          └── hunyuan_video_vae_bf16.safetensors

画像生動画ワークフロー

1. ワークフローファイルのダウンロード

ComfyUI を最新バージョンに更新し、メニュー ワークフロー -> テンプレートを表示 -> 動画 から “Kandinsky 5.0 I2V” を見つけてワークフローを読み込んでください。

JSON ワークフローファイルをダウンロード

2. モデルの手動ダウンロード

テキストエンコーダー 拡散モデル VAE
ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      ├── qwen_2.5_vl_7b_fp8_scaled.safetensors
│   │      └── clip_l.safetensors
│   ├── 📂 diffusion_models/
│   │      └── kandinsky5lite_i2v_5s.safetensors
│   └── 📂 vae/
│          └── hunyuan_video_vae_bf16.safetensors

リソース