概要
Kandinsky 5.0 は、Flow Matching を備えた潜在拡散パイプラインを使用し、以下の特徴があります:- 拡散 Transformer (DiT): テキスト埋め込みへのクロスアテンションを備えた主要な生成バックボーン
- Qwen2.5-VL と CLIP: 高品質なテキスト埋め込みを提供
- HunyuanVideo 3D VAE: 動画を潜在空間にエンコードおよびデコード
- SFT モデル: 最高品質の生成
- CFG-distilled: 推論速度が 2 倍
- Diffusion-distilled: 品質の低下を最小限に抑えつつ速度が 6 倍(16 ステップ)
- Pretrain モデル: ファインチューニング用に設計
モデル変種
| モデル | 動画の長さ | NFE | レイテンシ (H100) |
|---|---|---|---|
| Kandinsky 5.0 T2V Lite SFT | 5s / 10s | 100 | 139s / 224s |
| Kandinsky 5.0 T2V Lite no-CFG | 5s / 10s | 50 | 77s / 124s |
| Kandinsky 5.0 T2V Lite distill | 5s / 10s | 16 | 35s / 61s |
| Kandinsky 5.0 I2V Lite | 5s | 100 | 673s |
文生動画ワークフロー
1. ワークフローファイルのダウンロード
ComfyUI を最新バージョンに更新し、メニューワークフロー -> テンプレートを表示 -> 動画 から “Kandinsky 5.0 T2V” を見つけてワークフローを読み込んでください。
JSON ワークフローファイルをダウンロード
2. モデルの手動ダウンロード
テキストエンコーダー 拡散モデル VAE画像生動画ワークフロー
1. ワークフローファイルのダウンロード
ComfyUI を最新バージョンに更新し、メニューワークフロー -> テンプレートを表示 -> 動画 から “Kandinsky 5.0 I2V” を見つけてワークフローを読み込んでください。
JSON ワークフローファイルをダウンロード