跳转到主要内容
Kandinsky 5.0 是由 Kandinsky Lab 开发的视频和图像生成扩散模型系列。Kandinsky 5.0 T2V Lite 是一个轻量级的 2B 参数模型,在开源视频生成模型中名列前茅,能够生成长达 10 秒的视频。
  • 便携版或手动安装用户
  • 桌面版或云端用户
请确保你的 ComfyUI 已经更新。本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失,可能原因有:
  1. 你用的不是最新开发版(nightly)。
  2. 你用的是稳定版或桌面版(没有包含最新的更新)。
  3. 启动时有些节点导入失败。

概述

Kandinsky 5.0 使用带有 Flow Matching 的潜在扩散管道,具有以下特点:
  • 扩散 Transformer (DiT): 主要生成骨干网络,通过交叉注意力连接文本嵌入
  • Qwen2.5-VL 和 CLIP: 提供高质量的文本嵌入
  • HunyuanVideo 3D VAE: 将视频编码和解码到潜在空间
该模型系列包含多个针对不同用例优化的变体:
  • SFT 模型: 最高生成质量
  • CFG-distilled: 推理速度提升 2 倍
  • Diffusion-distilled: 速度提升 6 倍,质量损失极小(16 步)
  • Pretrain 模型: 专为微调设计
所有模型均提供 5 秒和 10 秒视频生成版本。

模型变体

模型视频时长NFE延迟 (H100)
Kandinsky 5.0 T2V Lite SFT5s / 10s100139s / 224s
Kandinsky 5.0 T2V Lite no-CFG5s / 10s5077s / 124s
Kandinsky 5.0 T2V Lite distill5s / 10s1635s / 61s
Kandinsky 5.0 I2V Lite5s100673s

文生视频工作流

1. 下载工作流文件

请更新你的 ComfyUI 到最新版本,并通过菜单 工作流 -> 浏览模板 -> 视频 找到 “Kandinsky 5.0 T2V” 以加载工作流。

下载 JSON 格式工作流

2. 手动下载模型

Text Encoders Diffusion Model VAE
ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      ├── qwen_2.5_vl_7b_fp8_scaled.safetensors
│   │      └── clip_l.safetensors
│   ├── 📂 diffusion_models/
│   │      └── kandinsky5lite_t2v_sft_5s.safetensors
│   └── 📂 vae/
│          └── hunyuan_video_vae_bf16.safetensors

图生视频工作流

1. 下载工作流文件

请更新你的 ComfyUI 到最新版本,并通过菜单 工作流 -> 浏览模板 -> 视频 找到 “Kandinsky 5.0 I2V” 以加载工作流。

下载 JSON 格式工作流

2. 手动下载模型

Text Encoders Diffusion Model VAE
ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      ├── qwen_2.5_vl_7b_fp8_scaled.safetensors
│   │      └── clip_l.safetensors
│   ├── 📂 diffusion_models/
│   │      └── kandinsky5lite_i2v_sft_5s.safetensors
│   └── 📂 vae/
│          └── hunyuan_video_vae_bf16.safetensors

资源