개요
칸딘스키 5.0은 플로우 매칭을 사용한 잠재 확산 파이프라인을 사용하며 다음과 같은 특징을 갖습니다:- 확산 트랜스포머 (DiT): 텍스트 임베딩에 대한 크로스 어텐션을 갖춘 주요 생성 백본
- Qwen2.5-VL 및 CLIP: 고품질 텍스트 임베딩 제공
- HunyuanVideo 3D VAE: 비디오를 잠재 공간으로 인코딩하고 디코딩합니다
- SFT 모델: 최고의 생성 품질
- CFG 증류형: 2배 더 빠른 추론
- 확산 증류형: 6배 더 빠른 속도와 최소한의 품질 손실 (16단계)
- 사전 학습 모델: 미세 조정용으로 설계됨
모델 변형
| 모델 | 비디오 지속시간 | NFE | 지연 시간 (H100) |
|---|---|---|---|
| 칸딘스키 5.0 T2V Lite SFT | 5초 / 10초 | 100 | 139초 / 224초 |
| 칸딘스키 5.0 T2V Lite no-CFG | 5초 / 10초 | 50 | 77초 / 124초 |
| 칸딘스키 5.0 T2V Lite 증류 | 5초 / 10초 | 16 | 35초 / 61초 |
| 칸딘스키 5.0 I2V Lite | 5초 | 100 | 673초 |
텍스트-비디오 워크플로우
1. 워크플로우 파일 다운로드
ComfyUI를 최신 버전으로 업데이트해 주시고, 메뉴워크플로우 -> 템플릿 탐색 -> 비디오를 통해 “칸딘스키 5.0 T2V”를 찾아 워크플로우를 로드해 주세요.
JSON 워크플로우 파일 다운로드
2. 모델 수동 다운로드
텍스트 인코더 확산 모델 VAE이미지-비디오 워크플로우
1. 워크플로우 파일 다운로드
ComfyUI를 최신 버전으로 업데이트해 주시고, 메뉴워크플로우 -> 템플릿 탐색 -> 비디오를 통해 “칸딘스키 5.0 I2V”를 찾아 워크플로우를 로드해 주세요.
JSON 워크플로우 파일 다운로드