Wan FLF2V (첫 번째와 마지막 프레임 동영상 생성)는 알리바바 퉁이 완샹팀이 개발한 오픈소스 동영상 생성 모델입니다. 이 모델의 오픈소스 라이선스는 Apache 2.0입니다.
사용자는 시작 프레임과 종료 프레임으로 두 장의 이미지만 제공하면, 모델이 자동으로 중간 전환 프레임을 생성해 논리적으로 일관되고 자연스럽게 흐르는 720p 고화질 동영상을 출력합니다.
핵심 기술 포인트
- 정밀한 첫 번째와 마지막 프레임 제어: 첫 번째와 마지막 프레임의 일치율은 98%에 달하며, 시작 및 종료 장면을 통해 동영상 경계를 정의하고, 중간의 역동적 변화를 지능적으로 채워 장면 전환과 객체 변형 효과를 구현합니다.
- 안정적이고 부드러운 동영상 생성: CLIP 시맨틱 특징과 교차 주의 메커니즘을 사용해 비슷한 모델 대비 동영상의 흔들림률을 37% 줄여 자연스럽고 매끄러운 전환을 보장합니다.
- 다양한 창작 기능: 중국어 및 영어 자막의 동적 삽입, 애니메이션/리얼리즘/판타지 등 다양한 스타일의 생성을 지원해 다양한 창작 요구에 맞춥니다.
- 720p HD 출력: 후처리 없이 바로 1280×720 해상도의 동영상을 생성하며, 소셜미디어 및 상업적 응용에 적합합니다.
- 오픈소스 생태계 지원: 모델 가중치, 코드 및 학습 프레임워크가 완전히 오픈소스로 공개되어 주류 AI 플랫폼에서도 배포 가능합니다.
기술 원리 및 아키텍처
- DiT 아키텍처: 확산 모델과 Diffusion Transformer 아키텍처를 기반으로 하며, Full Attention 메커니즘을 결합해 시공간 의존성 모델링을 최적화해 동영상의 일관성을 보장합니다.
- 3D 인과 변분 인코더: Wan-VAE 기술은 HD 프레임을 1/128 크기로 압축하면서 미세한 동적 디테일을 유지해 메모리 요구량을 크게 줄입니다.
- 3단계 학습 전략: 480P 해상도 사전 학습에서 시작해 점진적으로 720P로 업그레이드하며 단계별 최적화를 통해 생성 품질과 계산 효율성을 균형 있게 조절합니다.
관련 링크
Make sure your ComfyUI is updated.Workflows in this guide can be found in the Workflow Templates.
If you can’t find them in the template, your ComfyUI may be outdated. (Desktop version’s update will delay sometime)If nodes are missing when loading a workflow, possible reasons:
- You are not using the latest ComfyUI version (Nightly version)
- Some nodes failed to import at startup
- The Desktop is base on ComfyUI stable release, it will auto-update when there is a new Desktop stable release available.
- Cloud will update after ComfyUI stable release.
So, if you find any core node missing in this document, it might be because the new core nodes have not yet been released in the latest stable version. Please wait for the next stable release.
Wan2.1 FLF2V 720P ComfyUI 네이티브 워크플로우 예제
1. 워크플로우 파일 및 관련 입력 파일 다운로드
이 모델은 고해상도 이미지로 학습되었으므로 작은 크기를 사용하면 좋은 결과를 얻기 어려울 수 있습니다. 예제에서는 720×1280 크기를 사용하며, 이는 낮은 VRAM을 가진 사용자가 원활하게 실행하기 어려울 수 있고 생성 시간도 오래 걸립니다.
필요하다면 동영상 생성 크기를 조정해 테스트해보세요. 작은 크기로 생성하면 이 모델에서 좋은 출력을 얻기 어려울 수 있으니 참고하세요.
아래 WebP 파일을 다운로드해 ComfyUI로 드래그하여 해당 워크플로우를 로드하세요. 워크플로우에는 해당 모델 다운로드 정보가 내장되어 있습니다.
아래 두 장의 이미지를 다운로드해 동영상의 시작 프레임과 종료 프레임으로 사용하겠습니다.
2. 수동 모델 설치
만약 해당
이 가이드에 포함된 모든 모델은 여기에서 확인할 수 있습니다.
diffusion_models 하드웨어 환경에 따라 버전을 선택하세요.
이전에 Wan Video 관련 워크플로우를 시도해본 적이 있다면 이미 다음 파일들이 있을 수 있습니다.
Text encoders에서 버전을 하나 선택해 다운로드하세요.
VAE
CLIP Vision
파일 저장 위치
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └─── wan2.1_flf2v_720p_14B_fp16.safetensors # 또는 FP8 버전
│ ├── text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # 또는 선택한 버전
│ ├── vae/
│ │ └── wan_2.1_vae.safetensors
│ └── clip_vision/
│ └── clip_vision_h.safetensors
3. 워크플로우 단계별 완료
Load Diffusion Model 노드가 wan2.1_flf2v_720p_14B_fp16.safetensors 또는 wan2.1_flf2v_720p_14B_fp8_e4m3fn.safetensors를 로드했는지 확인하세요.
Load CLIP 노드가 umt5_xxl_fp8_e4m3fn_scaled.safetensors를 로드했는지 확인하세요.
Load VAE 노드가 wan_2.1_vae.safetensors를 로드했는지 확인하세요.
Load CLIP Vision 노드가 clip_vision_h.safetensors를 로드했는지 확인하세요.
- 시작 프레임을
Start_image 노드에 업로드하세요.
- 종료 프레임을
End_image 노드에 업로드하세요.
- (선택사항) 긍정적 및 부정적 프롬프트를 수정하세요. 중국어와 영어 모두 지원됩니다.
- (중요)
WanFirstLastFrameToVideo에서 기본 크기로 720×1280을 사용합니다. 이는 720P 모델이므로 작은 크기를 사용하면 좋은 출력을 얻기 어렵습니다. 좋은 생성 결과를 위해 720×1280 정도의 크기를 사용하세요.
Run 버튼을 클릭하거나 단축키 Ctrl(cmd) + Enter를 사용해 동영상 생성을 실행하세요.