ComfyUI Wan2.1 FLF2V 네이티브 예제

Wan FLF2V (첫 번째와 마지막 프레임 동영상 생성)는 알리바바 퉁이 완샹팀이 개발한 오픈소스 동영상 생성 모델입니다. 이 모델의 오픈소스 라이선스는 Apache 2.0입니다. 사용자는 시작 프레임과 종료 프레임으로 두 장의 이미지만 제공하면, 모델이 자동으로 중간 전환 프레임을 생성해 논리적으로 일관되고 자연스럽게 흐르는 720p 고화질 동영상을 출력합니다. 핵심 기술 포인트

정밀한 첫 번째와 마지막 프레임 제어: 첫 번째와 마지막 프레임의 일치율은 98%에 달하며, 시작 및 종료 장면을 통해 동영상 경계를 정의하고, 중간의 역동적 변화를 지능적으로 채워 장면 전환과 객체 변형 효과를 구현합니다.
안정적이고 부드러운 동영상 생성: CLIP 시맨틱 특징과 교차 주의 메커니즘을 사용해 비슷한 모델 대비 동영상의 흔들림률을 37% 줄여 자연스럽고 매끄러운 전환을 보장합니다.
다양한 창작 기능: 중국어 및 영어 자막의 동적 삽입, 애니메이션/리얼리즘/판타지 등 다양한 스타일의 생성을 지원해 다양한 창작 요구에 맞춥니다.
720p HD 출력: 후처리 없이 바로 1280×720 해상도의 동영상을 생성하며, 소셜미디어 및 상업적 응용에 적합합니다.
오픈소스 생태계 지원: 모델 가중치, 코드 및 학습 프레임워크가 완전히 오픈소스로 공개되어 주류 AI 플랫폼에서도 배포 가능합니다.

기술 원리 및 아키텍처

DiT 아키텍처: 확산 모델과 Diffusion Transformer 아키텍처를 기반으로 하며, Full Attention 메커니즘을 결합해 시공간 의존성 모델링을 최적화해 동영상의 일관성을 보장합니다.
3D 인과 변분 인코더: Wan-VAE 기술은 HD 프레임을 1/128 크기로 압축하면서 미세한 동적 디테일을 유지해 메모리 요구량을 크게 줄입니다.
3단계 학습 전략: 480P 해상도 사전 학습에서 시작해 점진적으로 720P로 업그레이드하며 단계별 최적화를 통해 생성 품질과 계산 효율성을 균형 있게 조절합니다.

관련 링크

GitHub 저장소: GitHub
Hugging Face 모델 페이지: Hugging Face
ModelScope 커뮤니티: ModelScope

휴대용 또는 자체 배포 사용자
데스크톱 또는 클라우드 사용자

ComfyUI가 최신 버전으로 업데이트되었는지 확인하세요.

이 가이드의 워크플로우는 워크플로우 템플릿에서 확인할 수 있습니다. 템플릿에서 찾을 수 없다면, 귀하의 ComfyUI가 오래된 버전일 수 있습니다. (데스크톱 버전의 업데이트는 다소 지연될 수 있습니다)워크플로우를 로드할 때 노드가 누락되는 경우, 가능한 원인:

최신 ComfyUI 버전(야간 빌드)을 사용하고 있지 않음
일부 노드가 시작 시 가져오기에 실패함

Wan2.1 FLF2V 720P ComfyUI 네이티브 워크플로우 예제

1. 워크플로우 파일 및 관련 입력 파일 다운로드

이 모델은 고해상도 이미지로 학습되었으므로 작은 크기를 사용하면 좋은 결과를 얻기 어려울 수 있습니다. 예제에서는 720×1280 크기를 사용하며, 이는 낮은 VRAM을 가진 사용자가 원활하게 실행하기 어려울 수 있고 생성 시간도 오래 걸립니다. 필요하다면 동영상 생성 크기를 조정해 테스트해보세요. 작은 크기로 생성하면 이 모델에서 좋은 출력을 얻기 어려울 수 있으니 참고하세요.

아래 WebP 파일을 다운로드해 ComfyUI로 드래그하여 해당 워크플로우를 로드하세요. 워크플로우에는 해당 모델 다운로드 정보가 내장되어 있습니다. Wan2.1 FLF2V 720P f16 워크플로우

아래 두 장의 이미지를 다운로드해 동영상의 시작 프레임과 종료 프레임으로 사용하겠습니다. start_image

2. 수동 모델 설치

만약 해당 이 가이드에 포함된 모든 모델은 여기에서 확인할 수 있습니다. diffusion_models 하드웨어 환경에 따라 버전을 선택하세요.

이전에 Wan Video 관련 워크플로우를 시도해본 적이 있다면 이미 다음 파일들이 있을 수 있습니다.

Text encoders에서 버전을 하나 선택해 다운로드하세요.

VAE

wan_2.1_vae.safetensors

CLIP Vision

clip_vision_h.safetensors

파일 저장 위치

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └─── wan2.1_flf2v_720p_14B_fp16.safetensors           # 또는 FP8 버전
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors           # 또는 선택한 버전
│   ├── vae/
│   │   └──  wan_2.1_vae.safetensors
│   └── clip_vision/
│       └──  clip_vision_h.safetensors   

3. 워크플로우 단계별 완료

Load Diffusion Model 노드가 wan2.1_flf2v_720p_14B_fp16.safetensors 또는 wan2.1_flf2v_720p_14B_fp8_e4m3fn.safetensors를 로드했는지 확인하세요.
Load CLIP 노드가 umt5_xxl_fp8_e4m3fn_scaled.safetensors를 로드했는지 확인하세요.
Load VAE 노드가 wan_2.1_vae.safetensors를 로드했는지 확인하세요.
Load CLIP Vision 노드가 clip_vision_h.safetensors를 로드했는지 확인하세요.
시작 프레임을 Start_image 노드에 업로드하세요.
종료 프레임을 End_image 노드에 업로드하세요.
(선택사항) 긍정적 및 부정적 프롬프트를 수정하세요. 중국어와 영어 모두 지원됩니다.
(중요) WanFirstLastFrameToVideo에서 기본 크기로 720×1280을 사용합니다. 이는 720P 모델이므로 작은 크기를 사용하면 좋은 출력을 얻기 어렵습니다. 좋은 생성 결과를 위해 720×1280 정도의 크기를 사용하세요.
Run 버튼을 클릭하거나 단축키 Ctrl(cmd) + Enter를 사용해 동영상 생성을 실행하세요.

시작하기

Agent Tools / MCP

기본 개념

인터페이스 가이드

튜토리얼

파트너 노드

ComfyUI Wan2.1 FLF2V 네이티브 예제