> ## Documentation Index
> Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
> Use this file to discover all available pages before exploring further.

# Wan2.2-S2V 오디오 기반 비디오 생성 ComfyUI 네이티브 워크플로우 예시

> 이는 ComfyUI에서 Wan2.2-S2V 오디오 기반 비디오 생성을 위한 네이티브 워크플로우 예시입니다.

Wan2.2-S2V, 고급 오디오 기반 비디오 생성 모델이 이제 ComfyUI에서 기본적으로 지원된다는 소식을 전하게 되어 기쁩니다! 이 강력한 AI 모델은 정적 이미지와 오디오 입력을 동적인 비디오 콘텐츠로 변환할 수 있으며, 대사, 노래, 공연 등 다양한 창작 요구를 지원합니다.

**모델 주요 특징**

* **오디오 기반 비디오 생성**: 정적 이미지와 오디오를 동기화된 비디오로 변환
* **영화급 품질**: 자연스러운 표정과 움직임으로 영화 수준의 비디오 생성
* **분 단위 생성**: 장편 비디오 제작 지원
* **다양한 형식 지원**: 전신 및 반신 캐릭터와 호환
* **향상된 모션 제어**: 텍스트 지침으로 액션과 환경 생성

Wan2.2 S2V 코드: [GitHub](https://github.com/aigc-apps/VideoX-Fun)
Wan2.2 S2V 모델: [Hugging Face](https://huggingface.co/Wan-AI/Wan2.2-S2V-14B)

## Wan2.2 S2V ComfyUI 네이티브 워크플로우

<Tip>
  <Tabs>
    <Tab title="휴대용 또는 자체 배포 사용자">
      ComfyUI가 최신 버전으로 업데이트되었는지 확인하세요.

      * [ComfyUI 다운로드](https://www.comfy.org/download)
      * [업데이트 가이드](/ko/installation/update_comfyui)

      이 가이드의 워크플로우는 [워크플로우 템플릿](/ko/interface/features/template)에서 확인할 수 있습니다.
      템플릿에서 찾을 수 없다면, 귀하의 ComfyUI가 오래된 버전일 수 있습니다. (데스크톱 버전의 업데이트는 다소 지연될 수 있습니다)

      워크플로우를 로드할 때 노드가 누락되는 경우, 가능한 원인:

      1. 최신 ComfyUI 버전(야간 빌드)을 사용하고 있지 않음
      2. 일부 노드가 시작 시 가져오기에 실패함
    </Tab>

    <Tab title="데스크톱 또는 클라우드 사용자">
      * 데스크톱 버전은 ComfyUI 안정판 기반으로, 새로운 데스크톱 안정판이 출시되면 자동으로 업데이트됩니다.
      * [클라우드](https://cloud.comfy.org)는 ComfyUI 안정판 출시 후 업데이트됩니다.

      따라서 이 문서에서 핵심 노드가 누락된 것을 발견했다면, 그 이유는 새로운 핵심 노드가 아직 최신 안정판에 공개되지 않았기 때문일 수 있습니다. 다음 안정판 출시를 기다려 주세요.
    </Tab>
  </Tabs>
</Tip>

### 1. 워크플로우 파일 다운로드

다음 워크플로우 파일을 다운로드하여 ComfyUI에 끌어다 놓으면 워크플로우가 로드됩니다.

<video controls className="w-full aspect-video" src="https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/video/wan/wan2.2_s2v/wan2.2-s2v.mp4" />

<a className="prose" target="_blank" href="https://raw.githubusercontent.com/Comfy-Org/workflow_templates/refs/heads/main/templates/video_wan2_2_14B_s2v.json" style={{ display: 'inline-block', backgroundColor: '#0078D6', color: '#ffffff', padding: '10px 20px', borderRadius: '8px', borderColor: "transparent", textDecoration: 'none', fontWeight: 'bold'}}>
  <p className="prose" style={{ margin: 0, fontSize: "0.8rem" }}>JSON 워크플로우 다운로드</p>
</a>

<a className="prose" target="_blank" href="https://cloud.comfy.org/?template=video_wan2_2_14B_s2v&utm_source=docs" style={{ display: 'inline-block', backgroundColor: '#28A745', color: '#FFFFFF', padding: '10px 20px', borderRadius: '8px', borderColor: "transparent", textDecoration: 'none', fontWeight: 'bold'}}>
  <p className="prose" style={{ margin: 0, fontSize: "0.8rem" }}>Comfy Cloud에서 실행</p>
</a>

다음 이미지와 오디오를 입력으로 다운로드하세요:
![입력](https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/video/wan/wan2.2_s2v/input.jpg)

<a className="prose" target="_blank" href="https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/video/wan/wan2.2_s2v/input_audio.MP3" style={{ display: 'inline-block', backgroundColor: '#0078D6', color: '#ffffff', padding: '10px 20px', borderRadius: '8px', borderColor: "transparent", textDecoration: 'none', fontWeight: 'bold'}}>
  <p className="prose" style={{ margin: 0, fontSize: "0.8rem" }}>입력 오디오 다운로드</p>
</a>

### 2. 모델 링크

모델들은 [우리 리포지토리](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged)에서 확인하실 수 있습니다.

**diffusion\_models**

* [wan2.2\_s2v\_14B\_fp8\_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/diffusion_models/wan2.2_s2v_14B_fp8_scaled.safetensors)
* [wan2.2\_s2v\_14B\_bf16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/diffusion_models/wan2.2_s2v_14B_bf16.safetensors)

**audio\_encoders**

* [wav2vec2\_large\_english\_fp16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/audio_encoders/wav2vec2_large_english_fp16.safetensors)

**vae**

* [wan\_2.1\_vae.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/vae/wan_2.1_vae.safetensors)

**text\_encoders**

* [umt5\_xxl\_fp8\_e4m3fn\_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors)

```
ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_s2v_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_s2v_14B_bf16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   ├───📂 audio_encoders/ # 찾을 수 없는 경우 생성
│   │   └─── wav2vec2_large_english_fp16.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors
```

### 3. 워크플로우 지침

<img src="https://mintcdn.com/dripart/ht3vzHrjy1qaRsl9/images/tutorial/video/wan/wan_2.2_14b_s2v.jpg?fit=max&auto=format&n=ht3vzHrjy1qaRsl9&q=85&s=295f87179e12d937cbfbcc3e21d474c0" alt="워크플로우 지침" width="4000" height="2131" data-path="images/tutorial/video/wan/wan_2.2_14b_s2v.jpg" />

#### 3.1 Lightning LoRA 소개

#### 3.2 fp8\_scaled 및 bf16 모델 소개

두 모델 모두 [여기](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models)에서 확인하실 수 있습니다:

* [wan2.2\_s2v\_14B\_fp8\_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/diffusion_models/wan2.2_s2v_14B_fp8_scaled.safetensors)
* [wan2.2\_s2v\_14B\_bf16.safetensors](https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/diffusion_models/wan2.2_s2v_14B_bf16.safetensors)

이 템플릿에서는 `wan2.2_s2v_14B_fp8_scaled.safetensors`를 사용하며, 이 모델은 더 적은 VRAM을 필요로 합니다. 하지만 품질 저하를 줄이기 위해 `wan2.2_s2v_14B_bf16.safetensors`를 시도해볼 수도 있습니다.

#### 3.3 단계별 작동 지침

**Step 1: 모델 로드**

1. **Diffusion 모델 로드**: `wan2.2_s2v_14B_fp8_scaled.safetensors` 또는 `wan2.2_s2v_14B_bf16.safetensors` 로드
   * 제공된 워크플로우에서는 `wan2.2_s2v_14B_fp8_scaled.safetensors`를 사용하며, 이 모델은 더 적은 VRAM을 필요로 합니다.
   * 하지만 품질 저하를 줄이기 위해 `wan2.2_s2v_14B_bf16.safetensors`를 시도해볼 수도 있습니다.

2. **CLIP 로드**: `umt5_xxl_fp8_e4m3fn_scaled.safetensors` 로드

3. **VAE 로드**: `wan_2.1_vae.safetensors` 로드

4. **AudioEncoderLoader**: `wav2vec2_large_english_fp16.safetensors` 로드

5. **LoraLoaderModelOnly**: `wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors` (Lightning LoRA) 로드
   * 우리는 모든 wan2.2 lightning LoRA를 테스트했습니다. 이는 Wan2.2 S2V용으로 특별히 훈련된 LoRA가 아니므로 많은 핵심 값이 맞지 않지만, 생성 시간을 크게 줄여주기 때문에 추가했습니다. 앞으로 이 템플릿을 계속 최적화할 예정입니다.
   * 이를 사용하면 상당한 동적 및 품질 손실이 발생합니다.
   * 출력 품질이 너무 낮다고 느껴진다면 원래 20단계 워크플로우를 시도해볼 수 있습니다.

6. **LoadAudio**: 제공된 오디오 파일이나 직접 업로드한 오디오를 로드하세요.

7. **Load Image**: 참조 이미지를 업로드하세요.

8. **배치 크기**: 추가하는 Video S2V Extend 서브그래프 노드 수에 따라 설정하세요.
   * 각 Video S2V Extend 서브그래프는 최종 출력에 77프레임을 추가합니다.
   * 예를 들어: Video S2V Extend 서브그래프를 2개 추가했다면 배치 크기는 3이어야 하며, 이는 전체 샘플링 반복 횟수를 의미합니다.
   * **Chunk Length**: 기본값인 77을 유지하세요.

9. **샘플러 설정**: Lightning LoRA 사용 여부에 따라 다른 설정을 선택하세요.
   * 4단계 Lightning LoRA 사용 시: steps: 4, cfg: 1.0
   * 4단계 Lightning LoRA 미사용 시: steps: 20, cfg: 6.0

10. **크기 설정**: 출력 비디오의 크기를 설정하세요.

11. **Video S2V Extend**: 비디오 확장 서브그래프 노드들입니다. 기본 프레임 수가 77이고, 이 모델은 16fps이므로 각 확장은 77 / 16 = 4.8125초의 비디오를 생성합니다.
    * 비디오 확장 서브그래프 노드 수를 입력 오디오 길이와 맞추려면 계산이 필요합니다. 예를 들어: 입력 오디오가 14초라면 총 필요한 프레임 수는 14×16=224이며, 각 비디오 확장은 77프레임이므로 224/77 = 2.9, 즉 3개의 비디오 확장 서브그래프 노드가 필요합니다.

12. Ctrl-Enter를 누르거나 실행 버튼을 클릭하여 워크플로우를 실행하세요.
