> ## Documentation Index
> Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
> Use this file to discover all available pages before exploring further.

# WanInfiniteTalkToVideo - ComfyUI Built-in Node Documentation

> Complete documentation for the WanInfiniteTalkToVideo node in ComfyUI. Learn its inputs, outputs, parameters and usage.

# WanInfiniteTalkToVideo 노드

WanInfiniteTalkToVideo 노드는 오디오 입력으로부터 비디오 시퀀스를 생성합니다. 이 노드는 하나 또는 두 명의 화자로부터 추출된 오디오 특징을 조건으로 하는 비디오 확산 모델을 사용하여 토킹 헤드 비디오의 잠재 표현을 생성합니다. 새로운 시퀀스를 생성하거나 이전 프레임을 모션 컨텍스트로 사용하여 기존 시퀀스를 확장할 수 있습니다.

## 입력

| 매개변수                     | 설명                                                                                                  | 데이터 타입             | 필수  | 범위                                       |
| ------------------------ | --------------------------------------------------------------------------------------------------- | ------------------ | --- | ---------------------------------------- |
| `mode`                   | 오디오 입력 모드입니다. `"single_speaker"`는 하나의 오디오 입력을 사용합니다. `"two_speakers"`는 두 번째 화자와 해당 마스크의 입력을 활성화합니다. | COMBO              | 예   | `"single_speaker"`<br />`"two_speakers"` |
| `model`                  | 기본 비디오 확산 모델입니다.                                                                                    | MODEL              | 예   | -                                        |
| `model_patch`            | 오디오 투영 레이어를 포함하는 모델 패치입니다.                                                                          | MODELPATCH         | 예   | -                                        |
| `positive`               | 생성을 안내하는 긍정 조건입니다.                                                                                  | CONDITIONING       | 예   | -                                        |
| `negative`               | 생성을 안내하는 부정 조건입니다.                                                                                  | CONDITIONING       | 예   | -                                        |
| `vae`                    | 이미지를 잠재 공간으로 인코딩하거나 잠재 공간에서 디코딩하는 데 사용되는 VAE입니다.                                                    | VAE                | 예   | -                                        |
| `width`                  | 출력 비디오의 픽셀 단위 너비입니다. 16으로 나누어 떨어져야 합니다. (기본값: 832)                                                  | INT                | 아니요 | 16 - MAX\_RESOLUTION                     |
| `height`                 | 출력 비디오의 픽셀 단위 높이입니다. 16으로 나누어 떨어져야 합니다. (기본값: 480)                                                  | INT                | 아니요 | 16 - MAX\_RESOLUTION                     |
| `length`                 | 생성할 프레임 수입니다. (기본값: 81)                                                                             | INT                | 아니요 | 1 - MAX\_RESOLUTION                      |
| `clip_vision_output`     | 추가 조건을 위한 선택적 CLIP 비전 출력입니다.                                                                        | CLIPVISIONOUTPUT   | 아니요 | -                                        |
| `start_image`            | 비디오 시퀀스를 초기화하는 선택적 시작 이미지입니다.                                                                       | IMAGE              | 아니요 | -                                        |
| `audio_encoder_output_1` | 첫 번째 화자의 특징을 포함하는 기본 오디오 인코더 출력입니다.                                                                 | AUDIOENCODEROUTPUT | 예   | -                                        |
| `motion_frame_count`     | 시퀀스 확장 시 모션 컨텍스트로 사용할 이전 프레임 수입니다. (기본값: 9)                                                         | INT                | 아니요 | 1 - 33                                   |
| `audio_scale`            | 오디오 조건에 적용되는 스케일링 계수입니다. (기본값: 1.0)                                                                 | FLOAT              | 아니요 | -10.0 - 10.0                             |
| `previous_frames`        | 확장할 이전 비디오 프레임입니다(선택 사항).                                                                           | IMAGE              | 아니요 | -                                        |
| `audio_encoder_output_2` | 두 번째 오디오 인코더 출력입니다. `mode`가 `"two_speakers"`로 설정된 경우 필수입니다.                                         | AUDIOENCODEROUTPUT | 아니요 | -                                        |
| `mask_1`                 | 첫 번째 화자의 마스크입니다. 두 개의 오디오 입력을 사용하는 경우 필수입니다.                                                        | MASK               | 아니요 | -                                        |
| `mask_2`                 | 두 번째 화자의 마스크입니다. 두 개의 오디오 입력을 사용하는 경우 필수입니다.                                                        | MASK               | 아니요 | -                                        |

**매개변수 제약 조건:**

* `mode`가 `"two_speakers"`로 설정된 경우, `audio_encoder_output_2`, `mask_1`, `mask_2` 매개변수가 필수가 됩니다.
* `audio_encoder_output_2`가 제공되면 `mask_1`과 `mask_2`도 함께 제공되어야 합니다.
* `mask_1`과 `mask_2`가 제공되면 `audio_encoder_output_2`도 함께 제공되어야 합니다.
* `previous_frames`가 제공되면 `motion_frame_count`에 지정된 수만큼의 프레임 이상을 포함해야 합니다.

## 출력

| 출력 이름        | 설명                                              | 데이터 타입       |
| ------------ | ----------------------------------------------- | ------------ |
| `positive`   | 오디오 조건이 적용된 패치된 모델입니다.                          | MODEL        |
| `negative`   | 추가 컨텍스트(예: 시작 이미지, CLIP 비전)로 수정될 수 있는 긍정 조건입니다. | CONDITIONING |
| `latent`     | 추가 컨텍스트로 수정될 수 있는 부정 조건입니다.                     | CONDITIONING |
| `trim_image` | 잠재 공간에서 생성된 비디오 시퀀스입니다.                         | LATENT       |
| `trim_image` | 시퀀스 확장 시 모션 컨텍스트 시작 부분에서 제거해야 하는 프레임 수입니다.      | INT          |

> 이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! [GitHub에서 편집](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/WanInfiniteTalkToVideo/ko.md)

***

**Source fingerprint (SHA-256):** `6bb976da5cac0b61edb7d4c9d206c7c7ea9ffc0e982034c23c7f2e891e972888`
