> ## Documentation Index
> Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
> Use this file to discover all available pages before exploring further.

# ElevenLabsSpeechToText - ComfyUI Built-in Node Documentation

> Complete documentation for the ElevenLabsSpeechToText node in ComfyUI. Learn its inputs, outputs, parameters and usage.

# ElevenLabs 음성-텍스트 노드

ElevenLabs 음성-텍스트 노드는 오디오 파일을 텍스트로 변환합니다. ElevenLabs의 API를 사용하여 음성 단어를 문자 기록으로 변환하며, 자동 언어 감지, 화자 식별, 음악이나 웃음과 같은 비음성 사운드 태깅 기능을 지원합니다.

## 입력

| 매개변수                     | 설명                                                                                                              | 데이터 타입  | 필수 여부 | 범위                                        |
| ------------------------ | --------------------------------------------------------------------------------------------------------------- | ------- | ----- | ----------------------------------------- |
| `audio`                  | 변환할 오디오입니다.                                                                                                     | AUDIO   | 예     | -                                         |
| `model`                  | 변환에 사용할 모델입니다. 이 모델을 선택하면 추가 매개변수가 표시됩니다.                                                                       | COMBO   | 예     | `"scribe_v2"`                             |
| `tag_audio_events`       | 기록에 (웃음), (음악) 등의 사운드에 주석을 추가합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: False)                            | BOOLEAN | 아니요   | -                                         |
| `diarize`                | 말하는 화자에 주석을 추가합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: False)                                           | BOOLEAN | 아니요   | -                                         |
| `diarization_threshold`  | 화자 분리 민감도입니다. 값이 낮을수록 화자 변경에 더 민감하게 반응합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하고 `diarize`가 활성화된 경우 표시됩니다. (기본값: 0.22) | FLOAT   | 아니요   | 0.1 - 0.4                                 |
| `temperature`            | 무작위성 제어입니다. 0.0은 모델 기본값을 사용합니다. 값이 높을수록 무작위성이 증가합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: 0.0)           | FLOAT   | 아니요   | 0.0 - 2.0                                 |
| `timestamps_granularity` | 기록 단어의 시간 정밀도입니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: "word")                                           | COMBO   | 아니요   | `"word"`<br />`"character"`<br />`"none"` |
| `language_code`          | ISO-639-1 또는 ISO-639-3 언어 코드입니다(예: 'en', 'es', 'fra'). 자동 감지를 위해 비워 둡니다. (기본값: "")                              | STRING  | 아니요   | -                                         |
| `num_speakers`           | 예측할 최대 화자 수입니다. 자동 감지를 위해 0으로 설정합니다. (기본값: 0)                                                                   | INT     | 아니요   | 0 - 32                                    |
| `seed`                   | 재현성을 위한 시드입니다(결정론은 보장되지 않습니다). (기본값: 1)                                                                         | INT     | 아니요   | 0 - 2147483647                            |

**참고:** `diarize` 옵션이 활성화된 경우 `num_speakers` 매개변수를 0보다 큰 값으로 설정할 수 없습니다. `diarize`를 비활성화하거나 `num_speakers`를 0으로 설정해야 합니다.

## 출력

| 출력 이름           | 설명                                                           | 데이터 타입 |
| --------------- | ------------------------------------------------------------ | ------ |
| `language_code` | 오디오에서 변환된 텍스트입니다.                                            | STRING |
| `words_json`    | 감지된 오디오의 언어 코드입니다.                                           | STRING |
| `words_json`    | 타임스탬프와 활성화된 경우 화자 레이블을 포함한 상세한 단어 수준 정보가 포함된 JSON 형식 문자열입니다. | STRING |

> 이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! [GitHub에서 편집](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/ElevenLabsSpeechToText/ko.md)

***

**Source fingerprint (SHA-256):** `aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1`
