ElevenLabs 음성-텍스트 노드
ElevenLabs 음성-텍스트 노드는 오디오 파일을 텍스트로 변환합니다. ElevenLabs의 API를 사용하여 음성 단어를 문자 기록으로 변환하며, 자동 언어 감지, 화자 식별, 음악이나 웃음과 같은 비음성 사운드 태깅 기능을 지원합니다.입력
| 매개변수 | 설명 | 데이터 타입 | 필수 여부 | 범위 |
|---|---|---|---|---|
audio | 변환할 오디오입니다. | AUDIO | 예 | - |
model | 변환에 사용할 모델입니다. 이 모델을 선택하면 추가 매개변수가 표시됩니다. | COMBO | 예 | "scribe_v2" |
tag_audio_events | 기록에 (웃음), (음악) 등의 사운드에 주석을 추가합니다. 이 매개변수는 "scribe_v2" 모델을 선택하면 표시됩니다. (기본값: False) | BOOLEAN | 아니요 | - |
diarize | 말하는 화자에 주석을 추가합니다. 이 매개변수는 "scribe_v2" 모델을 선택하면 표시됩니다. (기본값: False) | BOOLEAN | 아니요 | - |
diarization_threshold | 화자 분리 민감도입니다. 값이 낮을수록 화자 변경에 더 민감하게 반응합니다. 이 매개변수는 "scribe_v2" 모델을 선택하고 diarize가 활성화된 경우 표시됩니다. (기본값: 0.22) | FLOAT | 아니요 | 0.1 - 0.4 |
temperature | 무작위성 제어입니다. 0.0은 모델 기본값을 사용합니다. 값이 높을수록 무작위성이 증가합니다. 이 매개변수는 "scribe_v2" 모델을 선택하면 표시됩니다. (기본값: 0.0) | FLOAT | 아니요 | 0.0 - 2.0 |
timestamps_granularity | 기록 단어의 시간 정밀도입니다. 이 매개변수는 "scribe_v2" 모델을 선택하면 표시됩니다. (기본값: “word”) | COMBO | 아니요 | "word""character""none" |
language_code | ISO-639-1 또는 ISO-639-3 언어 코드입니다(예: ‘en’, ‘es’, ‘fra’). 자동 감지를 위해 비워 둡니다. (기본값: "") | STRING | 아니요 | - |
num_speakers | 예측할 최대 화자 수입니다. 자동 감지를 위해 0으로 설정합니다. (기본값: 0) | INT | 아니요 | 0 - 32 |
seed | 재현성을 위한 시드입니다(결정론은 보장되지 않습니다). (기본값: 1) | INT | 아니요 | 0 - 2147483647 |
diarize 옵션이 활성화된 경우 num_speakers 매개변수를 0보다 큰 값으로 설정할 수 없습니다. diarize를 비활성화하거나 num_speakers를 0으로 설정해야 합니다.
출력
| 출력 이름 | 설명 | 데이터 타입 |
|---|---|---|
language_code | 오디오에서 변환된 텍스트입니다. | STRING |
words_json | 감지된 오디오의 언어 코드입니다. | STRING |
words_json | 타임스탬프와 활성화된 경우 화자 레이블을 포함한 상세한 단어 수준 정보가 포함된 JSON 형식 문자열입니다. | STRING |
이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! GitHub에서 편집
Source fingerprint (SHA-256):
aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1