메인 콘텐츠로 건너뛰기

ElevenLabs 음성-텍스트 노드

ElevenLabs 음성-텍스트 노드는 오디오 파일을 텍스트로 변환합니다. ElevenLabs의 API를 사용하여 음성 단어를 문자 기록으로 변환하며, 자동 언어 감지, 화자 식별, 음악이나 웃음과 같은 비음성 사운드 태깅 기능을 지원합니다.

입력

매개변수설명데이터 타입필수 여부범위
audio변환할 오디오입니다.AUDIO-
model변환에 사용할 모델입니다. 이 모델을 선택하면 추가 매개변수가 표시됩니다.COMBO"scribe_v2"
tag_audio_events기록에 (웃음), (음악) 등의 사운드에 주석을 추가합니다. 이 매개변수는 "scribe_v2" 모델을 선택하면 표시됩니다. (기본값: False)BOOLEAN아니요-
diarize말하는 화자에 주석을 추가합니다. 이 매개변수는 "scribe_v2" 모델을 선택하면 표시됩니다. (기본값: False)BOOLEAN아니요-
diarization_threshold화자 분리 민감도입니다. 값이 낮을수록 화자 변경에 더 민감하게 반응합니다. 이 매개변수는 "scribe_v2" 모델을 선택하고 diarize가 활성화된 경우 표시됩니다. (기본값: 0.22)FLOAT아니요0.1 - 0.4
temperature무작위성 제어입니다. 0.0은 모델 기본값을 사용합니다. 값이 높을수록 무작위성이 증가합니다. 이 매개변수는 "scribe_v2" 모델을 선택하면 표시됩니다. (기본값: 0.0)FLOAT아니요0.0 - 2.0
timestamps_granularity기록 단어의 시간 정밀도입니다. 이 매개변수는 "scribe_v2" 모델을 선택하면 표시됩니다. (기본값: “word”)COMBO아니요"word"
"character"
"none"
language_codeISO-639-1 또는 ISO-639-3 언어 코드입니다(예: ‘en’, ‘es’, ‘fra’). 자동 감지를 위해 비워 둡니다. (기본값: "")STRING아니요-
num_speakers예측할 최대 화자 수입니다. 자동 감지를 위해 0으로 설정합니다. (기본값: 0)INT아니요0 - 32
seed재현성을 위한 시드입니다(결정론은 보장되지 않습니다). (기본값: 1)INT아니요0 - 2147483647
참고: diarize 옵션이 활성화된 경우 num_speakers 매개변수를 0보다 큰 값으로 설정할 수 없습니다. diarize를 비활성화하거나 num_speakers를 0으로 설정해야 합니다.

출력

출력 이름설명데이터 타입
language_code오디오에서 변환된 텍스트입니다.STRING
words_json감지된 오디오의 언어 코드입니다.STRING
words_json타임스탬프와 활성화된 경우 화자 레이블을 포함한 상세한 단어 수준 정보가 포함된 JSON 형식 문자열입니다.STRING
이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! GitHub에서 편집

Source fingerprint (SHA-256): aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1