ElevenLabsSpeechToText - ComfyUI Built-in Node Documentation

ElevenLabs 음성-텍스트 노드는 오디오 파일을 텍스트로 변환합니다. ElevenLabs의 API를 사용하여 음성 단어를 문자 기록으로 변환하며, 자동 언어 감지, 화자 식별, 음악이나 웃음과 같은 비음성 사운드 태깅 기능을 지원합니다.

입력

매개변수	설명	데이터 타입	필수 여부	범위
`audio`	변환할 오디오입니다.	AUDIO	예	-
`model`	변환에 사용할 모델입니다. 이 모델을 선택하면 추가 매개변수가 표시됩니다.	COMBO	예	`"scribe_v2"`
`tag_audio_events`	기록에 (웃음), (음악) 등의 사운드에 주석을 추가합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: False)	BOOLEAN	아니요	-
`diarize`	말하는 화자에 주석을 추가합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: False)	BOOLEAN	아니요	-
`diarization_threshold`	화자 분리 민감도입니다. 값이 낮을수록 화자 변경에 더 민감하게 반응합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하고 `diarize`가 활성화된 경우 표시됩니다. (기본값: 0.22)	FLOAT	아니요	0.1 - 0.4
`temperature`	무작위성 제어입니다. 0.0은 모델 기본값을 사용합니다. 값이 높을수록 무작위성이 증가합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: 0.0)	FLOAT	아니요	0.0 - 2.0
`timestamps_granularity`	기록 단어의 시간 정밀도입니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: “word”)	COMBO	아니요	`"word"` `"character"` `"none"`
`language_code`	ISO-639-1 또는 ISO-639-3 언어 코드입니다(예: ‘en’, ‘es’, ‘fra’). 자동 감지를 위해 비워 둡니다. (기본값: "")	STRING	아니요	-
`num_speakers`	예측할 최대 화자 수입니다. 자동 감지를 위해 0으로 설정합니다. (기본값: 0)	INT	아니요	0 - 32
`seed`	재현성을 위한 시드입니다(결정론은 보장되지 않습니다). (기본값: 1)	INT	아니요	0 - 2147483647

참고: diarize 옵션이 활성화된 경우 num_speakers 매개변수를 0보다 큰 값으로 설정할 수 없습니다. diarize를 비활성화하거나 num_speakers를 0으로 설정해야 합니다.

출력

출력 이름	설명	데이터 타입
`text`	오디오에서 변환된 텍스트입니다.	STRING
`language_code`	감지된 오디오의 언어 코드입니다.	STRING
`words_json`	타임스탬프와 활성화된 경우 화자 레이블을 포함한 상세한 단어 수준 정보가 포함된 JSON 형식 문자열입니다.	STRING

이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! GitHub에서 편집

Source fingerprint (SHA-256): aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1

​입력

​출력

입력

출력