LTXVReferenceAudio - ComfyUI Built-in Node Documentation

LTXV 참조 오디오 노드는 오디오 생성에서 화자 정체성 전달을 위해 사용됩니다. 참조 오디오 클립을 모델의 컨디셔닝으로 인코딩하여, 생성된 오디오가 화자의 음성 특성을 채택할 수 있도록 합니다. 또한 정체성 가이던스를 적용할 수 있으며, 이는 추가 처리 단계를 실행하여 화자 정체성 효과를 증폭시킵니다.

입력

매개변수	설명	데이터 유형	필수	범위
`model`	정체성 가이던스로 패치될 모델입니다.	MODEL	예	-
`positive`	포지티브 컨디셔닝 입력입니다.	CONDITIONING	예	-
`negative`	네거티브 컨디셔닝 입력입니다.	CONDITIONING	예	-
`reference_audio`	화자 정체성을 전달할 참조 오디오 클립입니다. 약 5초를 권장합니다(훈련 기간). 이보다 짧거나 긴 클립은 음성 정체성 전달 품질을 저하시킬 수 있습니다.	AUDIO	예	-
`audio_vae`	참조 오디오 인코딩을 위한 LTXV 오디오 VAE입니다.	VAE	예	-
`identity_guidance_scale`	정체성 가이던스의 강도입니다. 각 단계에서 참조 없이 추가 순방향 패스를 실행하여 화자 정체성을 증폭시킵니다. 비활성화하려면 0으로 설정하십시오(추가 패스 없음). (기본값: 3.0)	FLOAT	아니요	0.0 - 100.0
`start_percent`	정체성 가이던스가 활성화되는 시그마 범위의 시작 지점입니다. (기본값: 0.0)	FLOAT	아니요	0.0 - 1.0
`end_percent`	정체성 가이던스가 활성화되는 시그마 범위의 종료 지점입니다. (기본값: 1.0)	FLOAT	아니요	0.0 - 1.0

출력

출력 이름	설명	데이터 유형
`positive`	정체성 가이던스 함수로 패치된 모델입니다.	MODEL
`positive`	인코딩된 참조 오디오 데이터를 포함하는 포지티브 컨디셔닝입니다.	CONDITIONING
`negative`	인코딩된 참조 오디오 데이터를 포함하는 네거티브 컨디셔닝입니다.	CONDITIONING

이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! GitHub에서 편집

Source fingerprint (SHA-256): 0b87fb135ba8e752f4114cb47152503b0ec548eefcaa03f99f1cbdda6664874c

​입력

​출력

입력

출력