메인 콘텐츠로 건너뛰기
LTXV 참조 오디오 노드는 오디오 생성에서 화자 정체성 전달을 위해 사용됩니다. 참조 오디오 클립을 모델의 컨디셔닝으로 인코딩하여, 생성된 오디오가 화자의 음성 특성을 채택할 수 있도록 합니다. 또한 정체성 가이던스를 적용할 수 있으며, 이는 추가 처리 단계를 실행하여 화자 정체성 효과를 증폭시킵니다.

입력

매개변수설명데이터 유형필수범위
model정체성 가이던스로 패치될 모델입니다.MODEL-
positive포지티브 컨디셔닝 입력입니다.CONDITIONING-
negative네거티브 컨디셔닝 입력입니다.CONDITIONING-
reference_audio화자 정체성을 전달할 참조 오디오 클립입니다. 약 5초를 권장합니다(훈련 기간). 이보다 짧거나 긴 클립은 음성 정체성 전달 품질을 저하시킬 수 있습니다.AUDIO-
audio_vae참조 오디오 인코딩을 위한 LTXV 오디오 VAE입니다.VAE-
identity_guidance_scale정체성 가이던스의 강도입니다. 각 단계에서 참조 없이 추가 순방향 패스를 실행하여 화자 정체성을 증폭시킵니다. 비활성화하려면 0으로 설정하십시오(추가 패스 없음). (기본값: 3.0)FLOAT아니요0.0 - 100.0
start_percent정체성 가이던스가 활성화되는 시그마 범위의 시작 지점입니다. (기본값: 0.0)FLOAT아니요0.0 - 1.0
end_percent정체성 가이던스가 활성화되는 시그마 범위의 종료 지점입니다. (기본값: 1.0)FLOAT아니요0.0 - 1.0

출력

출력 이름설명데이터 유형
positive정체성 가이던스 함수로 패치된 모델입니다.MODEL
negative인코딩된 참조 오디오 데이터를 포함하는 포지티브 컨디셔닝입니다.CONDITIONING
negative인코딩된 참조 오디오 데이터를 포함하는 네거티브 컨디셔닝입니다.CONDITIONING
이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! GitHub에서 편집

Source fingerprint (SHA-256): 0b87fb135ba8e752f4114cb47152503b0ec548eefcaa03f99f1cbdda6664874c