입력
| 매개변수 | 설명 | 데이터 유형 | 필수 | 범위 |
|---|---|---|---|---|
model | 정체성 가이던스로 패치될 모델입니다. | MODEL | 예 | - |
positive | 포지티브 컨디셔닝 입력입니다. | CONDITIONING | 예 | - |
negative | 네거티브 컨디셔닝 입력입니다. | CONDITIONING | 예 | - |
reference_audio | 화자 정체성을 전달할 참조 오디오 클립입니다. 약 5초를 권장합니다(훈련 기간). 이보다 짧거나 긴 클립은 음성 정체성 전달 품질을 저하시킬 수 있습니다. | AUDIO | 예 | - |
audio_vae | 참조 오디오 인코딩을 위한 LTXV 오디오 VAE입니다. | VAE | 예 | - |
identity_guidance_scale | 정체성 가이던스의 강도입니다. 각 단계에서 참조 없이 추가 순방향 패스를 실행하여 화자 정체성을 증폭시킵니다. 비활성화하려면 0으로 설정하십시오(추가 패스 없음). (기본값: 3.0) | FLOAT | 아니요 | 0.0 - 100.0 |
start_percent | 정체성 가이던스가 활성화되는 시그마 범위의 시작 지점입니다. (기본값: 0.0) | FLOAT | 아니요 | 0.0 - 1.0 |
end_percent | 정체성 가이던스가 활성화되는 시그마 범위의 종료 지점입니다. (기본값: 1.0) | FLOAT | 아니요 | 0.0 - 1.0 |
출력
| 출력 이름 | 설명 | 데이터 유형 |
|---|---|---|
positive | 정체성 가이던스 함수로 패치된 모델입니다. | MODEL |
negative | 인코딩된 참조 오디오 데이터를 포함하는 포지티브 컨디셔닝입니다. | CONDITIONING |
negative | 인코딩된 참조 오디오 데이터를 포함하는 네거티브 컨디셔닝입니다. | CONDITIONING |
이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! GitHub에서 편집
Source fingerprint (SHA-256):
0b87fb135ba8e752f4114cb47152503b0ec548eefcaa03f99f1cbdda6664874c