LTXVReferenceAudio - ComfyUI Built-in Node Documentation

概述

LTXV 参考音频节点用于音频生成中的说话人身份迁移。它将参考音频片段编码为模型的条件输入，使生成的音频能够继承说话人的声音特征。该节点还可应用身份引导，通过额外的处理步骤来增强说话人身份效果。

参数	说明	数据类型	是否必填	取值范围
`model`	需要应用身份引导补丁的模型。	MODEL	是	-
`positive`	正向条件输入。	CONDITIONING	是	-
`negative`	负向条件输入。	CONDITIONING	是	-
`reference_audio`	用于迁移说话人身份的参考音频片段。建议时长约5秒（训练时长）。过短或过长的片段可能会降低声音身份迁移效果。	AUDIO	是	-
`audio_vae`	用于编码参考音频的 LTXV 音频 VAE。	VAE	是	-
`identity_guidance_scale`	身份引导强度。每步额外执行一次无参考的前向传播以增强说话人身份。设为0可禁用（无额外前向传播）。（默认值：3.0）	FLOAT	否	0.0 - 100.0
`start_percent`	身份引导生效的 sigma 范围起始值。（默认值：0.0）	FLOAT	否	0.0 - 1.0
`end_percent`	身份引导生效的 sigma 范围结束值。（默认值：1.0）	FLOAT	否	0.0 - 1.0

本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！在 GitHub 上编辑

Source fingerprint (SHA-256): 0b87fb135ba8e752f4114cb47152503b0ec548eefcaa03f99f1cbdda6664874c