Documentation Index
Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
Use this file to discover all available pages before exploring further.
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
概述
LTXV 参考音频节点用于音频生成中的说话人身份迁移。它将参考音频片段编码为模型的条件输入,使生成的音频能够继承说话人的声音特征。该节点还可应用身份引导,通过额外的处理步骤来增强说话人身份效果。输入
| 参数 | 数据类型 | 是否必填 | 取值范围 | 说明 |
|---|---|---|---|---|
model | MODEL | 是 | - | 需要应用身份引导补丁的模型。 |
positive | CONDITIONING | 是 | - | 正向条件输入。 |
negative | CONDITIONING | 是 | - | 负向条件输入。 |
reference_audio | AUDIO | 是 | - | 用于迁移说话人身份的参考音频片段。建议时长约5秒(训练时长)。过短或过长的片段可能会降低声音身份迁移效果。 |
audio_vae | VAE | 是 | - | 用于编码参考音频的 LTXV 音频 VAE。 |
identity_guidance_scale | FLOAT | 否 | 0.0 - 100.0 | 身份引导强度。每步额外执行一次无参考的前向传播以增强说话人身份。设为0可禁用(无额外前向传播)。(默认值:3.0) |
start_percent | FLOAT | 否 | 0.0 - 1.0 | 身份引导生效的 sigma 范围起始值。(默认值:0.0) |
end_percent | FLOAT | 否 | 0.0 - 1.0 | 身份引导生效的 sigma 范围结束值。(默认值:1.0) |
输出
| 输出名称 | 数据类型 | 说明 |
|---|---|---|
positive | MODEL | 已应用身份引导函数的模型。 |
negative | CONDITIONING | 正向条件,现包含编码后的参考音频数据。 |
negative | CONDITIONING | 负向条件,现包含编码后的参考音频数据。 |
Source fingerprint (SHA-256):
0b87fb135ba8e752f4114cb47152503b0ec548eefcaa03f99f1cbdda6664874c