跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.comfy.org/llms.txt

Use this file to discover all available pages before exploring further.

本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑

概述

LTXV 参考音频节点用于音频生成中的说话人身份迁移。它将参考音频片段编码为模型的条件输入,使生成的音频能够继承说话人的声音特征。该节点还可应用身份引导,通过额外的处理步骤来增强说话人身份效果。

输入

参数数据类型是否必填取值范围说明
modelMODEL-需要应用身份引导补丁的模型。
positiveCONDITIONING-正向条件输入。
negativeCONDITIONING-负向条件输入。
reference_audioAUDIO-用于迁移说话人身份的参考音频片段。建议时长约5秒(训练时长)。过短或过长的片段可能会降低声音身份迁移效果。
audio_vaeVAE-用于编码参考音频的 LTXV 音频 VAE。
identity_guidance_scaleFLOAT0.0 - 100.0身份引导强度。每步额外执行一次无参考的前向传播以增强说话人身份。设为0可禁用(无额外前向传播)。(默认值:3.0)
start_percentFLOAT0.0 - 1.0身份引导生效的 sigma 范围起始值。(默认值:0.0)
end_percentFLOAT0.0 - 1.0身份引导生效的 sigma 范围结束值。(默认值:1.0)

输出

输出名称数据类型说明
positiveMODEL已应用身份引导函数的模型。
negativeCONDITIONING正向条件,现包含编码后的参考音频数据。
negativeCONDITIONING负向条件,现包含编码后的参考音频数据。

Source fingerprint (SHA-256): 0b87fb135ba8e752f4114cb47152503b0ec548eefcaa03f99f1cbdda6664874c