メインコンテンツへスキップ
以下が翻訳結果です。 LTXV リファレンスオーディオノードは、音声生成における話者同一性の転送に使用されます。リファレンスとなるオーディオクリップをモデルの条件付け(コンディショニング)にエンコードし、生成される音声がその話者の声の特徴を採用できるようにします。また、同一性ガイダンスを適用することも可能で、これにより追加の処理ステップを実行して話者同一性の効果を増幅します。

入力

パラメータ説明データ型必須範囲
model同一性ガイダンスでパッチ適用されるモデル。MODELはい-
positiveポジティブな条件付け入力。CONDITIONINGはい-
negativeネガティブな条件付け入力。CONDITIONINGはい-
reference_audio話者同一性を転送するリファレンスオーディオクリップ。約5秒(トレーニング期間)を推奨します。これより短い、または長いクリップでは、音声同一性の転送が低下する可能性があります。AUDIOはい-
audio_vaeリファレンスオーディオをエンコードするためのLTXV Audio VAE。VAEはい-
identity_guidance_scale同一性ガイダンスの強さ。リファレンスなしで追加のフォワードパスを各ステップで実行し、話者同一性を増幅します。0に設定すると無効になります(追加パスなし)。(デフォルト:3.0)FLOATいいえ0.0 - 100.0
start_percent同一性ガイダンスがアクティブになるシグマ範囲の開始位置。(デフォルト:0.0)FLOATいいえ0.0 - 1.0
end_percent同一性ガイダンスがアクティブになるシグマ範囲の終了位置。(デフォルト:1.0)FLOATいいえ0.0 - 1.0

出力

出力名説明データ型
positive同一性ガイダンス機能でパッチ適用されたモデル。MODEL
negativeエンコードされたリファレンスオーディオデータを含む、ポジティブな条件付け。CONDITIONING
negativeエンコードされたリファレンスオーディオデータを含む、ネガティブな条件付け。CONDITIONING
このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集

Source fingerprint (SHA-256): 0b87fb135ba8e752f4114cb47152503b0ec548eefcaa03f99f1cbdda6664874c