このドキュメンテーションは AI によって生成されました。誤りを発見された場合、または改善のご提案がある場合は、ぜひご貢献ください! GitHub で編集LTXVSeparateAVLatent ノードは、統合された音声・映像の潜在表現(audio-visual latent representation)を入力として受け取り、それを映像用と音声用の 2 つの独立した部分に分割します。このノードは入力潜在表現からサンプルを分離し、存在する場合はノイズマスク(
noise_mask)も同様に分離して、2 つの新しい潜在オブジェクトを生成します。
入力
| パラメーター | データ型 | 必須 | 範囲 | 説明 |
|---|---|---|---|---|
av_latent | LATENT | はい | N/A | 分離対象となる統合音声・映像潜在表現。 |
samples テンソルは、最初の次元(バッチ次元)に少なくとも 2 つの要素を持つ必要があります。そのうち最初の要素が映像用潜在表現に、2 番目の要素が音声用潜在表現にそれぞれ使用されます。noise_mask が存在する場合、これも同様の方法で分割されます。
出力
| 出力名 | データ型 | 説明 |
|---|---|---|
video_latent | LATENT | 分離された映像データを含む潜在表現。 |
audio_latent | LATENT | 分離された音声データを含む潜在表現。 |