メインコンテンツへスキップ
このドキュメンテーションは AI によって生成されました。誤りを発見された場合、または改善のご提案がある場合は、ぜひご貢献ください! GitHub で編集
LTXVSeparateAVLatent ノードは、統合された音声・映像の潜在表現(audio-visual latent representation)を入力として受け取り、それを映像用と音声用の 2 つの独立した部分に分割します。このノードは入力潜在表現からサンプルを分離し、存在する場合はノイズマスク(noise_mask)も同様に分離して、2 つの新しい潜在オブジェクトを生成します。

入力

パラメーターデータ型必須範囲説明
av_latentLATENTはいN/A分離対象となる統合音声・映像潜在表現。
注意: 入力潜在表現の samples テンソルは、最初の次元(バッチ次元)に少なくとも 2 つの要素を持つ必要があります。そのうち最初の要素が映像用潜在表現に、2 番目の要素が音声用潜在表現にそれぞれ使用されます。noise_mask が存在する場合、これも同様の方法で分割されます。

出力

出力名データ型説明
video_latentLATENT分離された映像データを含む潜在表現。
audio_latentLATENT分離された音声データを含む潜在表現。