入力
| パラメータ | 説明 | データ型 | 必須 | 範囲 |
|---|---|---|---|---|
av_latent | 分割対象となる、結合された音声・映像の潜在表現です。 | LATENT | はい | なし |
samples テンソルは、最初の次元(バッチ次元)に少なくとも2つの要素を持つことが想定されています。最初の要素は映像の潜在表現に使用され、2番目の要素は音声の潜在表現に使用されます。noise_mask が存在する場合も、同様の方法で分割されます。
出力
| 出力名 | 説明 | データ型 |
|---|---|---|
オーディオlatent | 分割された映像データを含む潜在表現です。 | LATENT |
audio_latent | 分割された音声データを含む潜在表現です。 | LATENT |
このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集
Source fingerprint (SHA-256):
55bce5d768e7fe13f885cc32d34ecdac5cdcbb667b03743004866ea4b6d58d46