このドキュメントは AI によって生成されました。誤りを発見された場合や、改善に関するご提案がありましたら、ぜひご貢献ください! GitHub で編集するこのノードは、画像とテキストのエンコーディングを通じて学習用データを準備します。画像のリストと対応するテキストキャプションのリストを受け取り、VAE モデルを用いて画像を潜在表現(latent representation)に変換し、CLIP モデルを用いてテキストを条件付けデータ(conditioning data)に変換します。結果として得られる潜在表現と条件付けデータのペアは、それぞれリスト形式で出力され、学習ワークフローで直ちに利用可能です。
入力
| パラメーター | データ型 | 必須 | 範囲 | 説明 |
|---|---|---|---|---|
images | IMAGE | はい | N/A | エンコード対象の画像リスト。 |
vae | VAE | はい | N/A | 画像を潜在表現にエンコードするための VAE モデル。 |
clip | CLIP | はい | N/A | テキストを条件付けデータにエンコードするための CLIP モデル。 |
texts | STRING | いいえ | N/A | テキストキャプションのリスト。長さは n(画像数と一致)、1(すべての画像に対して繰り返し使用)、または省略(空文字列を使用)のいずれかです。 |
textsリスト内の要素数は、0、1、またはimagesリスト内の要素数と完全に一致しなければなりません。要素数が 0 の場合、すべての画像に対して空文字列が使用されます。要素数が 1 の場合、その単一のテキストがすべての画像に対して繰り返し使用されます。
出力
| 出力名 | データ型 | 説明 |
|---|---|---|
latents | LATENT | 潜在表現を格納した辞書のリスト。 |
conditioning | CONDITIONING | 条件付けデータのリストからなるリスト。 |