メインコンテンツへスキップ
このドキュメントは AI によって生成されました。誤りを発見された場合や、改善に関するご提案がありましたら、ぜひご貢献ください! GitHub で編集する
このノードは、画像とテキストのエンコーディングを通じて学習用データを準備します。画像のリストと対応するテキストキャプションのリストを受け取り、VAE モデルを用いて画像を潜在表現(latent representation)に変換し、CLIP モデルを用いてテキストを条件付けデータ(conditioning data)に変換します。結果として得られる潜在表現と条件付けデータのペアは、それぞれリスト形式で出力され、学習ワークフローで直ちに利用可能です。

入力

パラメーターデータ型必須範囲説明
imagesIMAGEはいN/Aエンコード対象の画像リスト。
vaeVAEはいN/A画像を潜在表現にエンコードするための VAE モデル。
clipCLIPはいN/Aテキストを条件付けデータにエンコードするための CLIP モデル。
textsSTRINGいいえN/Aテキストキャプションのリスト。長さは n(画像数と一致)、1(すべての画像に対して繰り返し使用)、または省略(空文字列を使用)のいずれかです。
パラメーター制約:
  • texts リスト内の要素数は、0、1、または images リスト内の要素数と完全に一致しなければなりません。要素数が 0 の場合、すべての画像に対して空文字列が使用されます。要素数が 1 の場合、その単一のテキストがすべての画像に対して繰り返し使用されます。

出力

出力名データ型説明
latentsLATENT潜在表現を格納した辞書のリスト。
conditioningCONDITIONING条件付けデータのリストからなるリスト。