メインコンテンツへスキップ
このノードは、画像とテキストをエンコードすることでトレーニング用のデータを準備します。画像のリストとそれに対応するテキストキャプションのリストを受け取り、VAEモデルを使用して画像を潜在表現に変換し、CLIPモデルを使用してテキストをコンディショニングデータに変換します。結果として得られるペアリングされた潜在表現とコンディショニングはリストとして出力され、トレーニングワークフローで使用できる状態になります。

入力

パラメータ説明データ型必須範囲
画像エンコードする画像のリスト。IMAGEはいN/A
vae画像を潜在表現にエンコードするためのVAEモデル。VAEはいN/A
clipテキストをコンディショニングにエンコードするためのCLIPモデル。CLIPはいN/A
テキストテキストキャプションのリスト。長さはn(画像と一致)、1(すべてに繰り返し)、または省略(空文字列を使用)にできます。STRINGいいえN/A
パラメータ制約:
  • texts リストのアイテム数は、0、1、または images リストのアイテム数と正確に一致している必要があります。0の場合は、すべての画像に空文字列が使用されます。1の場合は、その単一のテキストがすべての画像に繰り返し使用されます。

出力

出力名説明データ型
コンディショニング潜在表現の辞書のリスト。LATENT
conditioningコンディショニングリストのリスト。CONDITIONING
このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集

Source fingerprint (SHA-256): 95947c03f140f527f3db54d0b0131d956646055542ddb546ae5eaa82e4e8cefa