メインコンテンツへスキップ
CLIP Vision Encode ノードは、ComfyUI の画像エンコーディングノードであり、CLIP Vision モデルを用いて入力画像を視覚的特徴ベクトルに変換します。このノードは、画像とテキストの理解を結びつける重要な橋渡し役であり、さまざまな AI 画像生成および処理ワークフローで広く利用されています。 ノードの機能
  • 画像特徴抽出: 入力画像を高次元の特徴ベクトルに変換します
  • マルチモーダル連携: 画像とテキストの統合処理の基盤を提供します
  • 条件付き生成: 画像に基づく条件付き生成のための視覚的条件を提供します

入力

パラメーター名データ型説明
clip_visionCLIP_VISIONCLIP ビジョンモデル。通常は CLIPVisionLoader ノードを用いて読み込まれます
imageIMAGEエンコード対象の入力画像
cropドロップダウン画像の切り抜き方法。選択肢: center(中央切り抜き)、none(切り抜きなし)

出力

出力名データ型説明
CLIP_VISION_OUTPUTCLIP_VISION_OUTPUTエンコード済みの視覚的特徴
この出力オブジェクトには以下のプロパティが含まれます:
  • last_hidden_state: 最終層の隠れ状態
  • image_embeds: 画像埋め込みベクトル
  • penultimate_hidden_states: 最終層の直前の隠れ状態
  • mm_projected: マルチモーダル投影結果(利用可能な場合)