CLIP Vision Encode ノードは、ComfyUI の画像エンコーディングノードであり、CLIP Vision モデルを用いて入力画像を視覚的特徴ベクトルに変換します。このノードは、画像とテキストの理解を結びつける重要な橋渡し役であり、さまざまな AI 画像生成および処理ワークフローで広く利用されています。
ノードの機能
- 画像特徴抽出: 入力画像を高次元の特徴ベクトルに変換します
- マルチモーダル連携: 画像とテキストの統合処理の基盤を提供します
- 条件付き生成: 画像に基づく条件付き生成のための視覚的条件を提供します
入力
| パラメーター名 | データ型 | 説明 |
|---|---|---|
clip_vision | CLIP_VISION | CLIP ビジョンモデル。通常は CLIPVisionLoader ノードを用いて読み込まれます |
image | IMAGE | エンコード対象の入力画像 |
crop | ドロップダウン | 画像の切り抜き方法。選択肢: center(中央切り抜き)、none(切り抜きなし) |
出力
| 出力名 | データ型 | 説明 |
|---|---|---|
| CLIP_VISION_OUTPUT | CLIP_VISION_OUTPUT | エンコード済みの視覚的特徴 |
last_hidden_state: 最終層の隠れ状態image_embeds: 画像埋め込みベクトルpenultimate_hidden_states: 最終層の直前の隠れ状態mm_projected: マルチモーダル投影結果(利用可能な場合)