CLIPVisionEncode - ComfyUI Built-in Node Documentation

CLIP Vision Encode ノードは、ComfyUI における画像エンコードノードであり、CLIP Vision モデルを通じて入力画像を視覚特徴ベクトルに変換します。このノードは、画像とテキストの理解を結びつける重要なブリッジであり、様々なAI画像生成・処理ワークフローで広く使用されています。 ノード機能

画像特徴抽出：入力画像を高次元の特徴ベクトルに変換します
マルチモーダルブリッジ：画像とテキストの統合処理の基盤を提供します
条件付き生成：画像ベースの条件付き生成に視覚的条件を提供します

入力

パラメータ名	説明	データ型
`クリップビジョン`	CLIP Visionモデル。通常はCLIPVisionLoaderノードを介して読み込まれます	CLIP_VISION
`画像`	エンコードする入力画像	IMAGE
`クロップ`	画像のクロップ方法。オプション：center（中央クロップ）、none（クロップなし）	ドロップダウン

出力

出力名	説明	データ型
CLIP_VISION_OUTPUT	エンコードされた視覚特徴	CLIP_VISION_OUTPUT

この出力オブジェクトには以下が含まれます：

last_hidden_state：最後の隠れ状態
image_embeds：画像埋め込みベクトル
penultimate_hidden_states：最後から2番目の隠れ状態
mm_projected：マルチモーダル投影結果（利用可能な場合）

このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください！ GitHub で編集

​入力

​出力

入力

出力