CLIP视觉编码节点用于将输入图像通过CLIP Vision模型转换为视觉特征向量。
CLIP视觉编码
节点是 ComfyUI 中的图像编码节点,用于将输入图像通过 CLIP Vision 模型转换为视觉特征向量。该节点是连接图像和文本理解的重要桥梁,广泛用于各种 AI 图像生成和处理工作流中。
节点功能
参数名 | 类型 | 说明 |
---|---|---|
clip视觉 | CLIP_VISION | CLIP视觉模型,通常通过 CLIPVisionLoader 节点加载 |
图像 | IMAGE | 需要编码的输入图像 |
裁剪 | 下拉选择 | 图像裁剪方式,可选值:center(居中裁剪)、none(不裁剪) |
参数名 | 类型 | 说明 |
---|---|---|
CLIP视觉输出 | CLIP_VISION_OUTPUT | 编码后的视觉特征 |
这个输出对象包含:
last_hidden_state
: 最后一层的隐藏状态image_embeds
: 图像嵌入向量penultimate_hidden_states
: 倒数第二层的隐藏状态mm_projected
: 多模态投影结果(如果可用)