CLIP视觉编码 节点是 ComfyUI 中的图像编码节点,用于将输入图像通过 CLIP Vision 模型转换为视觉特征向量。该节点是连接图像和文本理解的重要桥梁,广泛用于各种 AI 图像生成和处理工作流中。

节点功能

  • 图像特征提取:将输入图像转换为高维特征向量
  • 多模态桥接:为图像和文本的联合处理提供基础
  • 条件生成:为基于图像的条件生成提供视觉条件

输入参数

参数名类型说明
clip视觉CLIP_VISIONCLIP视觉模型,通常通过 CLIPVisionLoader 节点加载
图像IMAGE需要编码的输入图像
裁剪下拉选择图像裁剪方式,可选值:center(居中裁剪)、none(不裁剪)

输出参数

参数名类型说明
CLIP视觉输出CLIP_VISION_OUTPUT编码后的视觉特征

这个输出对象包含:

  • last_hidden_state: 最后一层的隐藏状态
  • image_embeds: 图像嵌入向量
  • penultimate_hidden_states: 倒数第二层的隐藏状态
  • mm_projected: 多模态投影结果(如果可用)