跳转到主要内容
CLIP Vision Encode 节点是 ComfyUI 中的图像编码节点,用于通过 CLIP Vision 模型将输入图像转换为视觉特征向量。该节点是连接图像与文本理解的重要桥梁,广泛应用于各类 AI 图像生成与处理工作流中。 节点功能
  • 图像特征提取:将输入图像转换为高维特征向量
  • 多模态桥接:为图像与文本的联合处理提供基础
  • 条件生成:为基于图像的条件生成提供视觉条件

输入

参数名描述数据类型
clip视觉CLIP 视觉模型,通常通过 CLIPVisionLoader 节点加载CLIP_VISION
图像待编码的输入图像IMAGE
裁剪图像裁剪方式,选项:center(中心裁剪)、none(不裁剪)Dropdown

输出

输出名描述数据类型
CLIP_VISION_OUTPUT编码后的视觉特征CLIP_VISION_OUTPUT
该输出对象包含:
  • last_hidden_state:最后隐藏状态
  • image_embeds:图像嵌入向量
  • penultimate_hidden_states:倒数第二隐藏状态
  • mm_projected:多模态投影结果(若存在)
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑