CLIPVisionEncode - ComfyUI Built-in Node Documentation

CLIP Vision Encode 노드는 ComfyUI의 이미지 인코딩 노드로, CLIP Vision 모델을 통해 입력 이미지를 시각적 특징 벡터로 변환합니다. 이 노드는 이미지와 텍스트 이해를 연결하는 중요한 브릿지 역할을 하며, 다양한 AI 이미지 생성 및 처리 워크플로우에서 널리 사용됩니다. 노드 기능

이미지 특징 추출: 입력 이미지를 고차원 특징 벡터로 변환합니다.
멀티모달 연결: 이미지와 텍스트의 공동 처리를 위한 기반을 제공합니다.
조건부 생성: 이미지 기반 조건부 생성을 위한 시각적 조건을 제공합니다.

입력

매개변수명	설명	데이터 타입
`clip_vision`	CLIP Vision 모델로, 일반적으로 CLIPVisionLoader 노드를 통해 로드됩니다.	CLIP_VISION
`이미지`	인코딩할 입력 이미지입니다.	IMAGE
`자르기 방법`	이미지 자르기 방법입니다. 옵션: center (중앙 자르기), none (자르지 않음)	드롭다운

출력

출력명	설명	데이터 타입
CLIP_VISION_OUTPUT	인코딩된 시각적 특징입니다.	CLIP_VISION_OUTPUT

이 출력 객체에는 다음이 포함됩니다:

last_hidden_state: 마지막 은닉 상태
image_embeds: 이미지 임베딩 벡터
penultimate_hidden_states: 마지막에서 두 번째 은닉 상태
mm_projected: 멀티모달 투영 결과 (사용 가능한 경우)

이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! GitHub에서 편집

​입력

​출력

입력

출력