CLIP Vision Encode 노드는 ComfyUI의 이미지 인코딩 노드로, CLIP Vision 모델을 통해 입력 이미지를 시각적 특징 벡터로 변환합니다. 이 노드는 이미지와 텍스트 이해를 연결하는 중요한 브릿지 역할을 하며, 다양한 AI 이미지 생성 및 처리 워크플로우에서 널리 사용됩니다.
노드 기능
- 이미지 특징 추출: 입력 이미지를 고차원 특징 벡터로 변환합니다.
- 멀티모달 연결: 이미지와 텍스트의 공동 처리를 위한 기반을 제공합니다.
- 조건부 생성: 이미지 기반 조건부 생성을 위한 시각적 조건을 제공합니다.
입력
| 매개변수명 | 설명 | 데이터 타입 |
|---|---|---|
clip_vision | CLIP Vision 모델로, 일반적으로 CLIPVisionLoader 노드를 통해 로드됩니다. | CLIP_VISION |
이미지 | 인코딩할 입력 이미지입니다. | IMAGE |
자르기 방법 | 이미지 자르기 방법입니다. 옵션: center (중앙 자르기), none (자르지 않음) | 드롭다운 |
출력
| 출력명 | 설명 | 데이터 타입 |
|---|---|---|
| CLIP_VISION_OUTPUT | 인코딩된 시각적 특징입니다. | CLIP_VISION_OUTPUT |
last_hidden_state: 마지막 은닉 상태image_embeds: 이미지 임베딩 벡터penultimate_hidden_states: 마지막에서 두 번째 은닉 상태mm_projected: 멀티모달 투영 결과 (사용 가능한 경우)
이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! GitHub에서 편집