- 다모달 — 시각적 이해 작업을 위해 텍스트와 이미지 입력을 모두 수용합니다.
- 이미지 캡션 — 이미지를 설명하고 상세한 캡션을 생성할 수 있습니다.
- 리버스 프롬프트 엔지니어링 — 참조 이미지에서 프롬프트와 생성 파라미터를 추출합니다.
- ComfyUI 기본 제공 — 내장된
TextGenerate노드와 함께 작동하며, 맞춤형 노드가 필요하지 않습니다. - 경량성 — 4B 파라미터 모델로, 소비자용 GPU에 적합합니다.
사용 사례
Qwen3.5는 시각적 이해와 텍스트 생성을 결합해 ComfyUI 워크플로우에 가치를 더하는 시나리오에서 뛰어난 성능을 발휘합니다:- 이미지 리버스 프롬프트 엔지니어링 — 참조 이미지를 Qwen3.5에 입력하고, 해당 이미지를 재현할 수 있는 상세한 텍스트 프롬프트를 생성하도록 요청하세요. 이는 멋진 이미지를 발견했지만 어떤 프롬프트로 생성되었는지 모르는 경우에 특히 유용합니다.
- 프롬프트 최적화 — 기존 프롬프트와 이미지 컨셉을 로드한 후, Qwen3.5에게 더 풍부한 세부 정보를 포함한 프롬프트를 생성하거나 개선, 확장하도록 요청하세요. 이렇게 하면 더 나은 생성 결과를 얻을 수 있습니다.
- 이미지 캡션 생성 — 생성된 이미지에 대한 캡션, 설명 또는 메타데이터 태그를 자동으로 생성하여 카탈로그화나 학습 데이터 준비에 유용하게 활용할 수 있습니다.
- 시각적 질문 응답 — 이미지 내용에 대한 질문(“이 장면에는 어떤 물체가 있나요?”, “배경 색깔은 무엇인가요?”)을 던지고 구조화된 텍스트 답변을 받을 수 있습니다.
- 텍스트 읽기 — 적절한 프롬프트를 사용하면 이미지 속 보이는 텍스트나 라벨을 읽으려고 할 수 있지만, 신뢰성은 렌더링된 텍스트의 품질과 명확성에 따라 달라집니다.
이용 가능한 워크플로우
Qwen3.5: 텍스트 생성
워크플로우 다운로드
JSON 파일을 다운로드하거나 템플릿 라이브러리에서 “Qwen3.5 텍스트 생성”을 검색하세요.
Comfy Cloud에서 실행
Comfy Cloud에서 열기
이 워크플로우는 Qwen3.5의 텍스트 생성 및 이미지 이해 기능을 보여줍니다. 텍스트 프롬프트와 선택적 이미지를 받아들여 입력에 기반한 묘사 텍스트나 구조화된 분석을 생성합니다.
입력:
- 텍스트 프롬프트 — 질문, 지침 또는 작업 설명
- 이미지 (선택적) — 시각적 이해 작업용 (이미지 캡션, 리버스 프롬프트 엔지니어링, 프롬프트 최적화 등)
- 최대 길이 — 생성할 토큰의 최대 수 (기본값 256)
- 샘플링 모드 — 샘플링 켜기/끄기 및 온도, top-k, top-p, 반복 페널티, 시드 조정
- 기본 템플릿 사용 — 모델용 내장 시스템 프롬프트 적용
- 생성된 텍스트 — 모델의 응답을 일반 텍스트 문자열로 반환합니다.
서브그래프 알아보기
이 워크플로우는 서브그래프 노드를 사용해 모듈식 처리를 수행합니다. 서브그래프 문서를 확인해 워크플로우를 맞춤화하고 확장하는 방법을 배워보세요.
모델 다운로드
Qwen3.5 모델은 ComfyUI에서 텍스트 인코더로 로드됩니다. 하드웨어에 가장 적합한 변형을 선택하세요:Qwen3.5 2B (bf16)
경량형, 약 4.5GB. 낮은 VRAM 환경과 빠른 다운로드에 최적입니다.
Qwen3.5 4B (bf16)
균형 잡힌 크기와 품질. 대부분의 소비자용 GPU에 권장됩니다.
Qwen3.5 9B (bf16)
가장 큰 변형, 약 19GB. 더 높은 품질의 출력을 제공하며, 더 많은 VRAM을 요구합니다.
.safetensors 파일을 다음 위치에 저장하세요: