메인 콘텐츠로 건너뛰기
Ovis-ImageOvis-U1을 기반으로 구축된 7B 텍스트-to-이미지 모델로, 특히 고화질 텍스트 렌더링에 최적화되어 있습니다. 이 모델은 훨씬 더 큰 20B급 시스템과 비교해도 뒤지지 않는 텍스트 렌더링 품질을 제공하며, 동시에 널리 보급된 하드웨어에서도 실행 가능한 수준의 경량성을 유지합니다. 모델 주요 특징:
  • 7B 규모에서 강력한 텍스트 렌더링: Qwen-Image와 같은 훨씬 더 큰 20B급 시스템과 비슷한 텍스트 렌더링 품질을 제공하며, 텍스트 중심의 시나리오에서는 GPT4o와 같은 선도적인 클로즈드소스 모델들과 경쟁할 만큼 우수합니다.
  • 텍스트가 많은 프롬프트에서 높은 정밀도: 언어적 내용과 렌더링된 타이포그래피 간의 긴밀한 일치를 요구하는 프롬프트(예: 포스터, 배너, 로고, UI 모크업, 인포그래픽 등)에서 뛰어난 성능을 발휘합니다.
  • 정확한 양국어 텍스트 렌더링: 다양한 폰트, 크기 및 종횡비에서 중국어와 영어 모두에서 읽기 쉽고 맞춤법이 올바르며 의미적으로 일관된 텍스트를 생성합니다.
  • 효율성과 배포 가능성: 중간 정도의 메모리를 가진 고급 GPU 하나에 적합하며, 낮은 지연 시간의 대화형 사용을 지원합니다.
관련 링크:

Ovis-Image 텍스트-to-이미지 워크플로우

JSON 워크플로우 파일 다운로드

ComfyUI 클라우드에서 실행하기

ComfyUI가 최신 버전으로 업데이트되었는지 확인하세요.이 가이드의 워크플로우는 워크플로우 템플릿에서 확인할 수 있습니다. 템플릿에서 찾을 수 없다면, 귀하의 ComfyUI가 오래된 버전일 수 있습니다. (데스크톱 버전의 업데이트는 다소 지연될 수 있습니다)워크플로우를 로드할 때 노드가 누락되는 경우, 가능한 원인:
  1. 최신 ComfyUI 버전(야간 빌드)을 사용하고 있지 않음
  2. 일부 노드가 시작 시 가져오기에 실패함

모델 링크

text_encoders diffusion_models vae 모델 저장 위치
📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── ovis_2.5.safetensors
│   ├── 📂 diffusion_models/
│   │      └── ovis_image_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors