メインコンテンツへスキップ
Ovis-Image は、Ovis-U1 を基盤として構築された7B規模のテキストから画像を生成するモデルで、特に高品質なテキストレンダリングに最適化されています。このモデルは、Qwen-Image などのより大規模な20Bクラスのシステムと同等のテキストレンダリング品質を実現しつつ、広く普及しているハードウェア上で実行可能なほどコンパクトなサイズを維持しています。 モデルの主な特長:
  • 7B規模における優れたテキストレンダリング性能: Qwen-Image などの大規模な20Bクラスのシステムと同等のテキストレンダリング品質を提供し、GPT-4o などの主要なクローズドソースモデルと比較しても、テキスト中心のタスクにおいて競争力のある性能を発揮します
  • テキスト量の多いプロンプトに対する高忠実度: ポスターやバナー、ロゴ、UIモックアップ、インフォグラフィックなど、言語的内容とレンダリングされたタイポグラフィの厳密な整合性が求められるプロンプトに対して特に優れています
  • 正確なバイリンガルテキストレンダリング: 多様なフォント、文字サイズ、アスペクト比において、読みやすく、スペルが正しく、意味的に一貫性のある中国語および英語のテキストを生成します
  • 効率性と展開容易性: 高性能GPU1台(中程度のメモリ容量)で実行可能であり、低遅延の対話型利用をサポートします
関連リンク:

Ovis-Image のテキストから画像を生成するワークフロー

JSONワークフローファイルをダウンロード

ComfyUI Cloud 上で実行

Make sure your ComfyUI is updated.Workflows in this guide can be found in the Workflow Templates. If you can’t find them in the template, your ComfyUI may be outdated. (Desktop version’s update will delay sometime)If nodes are missing when loading a workflow, possible reasons:
  1. You are not using the latest ComfyUI version (Nightly version)
  2. Some nodes failed to import at startup

モデル関連リンク

text_encoders(テキストエンコーダ) diffusion_models(拡散モデル) vae モデルの保存場所
📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── ovis_2.5.safetensors
│   ├── 📂 diffusion_models/
│   │      └── ovis_image_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors